word正则表达式大全,帮忙解释下这段正则表达式
word正则表达式大全,帮忙解释下这段正则表达式详细介绍
本文目录一览: word的正则匹配文档序号
在word中能够实现自动连续编号这一功能的域有AutoNum、AutoNumLgl、AutoNumOut和ListNum等。前三个域仅可以实现每个段落的连续编号,不能实现段落内每个句子的连续编号,且不能调整编号开始的数字。在同一个文档内,AutoNum、AutoNumLgl和AutoNumOut三个域之间是相互影响的,如前面几段使用了AutoNum域进行编号,后面使用AutoNumLgl域进行编号,后面的编号是接续前面AutoNum域的编号的,不是重新开始的。ListNum可以实现文档内每个句子的自动连续编号。ListNum是一种多级列表域,有四种内置列表。域代码与相应的输出如下。
(1)、{ LISTNUM l 1 }——输出内置默认列表的一级编号“1)”
(2)、{ LISTNUM LegalDefault l 1 }——输出输出内置LegalDefault列表的一级编号“1.”
(3)、{ LISTNUM NumberDefault l 1 }——输出输出内置NumberDefault 列表的一级编号“1)”
(4)、{ LISTNUM OutlineDefault l 1 }——输出输出内置OutlineDefault列表的一级编号“I.”
ListNum域,可以在任意位置设置编号重新以任意数字开始,编号的样式也比较多,而且是多级的编号,使用起来是很方便的。
所以使用第(2)个域代码可以实现上图所示的编号功能。
首先使用快捷键Ctrl+F9,输入一对域代码专用的大括号,然后将代码LISTNUM LegalDefault l 1 写入大括号内,按F9刷新即可得到域结果1.。
如果文档内容较少,那么我们可以手动复制这个域到其他位置,即可实现连续自动编号。
但文档内容多,我们需要将此域用于查找替换对话框中,以实现批量替换。
由于不能直接复制域代码放入替换框中,所以我们输入了第一个域代码后,需要将其剪切,然后在替换框中使用“^c”(剪贴板内容)来代替它。
能够实现查找每一句话的正则表达式
接下来,只要在“查找和替换”对话框中,批量查找每一个句子,并在其前面加上这个域代码即可。根据每个句子总是以文字开头,并以特定的几个标点结尾,写出如下表达式:
查找内容:([!^13^l]*[.?!。!?……])
替换:^c1
勾选“使用通配符”
最后点击“全部替换”即可完成整篇文档每个句子的自动连续编号。
帮忙解释下这段正则表达式
^(\w+((-\w+)|(\.\w+))*)\+\w+((-\w+)|(\.\w+))*\@[A-Za-z0-9]+((\.|-)[A-Za-z0-9]+)*\.[A-Za-z0-9]+$
Assert position at the beginning of the string ?^?
Match the regular expression below and capture its match into backreference number 1 ?(\w+((-\w+)|(\.\w+))*)?
Match a single character that is a “word character” (letters, digits, etc.) ?\w+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
Match the regular expression below and capture its match into backreference number 2 ?((-\w+)|(\.\w+))*?
Between zero and unlimited times, as many times as possible, giving back as needed (greedy) ?*?
Note: You repeated the capturing group itself. The group will capture only the last iteration. Put a capturing group around the repeated group to capture all iterations. ?*?
Match either the regular expression below (attempting the next alternative only if this one fails) ?(-\w+)?
Match the regular expression below and capture its match into backreference number 3 ?(-\w+)?
Match the character “-” literally ?-?
Match a single character that is a “word character” (letters, digits, etc.) ?\w+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
Or match regular expression number 2 below (the entire group fails if this one fails to match) ?(\.\w+)?
Match the regular expression below and capture its match into backreference number 4 ?(\.\w+)?
Match the character “.” literally ?\.?
Match a single character that is a “word character” (letters, digits, etc.) ?\w+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
Match the character “+” literally ?\+?
Match a single character that is a “word character” (letters, digits, etc.) ?\w+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
Match the regular expression below and capture its match into backreference number 5 ?((-\w+)|(\.\w+))*?
Between zero and unlimited times, as many times as possible, giving back as needed (greedy) ?*?
Note: You repeated the capturing group itself. The group will capture only the last iteration. Put a capturing group around the repeated group to capture all iterations. ?*?
Match either the regular expression below (attempting the next alternative only if this one fails) ?(-\w+)?
Match the regular expression below and capture its match into backreference number 6 ?(-\w+)?
Match the character “-” literally ?-?
Match a single character that is a “word character” (letters, digits, etc.) ?\w+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
Or match regular expression number 2 below (the entire group fails if this one fails to match) ?(\.\w+)?
Match the regular expression below and capture its match into backreference number 7 ?(\.\w+)?
Match the character “.” literally ?\.?
Match a single character that is a “word character” (letters, digits, etc.) ?\w+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
Match the character “@” literally ?\@?
Match a single character present in the list below ?[A-Za-z0-9]+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
A character in the range between “A” and “Z” ?A-Z?
A character in the range between “a” and “z” ?a-z?
A character in the range between “0” and “9” ?0-9?
Match the regular expression below and capture its match into backreference number 8 ?((\.|-)[A-Za-z0-9]+)*?
Between zero and unlimited times, as many times as possible, giving back as needed (greedy) ?*?
Note: You repeated the capturing group itself. The group will capture only the last iteration. Put a capturing group around the repeated group to capture all iterations. ?*?
Match the regular expression below and capture its match into backreference number 9 ?(\.|-)?
Match either the regular expression below (attempting the next alternative only if this one fails) ?\.?
Match the character “.” literally ?\.?
Or match regular expression number 2 below (the entire group fails if this one fails to match) ?-?
Match the character “-” literally ?-?
Match a single character present in the list below ?[A-Za-z0-9]+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
A character in the range between “A” and “Z” ?A-Z?
A character in the range between “a” and “z” ?a-z?
A character in the range between “0” and “9” ?0-9?
Match the character “.” literally ?\.?
Match a single character present in the list below ?[A-Za-z0-9]+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
A character in the range between “A” and “Z” ?A-Z?
A character in the range between “a” and “z” ?a-z?
A character in the range between “0” and “9” ?0-9?
Assert position at the end of the string (or before the line break at the end of the string, if any) ?$?
匹配中文字符的正则表达式: [\u4e00-\u9fa5]
匹配双字节字符(包括汉字在内):[^\x00-\xff]
匹配空行的正则表达式:\n[\s| ]*\r
匹配HTML标记的正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/
匹配首尾空格的正则表达式:(^\s*)|(\s*$)
匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
匹配网址URL的正则表达式:http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?
(1)应用:计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
String.prototype.len=function(){return this.replace([^\x00-\xff]/g,"aa").length;}
(2)应用:javascript中没有像vbscript那样的trim函数,我们就可以利用这个表达式来实现
String.prototype.trim = function()
{
return this.replace(/(^\s*)|(\s*$)/g, "");
}
(3)应用:利用正则表达式分解和转换IP地址
function IP2V(ip) //IP地址转换成对应数值
{
re=/(\d+)\.(\d+)\.(\d+)\.(\d+)/g //匹配IP地址的正则表达式
if(re.test(ip))
{
return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1
}
else
{
throw new Error("Not a valid IP address!")
}
}
(4)应用:从URL地址中提取文件名的javascript程序
s="http://www.9499.net/page1.htm";
s=s.replace(/(.*\/){0,}([^\.]+).*/ig,"$2") ; //Page1.htm
(5)应用:利用正则表达式限制网页表单里的文本框输入内容
用正则表达式限制只能输入中文:onkeyup="value=value.replace(/[^\u4E00-\u9FA5]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\u4E00-\u9FA5]/g,''))"
用正则表达式限制只能输入全角字符: onkeyup="value=value.replace(/[^\uFF00-\uFFFF]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\uFF00-\uFFFF]/g,''))"
用正则表达式限制只能输入数字:onkeyup="value=value.replace(/[^\d]/g,'') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\d]/g,''))"
用正则表达式限制只能输入数字和英文:onkeyup="value=value.replace(/[\W]/g,'') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\d]/g,''))"
====================================================
正则表达式大全
正则表达式用于字符串处理,表单验证等场合,实用高效,但用到时总是不太把握,以致往往要上网查一番。我将一些常用的表达式收藏在这里,作备忘之用。本贴随时会更新。
匹配中文字符的正则表达式: [\u4e00-\u9fa5]
匹配双字节字符(包括汉字在内):[^\x00-\xff]
应用:计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
String.prototype.len=function(){return this.replace([^\x00-\xff]/g,"aa").length;}
匹配空行的正则表达式:\n[\s| ]*\r
匹配HTML标记的正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/
匹配首尾空格的正则表达式:(^\s*)|(\s*$)
应用:javascript中没有像vbscript那样的trim函数,我们就可以利用这个表达式来实现,如下:
String.prototype.trim = function()
{
return this.replace(/(^\s*)|(\s*$)/g, "");
}
利用正则表达式分解和转换IP地址:
下面是利用正则表达式匹配IP地址,并将IP地址转换成对应数值的javascript程序:
function IP2V(ip)
{
re=/(\d+)\.(\d+)\.(\d+)\.(\d+)/g //匹配IP地址的正则表达式
if(re.test(ip))
{
return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1
}
else
{
throw new Error("Not a valid IP address!")
}
}
不过上面的程序如果不用正则表达式,而直接用split函数来分解可能更简单,程序如下:
var ip="10.100.20.168"
ip=ip.split(".")
alert("IP值是:"+(ip[0]*255*255*255+ip[1]*255*255+ip[2]*255+ip[3]*1))
匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
匹配网址URL的正则表达式:http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?
利用正则表达式去除字串中重复的字符的算法程序:[注:此程序不正确,原因见本贴回复]
var s="abacabefgeeii"
var s1=s.replace(/(.).*\1/g,"$1")
var re=new RegExp("["+s1+"]","g"?琼?涡獢p?????浜睹扥潜桴牥掼极慢?瑨m?)
var s2=s.replace(re,"")
alert(s1+s2) //结果为:abcefgi
我原来在CSDN上发贴寻求一个表达式来实现去除重复字符的方法,最终没有找到,这是我能想到的最简单的实现方法。思路是使用后向引用取出包括重复的字符,再以重复的字符建立第二个表达式,取到不重复的字符,两者串连。这个方法对于字符顺序有要求的字符串可能不适用。
得用正则表达式从URL地址中提取文件名的javascript程序,如下结果为page1
s="http://www.9499.net/page1.htm"
s=s.replace(/(.*\/){0,}([^\.]+).*/ig,"$2")
alert(s)
利用正则表达式限制网页表单里的文本框输入内容:
用正则表达式限制只能输入中文:onkeyup="value=value.replace(/[^\u4E00-\u9FA5]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\u4E00-\u9FA5]/g,''))"
用正则表达式限制只能输入全角字符: onkeyup="value=value.replace(/[^\uFF00-\uFFFF]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\uFF00-\uFFFF]/g,''))"
用正则表达式限制只能输入数字:onkeyup="value=value.replace(/[^\d]/g,'') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\d]/g,''))"
用正则表达式限制只能输入数字和英文:onkeyup="value=value.replace(/[\W]/g,'') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\d]/g,''))"
补充:
^\d+$ //匹配非负整数(正整数 + 0)
^[0-9]*[1-9][0-9]*$ //匹配正整数
^((-\d+)|(0+))$ //匹配非正整数(负整数 + 0)
^-[0-9]*[1-9][0-9]*$ //匹配负整数
^-?\d+$ //匹配整数
^\d+(\.\d+)?$ //匹配非负浮点数(正浮点数 + 0)
^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$ //匹配正浮点数
^((-\d+(\.\d+)?)|(0+(\.0+)?))$ //匹配非正浮点数(负浮点数 + 0)
^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$ //匹配负浮点数
^(-?\d+)(\.\d+)?$ //匹配浮点数
^[A-Za-z]+$ //匹配由26个英文字母组成的字符串
^[A-Z]+$ //匹配由26个英文字母的大写组成的字符串
^[a-z]+$ //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$ //匹配由数字和26个英文字母组成的字符串
^\w+$ //匹配由数字、26个英文字母或者下划线组成的字符串
^[\w-]+(\.[\w?琼?涡獢p?????浜睹扥潜桴牥掼极慢?瑨m?-]+)*@[\w-]+(\.[\w-]+)+$ //匹配email地址
^[a-zA-z]+://匹配(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$ //匹配url
利用正则表达式去除字串中重复的字符的算法程序:
var s="abacabefgeeii"
var s1=s.replace(/(.).*\1/g,"$1")
var re=new RegExp("["+s1+"]","g")
var s2=s.replace(re,"")
alert(s1+s2) //结果为:abcefgi
===============================
如果var s = "abacabefggeeii"
结果就不对了,结果为:abeicfgg
正则表达式的能力有限
RE: totoro
谢谢你的指点,这个javascript正则表达式程序算法确实有问题,我会试着找更好的办法!!!
1.确认有效电子邮件格式
下面的代码示例使用静态 Regex.IsMatch 方法验证一个字符串是否为有效电子邮件格式。如果字符串包含一个有效的电子邮件地址,则 IsValidEmail 方法返回 true,否则返回 false,但不采取其他任何操作。您可以使用 IsValidEmail,在应用程序将地址存储在数据库中或显示在 ASP.NET 页中之前,筛选出包含无效字符的电子邮件地址。
[Visual Basic]
Function IsValidEmail(strIn As String) As Boolean
' Return true if strIn is in valid e-mail format.
Return Regex.IsMatch(strIn, ("^([\w-\.]+)@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|(([\w-]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]?)$")
End Function
[C#]
bool IsValidEmail(string strIn)
{
// Return true if strIn is in valid e-mail format.
return Regex.IsMatch(strIn, @"^([\w-\.]+)@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|(([\w-]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]?)$");
}
2.清理输入字符串
下面的代码示例使用静态 Regex.Replace 方法从字符串中抽出无效字符。您可以使用这里定义的 CleanInput 方法,清除掉在接受用户输入的窗体的文本字段中输入的可能有害的字符。CleanInput 在清除掉除 @、-(连字符)和 .(句点)以外的所有非字母数字字符后返回一个字符串。
[Visual Basic]
Function CleanInput(strIn As String) As String
' Replace invalid characters with empty strings.
Return Regex.Replace(strIn, "[^\w\.@-]", "")
End Function
[C#]
String CleanInput(string strIn)
?琼?涡獢p?????浜睹扥潜桴牥掼极慢?瑨m?{
// Replace invalid characters with empty strings.
return Regex.Replace(strIn, @"[^\w\.@-]", "");
}
3.更改日期格式
以下代码示例使用 Regex.Replace 方法来用 dd-mm-yy 的日期形式代替 mm/dd/yy 的日期形式。
[Visual Basic]
Function MDYToDMY(input As String) As String
Return Regex.Replace(input, _
"\b(?
\d{1,2})/(?
\d{1,2})/(?
\d{2,4})\b", _
"${day}-${month}-${year}")
End Function
[C#]
String MDYToDMY(String input)
{
return Regex.Replace(input,
"\\b(?
\\d{1,2})/(?
\\d{1,2})/(?
\\d{2,4})\\b",
"${day}-${month}-${year}");
}
Regex 替换模式
本示例说明如何在 Regex.Replace 的替换模式中使用命名的反向引用。其中,替换表达式 ${day} 插入由 (?
...) 组捕获的子字符串。
有几种静态函数使您可以在使用正则表达式操作时无需创建显式正则表达式对象,而 Regex.Replace 函数正是其中之一。如果您不想保留编译的正则表达式,这将给您带来方便
4.提取 URL 信息
以下代码示例使用 Match.Result 来从 URL 提取协议和端口号。例如,“http://www.contoso.com:8080/letters/readme.html”将返回“http:8080”。
[Visual Basic]
Function Extension(url As String) As String
Dim r As New Regex("^(?
\w+)://[^/]+?(?
:\d+)?/", _
RegexOptions.Compiled)
Return r.Match(url).Result("${proto}${port}")
End Function
[C#]
String Extension(String url)
{
Regex r = new Regex(@"^(?
\w+)://[^/]+?(?
:\d+)?/",
RegexOptions.Compiled);
return r.Match(url).Result("${proto}${port}");
}
今天有网友问:如何用正则表达式表示要么是数字要么是字母 是字母的话只能是一个字母 数字则无所谓?
我的回答是:
^[a-zA-Z]$|^\d+$
正则表达式匹配字符串组合
正则表达式应用——实例应用
1.验证用户名和密码:("^[a-zA-Z]\w{5,15}$")正确格式:"[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位;
2.验证电话号码:("^(\d{3.4}-)\d{7,8}$")正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx;
3.验证身份证号(15位或18位数字):("^\d{15}|\d{18}$");
4.验证Email地址:("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$");
5.只能输入由数字和26个英文字母组成的字符串:("^[A-Za-z0-9]+$")
;
6.整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$
7.只能输入数字:"^[0-9]*$"。
8.只能输入n位的数字:"^\d{n}$"。
9.只能输入至少n位的数字:"^\d{n,}$"。
10.只能输入m~n位的数字:。"^\d{m,n}$"
11.只能输入零和非零开头的数字:"^(0|[1-9][0-9]*)$"。
12.只能输入有两位小数的正实数:"^[0-9]+(.[0-9]{2})?$"。
13.只能输入有1~3位小数的正实数:"^[0-9]+(.[0-9]{1,3})?$"。
14.只能输入非零的正整数:"^\+?[1-9][0-9]*$"。
15.只能输入非零的负整数:"^\-[1-9][]0-9"*$。
16.只能输入长度为3的字符:"^.{3}$"。
17.只能输入由26个英文字母组成的字符串:"^[A-Za-z]+$"。
18.只能输入由26个大写英文字母组成的字符串:"^[A-Z]+$"。
19.只能输入由26个小写英文字母组成的字符串:"^[a-z]+$"。
20.验证是否含有^%&',;=?$\"等字符:"[^%&',;=?$\x22]+"。
21.只能输入汉字:"^[\u4e00-\u9fa5]{0,}$"
22.验证URL:"^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。
23.验证一年的12个月:"^(0?[1-9]|1[0-2])$"正确格式为:"01"~"09"和"1"~"12"。
24.验证一个月的31天:"^((0?[1-9])|((1|2)[0-9])|30|31)$"正确格式为;"01"~"09"和"1"~"31"。
25.获取日期正则表达式:\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日?
评注:可用来匹配大多数年月日信息。
26.匹配双字节字符(包括汉字在内):[^\x00-\xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
27.匹配空白行的正则表达式:\n\s*\r
评注:可以用来删除空白行
28.匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?|<.*?
/>
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力
29.匹配首尾空白字符的正则表达式:^\s*|\s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
30.匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求
31.匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注:表单验证时很实用
32.匹配腾讯QQ号:[1-9][0-9]\{4,\}
评注:腾讯QQ号从1000
0
开始
33.匹配中国邮政编码:[1-9]\d{5}(?!\d)
评注:中国邮政编码为6位数字
34.匹配ip地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
(?(word)w+)s+(k(word)) 正则表达式
\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。
\b 匹配一个单词边界,也就是指单词和空格间的位置。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
? 匹配前面的子表达式零次或一次。? 等价于 {0,1}。
+ 匹配前面的子表达式一次或多次。+ 等价于 {1,}。
\w 匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。
http://deerchao.net/tutorials/regex/regex.htm
看看吧,正则的教程,讲解很清晰。我什么都不懂,看了就能写一些简单的正则了
转义字符 \b 是一个特例。在正则表达式中,\b 表示单词边界(在 \w 和 \W 之间),不过,在 [] 字符类中,\b 表示退格符。在替换模式中,\b 始终表示退格符。
(?
子表达式)
将匹配的子表达式捕获到一个组名称或编号名称中。用于 name 的字符串不得包含任何标点符号,并且不能以数字开头。可以使用单引号替代尖括号,例如 (?'name')。
\s
与任何空白字符匹配。等效于转义符和 Unicode 通用类别 [\f\n\r\t\v\x85\p{Z}]。如果通过 ECMAScript 选项指定了符合 ECMAScript 的行为,则 \s 等效于 [ \f\n\r\t\v]。
\k
命名后向引用。例如,(?
\w)\k
查找双写的单词字符。表达式 (?<43>\w)\43 执行同样的操作。可以使用单引号替代尖括号,例如 \k'char'。
\b(?
\w+)\s+(\k
)\b
这句话的意思是,匹配两个连续两个中间有空格(空白)的单词。
比如
This is the the big world.
中的the the
word vba 用正则表达式查找文字,不改内容只换字体
数字和字母的正则表达式为[a-zA-Z0-9]或\w+
除了数字和字母以外其他的正则表达式为[^a-zA-Z0-9]或\W+
正则表达式的符号
(摘自《正则表达式之道》)正则表达式 由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义,我们下面会给予解释。在最简单的情况下,一个正则表达式看上去就是一个普通的查找串。例如,正则表达式testing中没有包含任何元字符,它可以匹配testing和testing123等字符串,但是不能匹配Testing。要想真正的用好正则表达式,正确的理解元字符是最重要的事情。下表列出了所有的元字符和对它们的一个简短的描述。 元字符 描述 \ 将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如,“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。 ^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。 $ 匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。 * 匹配前面的子表达式任意次。例如,zo*能匹配“z”,“zo”以及“zoo”,但是不匹配“bo”。*等价于{0,}。 + 匹配前面的子表达式一次或多次(大于等于1次)。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等价于{1,}。 ? 匹配前面的子表达式零次或一次。例如,“do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。 {n} n是一个非负整数。匹配确定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的两个o。 {n,} n是一个非负整数。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。 {n,m} m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。 ? 当该字符紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,“o+?”将匹配单个“o”,而“o+”将匹配所有“o”。 .点 匹配除“\r\n”之外的任何单个字符。要匹配包括“\r\n”在内的任何字符,请使用像“[\s\S]”的模式。 (pattern) 匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中则使用$0…$9属性。要匹配圆括号字符,请使用“\(”或“\)”。 (?:pattern) 非获取匹配,匹配pattern但不获取匹配结果,不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。 (?=pattern) 非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 (?!pattern) 非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。 (?<=pattern) 非获取匹配,反向肯定预查,与正向肯定预查类似,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。 (?
<!--pattern) 非获取匹配,反向否定预查,与正向否定预查类似,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。这个地方不正确,有问题 x|y 匹配x或y。例如,“z|food”能匹配“z”或“food”(此处请谨慎)。“(z|f)ood”则匹配“zood”或“food”。 [xyz] 字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”。 [^xyz] 负值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“plin”。 [a-z] 字符范围。匹配指定范围内的任意字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围; 如果出字符组的开头,则只能表示连字符本身. [^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。 \b 匹配一个单词边界,也就是指单词和空格间的位置(即正则表达式的“匹配”有两种概念,一种是匹配字符,一种是匹配位置,这里的\b就是匹配位置的)。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。 \B 匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。 \cx 匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的“c”字符。 \d 匹配一个数字字符。等价于[0-9]。 \D 匹配一个非数字字符。等价于[^0-9]。 \f 匹配一个换页符。等价于 和\cL。 \n 匹配一个换行符。等价于 和\cJ。 \r 匹配一个回车符。等价于 和\cM。 \s 匹配任何不可见字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。 \S 匹配任何可见字符。等价于[^ \f\n\r\t\v]。 \t 匹配一个制表符。等价于 和\cI。 \v 匹配一个垂直制表符。等价于 和\cK。 \w 匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”,这里的单词字符使用Unicode字符集。 \W 匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。 \xn 匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,“ ”匹配“A”。“ 1”则等价于“ &1”。正则表达式中可以使用ASCII编码。 \num 匹配num,其中num是一个正整数。对所获取的匹配的引用。例如,“(.)\1”匹配两个连续的相同字符。 \n 标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值。 \nm 标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。如果\nm之前至少有n个获取,则n为一个后跟文字m的向后引用。如果前面的条件都不满足,若n和m均为八进制数字(0-7),则\nm将匹配八进制转义值nm。 \nml 如果n为八进制数字(0-7),且m和l均为八进制数字(0-7),则匹配八进制转义值nml。 \un 匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如,\u00A9匹配版权符号(?)。 \p{P} 小写 p 是 property 的意思,表示 Unicode 属性,用于 Unicode 正表达式的前缀。中括号内的“P”表示Unicode 字符集七个字符属性之一:标点字符。其他六个属性:L:字母;M:标记符号(一般不会单独出现);Z:分隔符(比如空格、换行等);S:符号(比如数学符号、货币符号等);N:数字(比如阿拉伯数字、罗马数字等);C:其他字符。*注:此语法部分语言不支持,例:javascript。 匹配词(word)的开始(<)和结束(>)。例如正则表达式
能够匹配字符串for the wise中的the,但是不能匹配字符串otherwise中的the。注意:这个元字符不是所有的软件都支持的。( )将( 和 ) 之间的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域(一个正则表达式中最多可以保存9个),它们可以用 \1 到\9 的符号来引用。|将两个匹配条件进行逻辑“或”(Or)运算。例如正则表达式(him|her) 匹配it belongs to him和it belongs to her,但是不能匹配it belongs to them.。注意:这个元字符不是所有的软件都支持的。+匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意:这个元字符不是所有的软件都支持的。?匹配0或1个正好在它之前的那个字符。注意:这个元字符不是所有的软件都支持的。{i} {i,j}匹配指定数目的字符,这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]{3} 能够匹配字符A后面跟着正好3个数字字符的串,例如A123、A348等,但是不匹配A1234。而正则表达式[0-9]{4,6} 匹配连续的任意4个、5个或者6个数字最简单的元字符是点,它能够匹配任何单个字符(注意不包括换行符)。假定有个文件test.txt包含以下几行内容:he is arathe is in a rutthe food is RottenI like root beer我们可以使用grep命令来测试我们的正则表达式,grep命令使用正则表达式去尝试匹配指定文件的每一行,并将至少有一处匹配表达式的所有行显示出来。命令grep r.t test.txt在test.txt文件中的每一行中搜索正则表达式r.t,并打印输出匹配的行。正则表达式r.t匹配一个r接着任何一个字符再接着一个t。所以它将匹配文件中的rat和rut,而不能匹配Rotten中的Rot,因为正则表达式是大小写敏感的。要想同时匹配大写和小写字母,应该使用字符区间元字符(方括号)。正则表达式[Rr]能够同时匹配R和r。所以,要想匹配一个大写或者小写的r接着任何一个字符再接着一个t就要使用这个表达式:[Rr].t。要想匹配行首的字符要使用抑扬字符(^)——有时也被叫做插入符。例如,想找到text.txt中行首he打头的行,你可能会先用简单表达式he,但是这会匹配第三行的the,所以要使用正则表达式^he,它只匹配在行首出现的he。有时候指定“除了×××都匹配”会比较容易达到目的,当抑扬字符(^)出方括号中时,它表示“排除”,例如要匹配he ,但是排除前面是t or s的情形(也就是the和she),可以使用:[^st]he。可以使用方括号来指定多个字符区间。例如正则表达式[A-Za-z]匹配任何字母,包括大写和小写的;正则表达式[A-Za-z][A-Za-z]* 匹配一个字母后面接着0或者多个字母(大写或者小写)。当然我们也可以用元字符+做到同样的事情,也就是:[A-Za-z]+ ,和[A-Za-z][A-Za-z]*完全等价。但是要注意元字符+ 并不是所有支持正则表达式的程序都支持的。关于这一点可以参考后面的正则表达式语法支持情况。要指定特定数量的匹配,要使用大括号(注意必须使用反斜杠来转义)。想匹配所有10和100的实例而排除1和 1000,可以使用:10\{1,2\},这个正则表达式匹配数字1后面跟着1或者2个0的模式。在这个元字符的使用中一个有用的变化是忽略第二个数字,例如正则表达式0\{3,\} 将匹配至少3个连续的0。例1将所有方法foo(a,b,c)的实例改为foo(b,a,c)。这里a、b和c可以是任何提供给方法foo()的参数。也就是说我们要实现这样的转换:之前 之后foo(10,7,2) foo(7,10,2)foo(x+13,y-2,10) foo(y-2,x+13,10)foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)下面这条替换命令能够实现这一魔法::%s/foo(\([^,]*\),\([^,]*\),\([^,)]*\))/foo(\2,\1,\3)/g让我们把它打散来加以分析。写出这个表达式的基本思路是找出foo()和它的括号中的三个参数的位置。第一个参数是用这个表达式来识别的::\([^,]*\),我们可以从里向外来分析它:[^,] 除了逗号之外的任何字符[^,]* 0或者多个非逗号字符\([^,]*\) 将这些非逗号字符标记为\1,这样可以在之后的替换模式表达式中引用它\([^,]*\), 我们必须找到0或者多个非逗号字符后面跟着一个逗号,并且非逗号字符那部分要标记出来以备后用。正是指出一个使用正则表达式常见错误的最佳时机。为什么我们要使用[^,]*这样的一个表达式,而不是更加简单直接的写法,例如:.*,来匹配第一个参数呢?设想我们使用模式.*来匹配字符串10,7,2,它应该匹配10,还是10,7,?为了解决这个两义性(ambiguity),正则表达式规定一律按照最长的串来,在上面的例子中就是10,7,,显然这样就找出了两个参数而不是我们期望的一个。所以,我们要使用[^,]*来强制取出第一个逗号之前的部分。这个表达式我们已经分析到了:foo(\([^,]*\),这一段可以简单的翻译为“当你找到foo(就把其后直到第一个逗号之前的部分标记为\1”。然后我们使用同样的办法标记第二个参数为\2。对第三个参数的标记方法也是一样,只是我们要搜索所有的字符直到右括号。我们并没有必要去搜索第三个参数,因为我们不需要调整它的位置,但是这样的模式能够保证我们只去替换那些有三个参数的foo()方法调用,在foo()是一个重载(overloading)方法时这种明确的模式往往是比较保险的。然后,在替换部分,我们找到foo()的对应实例,然后利用标记好的部分进行替换,是把第一和第二个参数交换位置。正则表达式语法支持情况 命令或环境 . [ ] ^ $ \( \) \{ \} ? + | ( ) vi √ √ √ √ √ Visual C++ √ √ √ √ √ awk √ √ √ √ awk是支持该语法的,只是要在命令行加入 --posix or --re-interval参数即可,可见man awk中的interval expression √ √ √ √ sed √ √ √ √ √ √ delphi √ √ √ √ √ √ √ √ √ python √ √ √ √ √ √ √√√√java √ √ √ √ √ √ javascript √ √ √ √ √ √ √ √ √ php √ √ √ √ √ perl √ √ √ √ √ √ √ √ √ C# √ √ √ √ √ √ √ √
正则表达式入门经典的目录
第1章正则表达式概述1.1什么是正则表达式1.2可以使用正则表达式做什么1.3使用过的正则表达式1.4为什么正则表达式看起来令人生畏1.5支持正则表达式的语言1.6替换大量文本第2章正则表达式工具和使用方法2.1正则表达式工具2.2基于语言和平台的工具2.3使用正则表达式的分析方法第3章简单的正则表达式3.1匹配单个字符3.2匹配可选字符3.3其他限量操作符3.4大括号语法3.5练习第4章元字符和修饰符4.1正则表达式的元字符4.2空白和非空白元字符4.3修饰符4.4练习第5章字符类5.1字符类概述5.2在字符类中使用范围5.3字符类中元字符的含义5.4对字符类取反5.5POSIX字符类5.6练习第6章字符串.行和词边界6.1字符串.行和词边界6.2什么是词6.3识别词边界6.4练习第7章正则表达式中的圆括号7.1使用圆括号分组7.2交替选择7.3捕获圆括号7.4非捕获的圆括号7.5反向引用7.6练习第8章向前查找和向后查找8.1为什么需要向前查找和向后查找8.2向前查找8.3肯定式向前查找的例子8.4向后查找8.5如何匹配位置8.6练习第9章正则表达式的灵敏度和特殊性9.1什么是灵敏度和特殊性9.2灵敏度和特殊性的平衡9.3元字符如何影响灵敏度和特殊性9.4了解数据.灵敏度和特殊性9.5重新分析StarTrainingCompany的例子9.6练习第10章说明和调试正则表达式10.1说明正则表达式10.2了解你的数据10.3创建测试用例10.4调试正则表达式第11章在MicrosoftWord中使用正则表达式11.1用户界面11.2可用的元字符11.3例子11.4搜索和替换的例子11.5VBA中的正则表达式11.6练习第12章在StarOffice/OpenOffice.orgWriter中使用正则表达式..12.1用户界面12.2可用的元字符12.3搜索的例子12.4搜索和替换的例子12.5POSIX字符类12.6练习第13章通过findstr使用正则表达式13.1findstr简介13.2findstr支持的元字符13.3词边界位置13.4行开始位置和结束位置13.5单个文件的例子13.6多个文件的例子13.7文件列表的例子13.8练习第14章PowerGREP14.1PowerGREP的界面14.2PowerGREP支持的元字符14.3复杂一点的例子14.4练习第15章MicrosoftExcel中的通配符15.1Excel的查找界面15.2Excel支持的通配符15.3在记录单中使用通配符15.4在筛选中使用通配符15.5练习第16章SQLServer2000中的正则表达式功能16.1支持的元字符16.2在LIKE中使用正则表达式16.3对字符类取反16.4使用全文搜索16.5图像字段中的筛选器16.6练习第17章在MySQL中使用正则表达式17.1MySQL简介17.2MySQL支持的元字符17.3使用REGEXP关键字和元字符17.4社会保险号的例子17.5练习第18章正则表达式与MicrosoftAccess18.1MicrosoftAccess中元字符的用法18.2Access支持的元字符18.3使用#元字符18.4使用#字符匹配日期/时间数据18.5在Access中使用字符类18.6练习第19章JScdpt和JavaScript中的正则表达式19.1在JavaScript和JScript中使用正则表达式19.2JavaScript和JScnPt中的元字符19.3说明JavaScript正则表达式19.4验证SSN的例子19.5练习第20章正则表达式与VBS20.1RegExp对象及其用法20.2使用Match对象和Matches集合20.3VBScript支持的元字20.4练习第21章VisualBasic. NET与正则表达式21.1System.Text.RegularExpressions命名空间21.2VisualBasic. NET支持的元字符21.3练习第22章C#和正则表达式22.1System.Text.RegularExpressions命名空间中的类22.2VisualC#.NET支持的元字符22.3练习第23章PHP和正则表达式23.1PHP5.0入门23.2PHP组件如何支持正则表达式23.3PHP支持的元字符23.4练习第24章W3CXMLSchema中的正则表达式24.1W3CXMLSchema基础24.2练习第25章Java中的正则表达式25.1java.util.regex包简介25.2java.util.regex包中支持的元字符25.3使用String类的方法25.4练习第26章Peri中的正则表达式26.1下载并安装Perl26.2使用Perl正则表达式的基本条件26.3使用Perl正则表达式26.4Perl支持的元字符26.5在Perl中使用正则表达式匹配模式26.6一个简单的PerlRegex测试程序26.7练习附录练习答案……
正则表达式^[w_]$ 代表什么意思
这里^匹配要检索的文本的开头,$匹配文本的结束。
^[a-z]$匹配的情况是你检索的文本只有一个小写字母的情况,而[a-z]匹配文本里所有的小写字母。
例如:
regex = "(^[a-z]+)([0-9]+)([A-Z]+$)";
和 regex = "([a-z]+)([0-9]+)([A-Z]+)";
匹配a1234A, 都是True.
但匹配以下例子, 第一个是False, 第二个是True
ABCa1234A
a1234Aabc
ABCa1234Aabc
扩展资料:
概念
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
符号
1、\
将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如,“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。
2、^
匹配输入字行首。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。
3、$
匹配输入行尾。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。
4、*
匹配前面的子表达式任意次。例如,zo*能匹配“z”,也能匹配“zo”以及“zoo”。*等价于{0,}。
参考资料来源:百度百科-正则表达式
^[\w_]*$表示什么呢,首先看\w表示匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
然后跟了个_,在看*号:匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
你这个表达式的意思就是把这个[\w_](任何单词字符包括下划线,然后跟个下划线)看为一个整体出现零次或多次!
[a-z] 可以用来匹配任意位置上的小写字母: "...a..."
^[a-z] 只能匹配以小写字母为行首的行: "a..."
[a-z]$ 只能匹配以小写字母为行尾的行: "...a"
^[a-z]$ 应该只能匹配只有一个小写字母的行: "a"
没有什么意思,"\w"已经包含了"_",这个是脱了裤儿放屁。就是只能有字线和下划线的。
\w 匹配字母、数字、下划线和汉字
{6} 重复6次
/\w{6}/ 匹配在一段中任意位置的6个重复元素 如 bbaaaaaabbcc 中的aaaaaa
/^\w{6}$/ 匹配必须以6个重复元素开头且结尾的 如 bbbbbb 注意其前后必须有空格,他不能匹配上面的那个aaaaaa
首先看\w表示匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。然后跟了个_,在看*号:匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
这个表达式的意思就是把这个[\w_](任何单词字符包括下划线,然后跟个下划线)看为一个整体出现零次或多次。
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。
扩展资料:
正则表达式的特点是:
1. 灵活性、逻辑性和功能性非常强;
2. 可以迅速地用极简单的方式达到字符串的复杂控制。
3. 对于刚接触的人来说,比较晦涩难懂。
由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器EditPlus,大到Microsoft Word、Visual Studio等大型编辑器,都可以使用正则表达式来处理文本内容。
参考资料来源:百度百科-正则表达式
wordvba正则表达式替换
wordvba正则表达式替换步骤如下:一、写出VBA代码二、将中文中的全角转为半角。三、查找语话框需要替换的,替换通配符即可。正则表达式是一个天才创建的用于快速检索匹配字符串,通过简单的表达式匹配文本。