python 正则表达式贪婪模式与非贪婪模式

之前未接触过正则表达式，今日看python网络爬虫的源码，里面一行正则表达式匹配的代码初看之下，不是很理解，代码如下：

myItems = re.findall(‘<div.*?class=”content”.*?title=”(.*?)”>(.*?)</div>’,unicodePage,re.S)

“.*?”这种匹配方式，按理解应该是匹配任意字符0个或多个（re.S模式，“.”可以匹配“\n”），但是这个“？”总觉的在这儿是多余的，既然不理解，，就敲代码试试：

import repatern = re.compile(‘www\..*’)match1 = patern.match(“www.baidu.com”)if match1:print(match1.group())else:print(“match1 don’t match”)#output>>> ==================RESTART =============================>>>

这个结果，应该说是意料之中，加个“？”呢？

import repatern = re.compile(‘www\..*?’)match1 = patern.match(“www.baidu.com”)if match1:print(match1.group())else:print(“match1 don’t match”)#output>>> ==================RESTART =============================>>>

竟然是这个结果。。。“.?”一个字符都没匹配，按“.”、“”、“?”的匹配理解，也就是“*”“？”均匹配前面字符0次，才会是这个结果，可是为啥就是0次了？这就是正则表达式贪婪模式和非贪婪模式：贪婪模式，总是尝试匹配尽可能多的字符；非贪婪模式则相反，总是尝试匹配尽可能少的字符。 Python里数量词默认是贪婪的，这就解释了第一个匹配实验，输出结果为””（贪婪模式），也就是说第二个匹配实验是非贪婪模式，仅仅因为加了“？”，继续实验

import repatern = re.compile(‘www\..?’)match1 = patern.match(“www.baidu.com”)if match1:print(match1.group())else:print(“match1 don’t match”)#output>>> ==================RESTART =============================>>>

此次匹配结果，显然是贪婪模式。奇怪了，也就是“？”的特殊组合才是非贪婪模式。网上搜索得如下说明：标准量词修饰的子表达式，在可匹配可不匹配的情况下，总会先尝试进行匹配，称这种方式为匹配优先，或者贪婪模式。此前介绍的一些量词，“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。一些NFA正则引擎支持忽略优先量词，也就是在标准量词后加一个“?”，此时，在可匹配可不匹配的情况下，总会先忽略匹配，只有在由忽略优先量词修饰的子表达式，必须进行匹配才能使整个表达式匹配成功时，才会进行匹配，称这种方式为忽略优先，或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。显然“*？”的组合是非贪婪模式，猜想正确，原来如此啊。

她是应该难过的往回走，还是蹲下来哭泣？

相关文章：

你感兴趣的文章：

标签云：