python正则表达式菜鸟教程,Python正则表达式的几种匹配用法

python正则表达式菜鸟教程,Python正则表达式的几种匹配用法详细介绍

本文目录一览： python正则表达式是什么？

正则表达式(regex)用于探索给定字符串中的固定模式。我们想找到的模式可以是任何东西。可以创建类似于查找电子邮件或手机号码的模式。还可以创建查找以a开头、以z结尾的字符串的模式。
创建模式：
使用正则表达式时，首先需要学习的是如何创建模式。接下来将对一些最常用的模式进行逐一介绍。可以想到最简单的模式是一个简单的字符串。
pattern = r'times'
string = "It was the best of times, it was the worst of times."
print(len(re.findall(pattern,string)))
注意：“正则表达式，又称规则表达式（英语：Regular Expression，在代码中常简写为regex、regexp或re），是计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本”，那使用正则表达式的目的是什么呢？百度百科中只写了两句话：
1. 给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）。
2. 可以通过正则表达式，从字符串中获取我们想要的特定部分。
大家可以简单的理解为两点：search和match。OK，了解了正则表达式的概念和作用，我们赶紧进入Python的学习吧！正则表达式不是Python独有的武器，但Python中的正则表达式无疑是最简单却又最强大的。

python正则表达式是什么？

python正则表达式是：
'hing'
'\wing'
'123456'
'\d\d\d\d\d\d'
'regex.py'
'.*\.py'
正则表达式（简称为 regex）是一些由字符和特殊符号组成的字符串，描述了模式的重复或者表述多个字符。正则表达式能按照某种模式匹配一系列有相似特征的字符串。换句话说，它们能够匹配多个字符串。
孤立的一个正则表达式并不能起到匹配字符串的作用，要让其能够匹配目标字符，需要创建一个正则表达式对象。通常向compile()函数传入一个原始字符形式的正则表达式，即 r'.....'。
要让正则表达式不区分大小写，可以向 re.compile()传入 re.IGNORECASE 或 re.I，作为第二个参数。通过传入 re.DOTALL 作为 re.compile()的第二个参数，可以让句点字符匹配所有字符，包括换行字符。

python如何使用正则表达式排除集合中字符的功能详解

在正则表达式里,想匹配一些字符中的一个,也就是说给出一个字符的集合,只要出现这个集合里任意的字符,都是成立的，下面这篇文章主要给大家介绍了关于python利用正则表达式排除集合中字符功能的相关资料，需要的朋友可以参考下。前言我们在之前学习过通过集合枚举的功能，把所有需要出现的字符列出来，保存在集合里面，这样正则表达式就可以根据集合里的字符是否存在来判断是否匹配成功，如果在集合里，就匹配成功，否则不成功。现在有一个问题，就是要把集合里列出的字符都不能出现才匹配成功，这个需求怎么样实现呢？其实比较简单，只需要在集合前面添加一个字符^，就让正则表达式匹配时，发现有字符在集合里就匹配不成功。下面话不多说了，来一起看看详细的介绍吧。例子如下：#python 3.6 #蔡军生 #http://blog.csdn.net/caimouse/article/details/51749579 # from re_test_patterns import test_patterns test_patterns( 'This is some text -- with punctuation.', [('[^-. ]+', 'sequences without -, ., or space')], )结果输出如下：'[^-. ]+' (sequences without -, ., or space) 'This is some text -- with punctuation.' 'This' .....'is' ........'some' .............'text' .....................'with' ..........................'punctuation'在这个例子里，就把划线、句号、空格（-，.，，）等字符排除在外。总结

python的正则表达式

1,正则表达式的一些内容
? ? ? ? 正则表达式主要是用来匹配文本中需要查找的内容,例如在一片文章中找出电话号码,就中国的来说11位纯数字(不说座机),则使用"\d{11}" 意味匹配数字11次,就能准确的查找出文本中的电话号码. 还有就是在编写网络爬虫的时候需要提取很多超链接再次进行爬取,使用正则表达式就很方便.直接匹配http开头就行,当然也可以使用beautifulsoup的select方法.
看下面的程序看看正则表达提取文本中的邮箱:

\w 匹配字母,数字,下划线?
+ 匹配1次或者多次 re是正则表达式的工具包,工具包出错的话在anaconda的命令行输入"pip install re"安装,其他的工具包也是如此.
re.compile()中的r示意\不是转义字符,也就是保持后面字符串原样,findall返回一个列表.下面还有一个版本的程序略有不同.

compile的另一个参数re.IGONORECASE(忽略大小写),还可以是re.DORALL,多行模式,具体功能也是模糊不清,不过在使用通配符 . 匹配的时候加上re.DOTALL参数能够匹配换行.如果希望忽略大小写和多行模式都开启可以使用re.compile(r'....',re.IGNORECASE|re.DOTALL) .
表达式使用( ),对匹配到的内容分为3组也就是(\w+)出现字母,数字,下划线一次或多次,这个分组就是下面使用match对象的grou()方法的时候的参数.不给参数和参数0都是得到整个匹配到的内容,? 参数1得到第一个括号匹配到的内容,以此类推参数2和3,如果没有括号分组的话使用参数会出现错误. search( )查找和正则式匹配的内容,只匹一次后面的那个找不到.返回一个match对象

\w 匹配字母,数字,下划线
\W 匹配字母,数字.下划线之外的所有字符
\d 匹配数字
\D 匹配非数字
\s 匹配空格,制表符,换行符
\S匹配除空格制表符,换行符之外的其他字符
[ .... ]定义自己的匹配,如[aeiouAEIOU ]匹配所有的元音字母,注意不是匹配单词.
{最少次数,最多次数},例如{3,9} 匹配3-9次,{ ,10}匹配0-10次. 默认为匹配最多次数(贪心匹配),非贪心模式在后面加上问号?

?? 可选 0次或者1次吧 ?
+匹配1次或多次
*匹配0次或者多次
^ 判断开头 ^\d 如果待匹配串是数字开头则返回第一个数字
$判断结尾? \d$? 如果待匹配串是数字结尾则返回最后一个数字
. ? 通配符,匹配除换行之外的所有字符
? ?\d{11}? 匹配数字11次
????. *?匹配所有字符除换行
[a-zA-Z0-9._%+-] ?小写和大写字母、数字、句点、下划线、百分号、加号或短横
[a-zA-Z]{2,4} 匹配字母 2 - 4次

Python中的正则表达式？

因为正则表达式中有两组小括号，即两个分组
findall会以元组形式返回所有分组中的内容，即[('127.0.0.1', '.1')]
其中'127.0.01'表示匹配最外层大括号的内容
'.1'表示匹配'\.[0-9]{1,3}'的内容（最后一次重复时为.1）
由于('\.[0-9]{1,3}')为需要重复三次的分组，该括号不能省略
而使用findall就一定会显示括号分组的内容
若想只显示127.0.0.1而不显示'.1'，可考虑使用match方法
返回从字符串起始位置开始，第一次匹配正则表达式的内容
match返回的结果为re.Match对象，可通过group()显示匹配的字符串，即127.0.0.1
通过groups()显示匹配的所有分组，即('127.0.0.1', '.1')
如图所示：

python正则表达式如何匹配字符串

python正则表达式匹配字符串的方法：1、使用【(.+?)】这个正则表达式来提取单个位置的字符串；2、使用【(?P?)】这个正则表达式【匹配连续多个位置的字符串。相关免费学习推荐：python视频教程python正则表达式匹配字符串的方法：一、单个位置的字符串提取这种情况我们可以使用(.+?)这个正则表达式来提取。举例，一个字符串"a123b",如果我们想提取ab之间的值123，可以使用findall配合正则表达式，这样会返回一个包含所以符合情况的list。代码如下：import restr = "a123b"print re.findall(r"a(.+?)b",str)#输出['123']1.1贪婪和非贪婪匹配如果我们有一个字符串”a123b456b”，如果我们想匹配a和最后一个b之间的所有值而非a和第一个出现的b之间的值，可以用?来控制正则贪婪和非贪婪匹配的情况。代码如下：import restr = "a123b456b" print re.findall(r"a(.+?)b", str)#输出['123']#?控制只匹配0或1个,所以只会输出和最近的b之间的匹配情况 print re.findall(r"a(.+)b", str)#输出['123b456'] print re.findall(r"a(.*)b", str)#输出['123b456']1.2多行匹配如果你要多行匹配，那么需要加上re.S和re.M标志. 加上re.S后。将会匹配换行符，默认.不会匹配换行符。代码如下：str = "a23ba34b" re.findall(r"a(d+)b.+a(d+)b", str)#输出[]#因为不能处理str中间有换行的情况 re.findall(r"a(d+)b.+a(d+)b", str, re.S)#s输出[('23', '34')]加上re.M后,^$标志将会匹配每一行，默认^和$只会匹配第一行。代码如下：str = "a23ba34b" re.findall(r"^a(d+)b", str)#输出['23'] re.findall(r"^a(d+)b", str, re.M)#输出['23', '34']二、连续多个位置的字符串提取这种情况我们可以使用(?P

?)这个正则表达式来提取。举例，如果我们有一行webserver的access日志:'192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search" "Mozilla/5.0"'，我们想提取这行日志里面所有的内容，可以写多个(?P

expr)来提取,其中name可以更改为你为该位置字符串命名的变量，expr改成提取位置的正则即可。代码如下：import reline ='192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search""Mozilla/5.0"'reg = re.compile('^(?P

[^ ]*) (?P

[^ ]*) "(?P

[^"]*)" (?P

[^ ]*) (?P

[^ ]*) "(?P

[^"]*)" "(?P

[^"]*)"')regMatch = reg.match(line)linebits = regMatch.groupdict()print linebitsfor k, v in linebits.items() : print k+": "+v输出的结果为：status: 200referrer: request: GET /api HTTP/1.1user_agent: Mozilla/5.0date: 25/Oct/2012:14:46:34size: 44remote_ip: 192.168.0.1

阅读更多 >>> 广西黑客学什么编程语言

Python其实很简单第十一章正则表达式

正则表达式是一个特殊的字符序列，它用来检查一个字符串是否与某种模式匹配。正则表达式在编译程序中至关重要，但并不是每个人都需要特别深入的学习和掌握。在此，只介绍一些最基本的应用。
1、元字符
元字符是构成正则表达式的一些特殊字符。在正则表达式中，元字符被赋予了新的含义。
下面介绍一些常用的元字符及其含义：
. 匹配除换行符以外的任意字符。
w 匹配字母、数字、下划线或汉字。
W 匹配w所匹配的字符以外的字符。
s 匹配单个空白符（包括Tab键和换行符）。
S 匹配除s匹配的字符以外的字符。
d 匹配数字。
b 匹配单词的分界符，如：空格、标点符号或换行符。
^ 匹配字符串的开始
$ 匹配字符串的结束
2、限定符
限定符是在正则表达式中用来指定数量的字符。常用的限定符有：
? 匹配前面的字符0或1次。如：zo?m可以匹配zom和zm，但不能匹配 zoom
+ 匹配前面的字符1或n次。如：zo?m可以匹配zom和zoom，但不能匹配zm
* 匹配前面的字符0或n次。如：zo?m可以匹配zom、zoom和zm
{n} 匹配前面的字符n次。如：zo{2}m可以匹配zoom，但不能匹配zom和zm
{n,} 匹配前面的字符至少n次。如：zo{1,}m可以匹配zom和zoom，但不能匹配zm
{n,m} 匹配前面的字符至少n次，最多m次。如：zo{1,2}m可以匹配zom和zoom，但不能匹配zm
3、方括号”[ ]”的用途
方括号“[ ]”里可以列出某个字符范围。如：[aeiou]表示匹配任意一个元音字母，[zqsl]表示匹配姓氏“赵钱孙李”的拼音第一个字母。
4、排除字符
方括号”[ ]”中的“^”字符表示排除的意思，如：[^aeiou]表示匹配任意一个非元音字母的字符。
5、选择字符
字符“|”相当于“或”。如：(^d{3}[-]d{8})|(^d{4}[-]d{7})$可以匹配形如” - ”或“ - ”的电话号码格式。
6、转义字符
对于已经用于定义元字符和限定符的字符，需要加转义符“”来表示。
如：为了匹配形如“192.168.0.1”的IPv4地址（1~255.0~255.0~255.0~255），可以用这样的正则表达式：^(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]).(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0).(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0).(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[0-9])$
这里解释一下第一段IP地址的规则，取值范围为1~255，可分解为以下情况：
250~255：25[0-5]；
200~249：2[0-4][0-9]；
100~199：[01]{1}[0-9]{2}；
0~99: [0-9]{1}[1-9]
再加上”.”： .
其他三段地址和第一段相似。
7、“( )”可以用于分组
在正则表达式中，用“( )”括起来的部分是一个整体。
8、r（或R）的意义
在正则表达式中，为了保证模式字符串为原生字符串（没有经过加工处理的字符串），可以在模式字符串前加上一个字符‘r’或‘R’。例如：
# 这里用到对的re.match()方法接下来介绍
>>> import re # 导入re模块
>>> re.match('bPy[a-z]+','Python') # 表达式'bPy[a-z]+'不能匹配’Python’
>>> re.match('bPy[a-z]+','Python') # 表达式'bPy[a-z]+'可以匹配’Python’

在上述代码中，原本要用作匹配单词开始或结束的元字符’b’在表达式中字符串中会被视为转义一个字符‘b’，为了转义’b’就不得不再加一个’’符号。
也可以采用下面的方法：
>>> re.match(r'bPy[a-z]+','Python') #加字符’r’，可以保证原生字符串

9、match()方法
Match()方法尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 none。
语法格式：
re.match(pattern, string, [flags])
其中，pattern表示匹配的正则表达式；string是要匹配的字符串；flags表示标志位，用于控制正则表达式的匹配方式，如：re.I表示不区分大小写。
例：
import re #导入re模块
print(re.match('www', 'www.python.org/').span()) #span()函数可以获取匹配的位置
print(re.match('org', 'www.python.org'))
输出结果为：
(0, 3) #在位置0到3（不包括3）匹配成功
None #从起始位置未能匹配成功
10、search()方法
search()方法用于在整个字符串中搜索第一个匹配的值，如果匹配成功，则返回Match对象，否则返回None。
语法格式：
re.search(pattern, string, [flags])
其中，pattern表示匹配的正则表达式；string是要匹配的字符串；flags表示标志位，用于控制正则表达式的匹配方式，如：re.I表示不区分大小写。
例如：
>>> re.search(r'Pyw+','It's easy to use Python, but it's not easy to learn Python.')

可以看出，目标字符串“It's easy to use Python, but it's not easy to learn Python.”中一共有两个‘Python’，search()方法可以从字符串的起始位置开始查找到‘Python’，当找到第一个匹配值后就停止查找，返回位置信息。
match()和search()的比较
match()要求目标字符串的起始位置就能匹配，search()对目标字符串全段进行逐次匹配，只要首次匹配成功就停止匹配。
请看下例:
>>> import re
>>> print(re.match(r'Pyw+','It's easy to use Python, but it's not easy to learn Python.'))
输出结果：None
11、findall()方法
findall()方法用于在整个字符串中搜索所有匹配的值，如果匹配成功，则返回以匹配值为元素的列表，否则返回空列表。
语法格式：
re.findall(pattern, string[, flags])
其中，pattern表示匹配的正则表达式；string是要匹配的字符串；flags表示标志位，用于控制正则表达式的匹配方式，如：re.I表示不区分大小写。
例：
>>> import re
>>>print(re.findall(r'Pyw+','It's easy to use Python, but it's not easy to learn Python.'))
输出结果：['Python', 'Python']
可以看出，findall()的结果没有指出匹配的具体位置。
12、正则表达式的应用
字符串替换
这里要用到sub()方法。它的语法格式如下：
re.sub(pattern, repl, string [,count] [,flgs])
其中，pattern是模式字符串；repl是用于替换的字符串；string是原字符串；可选参数count为模式匹配后替换的最大次数，省缺表示替换所有的匹配；可选参数flags的意义与前面的方法的该参数一致。
例：
>>> import re
>>> str1='x=36.567 y=123.234'
>>> str2=re.sub('.d+','',str1) #用空格代替小数点及其后的数字
>>> print(str2)
输出结果：x=36 y=123
分隔字符串
这里要用到split()方法。它的返回值为一个列表，它的语法格式如下：
re.split(pattern, string [,maxsplit] [,flgs])
其中，pattern是模式字符串；string是原字符串；可选参数maxsplit为最大拆分次数，省缺表示拆分所有的匹配；可选参数flags的意义与前面的方法的该参数一致。
例：
>>> import re
>>> str='白日依山尽，黄河入海流。欲穷千里目，更上一层楼！'
>>> re.split(r'，|。|！',str) #按照“，”、“。”、“！”分隔字符串。
['白日依山尽', '黄河入海流', '欲穷千里目', '更上一层楼', '']
注意，返回值列表中多出了一个空字符。

Python正则表达式的几种匹配用法

下面列出： 1.测试正则表达式是否匹配字符串的全部或部分regex=ur"" #正则表达式
if re.search(regex, subject): do_something()else: do_anotherthing() 2.测试正则表达式是否匹配整个字符串 regex=ur"/Z" #正则表达式末尾以/Z结束
if re.match(regex, subject): do_something()else: do_anotherthing() 3.创建一个匹配对象，然后通过该对象获得匹配细节(Create an object with details about how the regex matches (part of) a string) regex=ur"" #正则表达式
match = re.search(regex, subject)if match: # match start: match.start() # match end (exclusive): atch.end() # matched text: match.group() do_something()else: do_anotherthing() 4.获取正则表达式所匹配的子串(Get the part of a string matched by the regex) regex=ur"" #正则表达式
match = re.search(regex, subject)if match: result = match.group()else: result ="" 5. 获取捕获组所匹配的子串(Get the part of a string matched by a capturing group) regex=ur"" #正则表达式
match = re.search(regex, subject)if match: result = match.group(1)else: result ="" 6. 获取有名组所匹配的子串(Get the part of a string matched by a named group) regex=ur"" #正则表达式
match = re.search(regex, subject)if match:result = match.group"groupname")else:result = "" 7. 将字符串中所有匹配的子串放入数组中(Get an array of all regex matches in a string) result = re.findall(regex, subject) 8.遍历所有匹配的子串(Iterate over all matches in a string) for match in re.finditer(r"<(.*?)/s*.*?//1>", subject) # match start: match.start() # match end (exclusive): atch.end() # matched text: match.group() 9.通过正则表达式字符串创建一个正则表达式对象(Create an object to use the same regex for many operations) reobj = re.compile(regex) 10.用法１的正则表达式对象版本（use regex object for if/else branch whether (part of) a string can be matched） reobj = re.compile(regex)if reobj.search(subject): do_something()else: do_anotherthing() 11.用法２的正则表达式对象版本（use regex object for if/else branch whether a string can be matched entirely） reobj = re.compile(r"/Z") ＃正则表达式末尾以/Z 结束
if reobj.match(subject): do_something()else: do_anotherthing() 12.创建一个正则表达式对象，然后通过该对象获得匹配细节（Create an object with details about how the regex object matches (part of) a string） reobj = re.compile(regex) match = reobj.search(subject)if match: # match start: match.start() # match end (exclusive): atch.end() # matched text: match.group() do_something()else: do_anotherthing() 13.用正则表达式对象获取匹配子串（Use regex object to get the part of a string matched by the regex） reobj = re.compile(regex) match = reobj.search(subject)if match: result = match.group()else: result ="" 14.用正则表达式对象获取捕获组所匹配的子串（Use regex object to get the part of a string matched by a capturing group） reobj = re.compile(regex) match = reobj.search(subject)if match: result = match.group(1)else: result ="" 15.用正则表达式对象获取有名组所匹配的子串（Use regex object to get the part of a string matched by a named group） reobj = re.compile(regex) match = reobj.search(subject)if match: result = match.group("groupname")else: result ="" 16.用正则表达式对象获取所有匹配子串并放入数组（Use regex object to get an array of all regex matches in a string） reobj = re.compile(regex) result = reobj.findall(subject) 17.通过正则表达式对象遍历所有匹配子串（Use regex object to iterate over all matches in a string） reobj = re.compile(regex)for match in reobj.finditer(subject): # match start: match.start() # match end (exclusive): match.end() # matched text: match.group()字符串替换 1.替换所有匹配的子串 #用newstring替换subject中所有与正则表达式regex匹配的子串
result = re.sub(regex, newstring, subject) 2.替换所有匹配的子串（使用正则表达式对象） reobj = re.compile(regex) result = reobj.sub(newstring, subject) 字符串拆分 1.字符串拆分 result = re.split(regex, subject) 2.字符串拆分（使用正则表示式对象） reobj = re.compile(regex) result = reobj.split(subject)

python 正则表达式，怎么从字符串中匹配成组的所有结果？

匹配所有结果的python程序如下(注意图中源代码的缩进)
import re
a="lege.teeth34eatedecdeath#e0t~"
regex='(.)e(.)t(.)'
result=[]
for i in range(len(a)-4):
b=a[i:i+5]
obj=re.match(regex,b)
if obj:
result.append((obj.group(1),obj.group(2),obj.group(3)))
print(result)

← 上一篇: tkinter和pyqt哪个好,关于Python的GUI开发库的选择下一篇: sqlitestudio导入数据,sqlitestudio怎么把txt转换成db→

python正则表达式菜鸟教程,Python正则表达式的几种匹配用法

python正则表达式菜鸟教程,Python正则表达式的几种匹配用法详细介绍

相关文章：

文章数据信息: