站長資訊網(wǎng)
最全最豐富的資訊網(wǎng)站

正則表達式之文本模式的匹配和查找

1、需求

我們想要按照特定的文本模式進行匹配或查找。

2、解決方案

如果想要匹配的只是簡單的文字,那么通常只需要用基本的字符串方法就可以了,比如str.find()、str.endswith()、str.startswith()或類似函數(shù)。

示例:

  text='mark ,帥哥,18,183 帥,mark'  print(text=='mark')  print(text.startswith('mark'))  print(text.startswith('mark'))  print(text.find('帥哥'))

結果:

False
True
True
6

如果更為復雜的匹配則需要使用正則表達式以及re模塊。為了說明使用正則表達式的基本流程,假設我們想匹配以數(shù)字形式構成的日期,比如”11/27/2018″。示例如下:

  import re  text1='11/27/2018'  text2='Nov 27, 2018'  if re.match(r'd+/d+/d+',text1):    print('符合模型:數(shù)字/數(shù)字/數(shù)字')  else:    print('不符合模型:數(shù)字/數(shù)字/數(shù)字')    if re.match(r'd+/d+/d+',text2):    print('符合模型:數(shù)字/數(shù)字/數(shù)字')  else:    print('不符合模型:數(shù)字/數(shù)字/數(shù)字')

運行結果:

符合模型:數(shù)字/數(shù)字/數(shù)字
不符合模型:數(shù)字/數(shù)字/數(shù)字

如果打算針對同一模型做多次匹配,那么通常會先將正則表達式模式預編譯成一個模式對象。

例如:

  import re  text1='11/27/2018'  text2='Nov 27, 2018'  datepat=re.compile(r'd+/d+/d+')  if datepat.match(text1):    print('符合模型:數(shù)字/數(shù)字/數(shù)字')  else:    print('不符合模型:數(shù)字/數(shù)字/數(shù)字')    if datepat.match(text2):    print('符合模型:數(shù)字/數(shù)字/數(shù)字')  else:    print('不符合模型:數(shù)字/數(shù)字/數(shù)字')

結果:

符合模型:數(shù)字/數(shù)字/數(shù)字
不符合模型:數(shù)字/數(shù)字/數(shù)字

match()方法總是嘗試在字符串的開頭找到匹配項。如果想針對整個文本搜索出所有的匹配項,那么就應該使用findall()方法,例如:

  import re  text='今天是 11/27/2018,昨天是11/26/2018'  datepat=re.compile(r'd+/d+/d+')  print(datepat.findall(text))

運行結果:

[’11/27/2018′, ’11/26/2018′]

當定義正則表達式時,我們常會將部分模式用括號包起來的方式引入捕獲組,捕獲組通常簡化后續(xù)對匹配文本的處理,因為每個組的內(nèi)容都可以單獨提取出來。findall()方法搜索整個文本并找出所有的匹配項然后將它們以列表的形式返回。如果想以迭代的方式找出匹配項,可以使用finditer()方法。

例如:

  import re  #加入捕獲組  datepat=re.compile(r'(d+)+/(d+)+/(d+)')  m=datepat.match('11/27/2018')  print(m.group(0))  print(m.group(1))  print(m.group(2))  print(m.group(3))  print(m.groups())  month,day,year=m.groups()  print(month)  print(day)  print(year)    print('*'*20)    text='今天是 11/27/2018,昨天是11/26/2018'  for month,day,year in datepat.findall(text):    print('{}-{}-{}'.format(year,month,day))    print('*'*20)    for m in datepat.finditer(text):    print(m.groups())

結果:

11/27/2018
11
27
2018
(’11’, ’27’, ‘2018’)
11
27
2018
********************
2018-11-27
2018-11-26
********************
(’11’, ’27’, ‘2018’)
(’11’, ’26’, ‘2018’)

3、分析

本節(jié)主要介紹了re模塊對文本匹配和搜索的基本功能,首先用re.compile()對模式進行編譯,然后使用想match()、findall()、finditer()這樣的方法做匹配和搜索。

當指定模式時我們通常會使用原始字符串,例如:

r'(d+)/(d+)/(d+)'

這樣的字符串不會對反斜字符轉義,這在正則表達式中非常有用。否則,我們需要用雙反斜杠線來標識一個單獨的”,例如:

'(\d+)/(\d+)/(\d+)'

請注意match()方法只會檢查字符的開頭,有可能出現(xiàn)的匹配的結果并不是你想要的,例如:

  import re  #加入捕獲組  datepat=re.compile(r'(d+)+/(d+)+/(d+)')  m=datepat.match('11/27/2018xxxx')  print(m)

結果:

<re.Match object; span=(0, 10), match='11/27/2018'>

如果想要精確匹配,可以加一個結束標記:$

  import re  #加入捕獲組  datepat=re.compile(r'(d+)+/(d+)+/(d+)$')  m1=datepat.match('11/27/2018xxxx')  m2=datepat.match('11/27/2018')  print(m1)  print(m2)

結果:

None
<re.Match object; span=(0, 10), match=’11/27/2018′>

如果只是執(zhí)行簡單的文本匹配和搜索操作,可以省略編譯步驟。
如果打算執(zhí)行很多匹配或查找操作的話,通常需要先將模式編譯然后重復使用。模塊級的函數(shù)會對最近編譯過的模式做緩存處理,并且比較省步驟。

總結

以上所述是小編給大家介紹的正則表達式之文本模式的匹配和查找,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉載,煩請注明出處,謝謝!

贊(0)
分享到: 更多 (0)
網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號
午夜精品久久久久久久无码| 精品国产高清久久久久久小说 | 国产亚洲精品精品精品| 国产精品自拍一区| 无码aⅴ精品一区二区三区浪潮| 国产亚洲精品看片在线观看| 日韩AV毛片精品久久久| 日韩AV毛片精品久久久| 精品国偷自产在线视频99| 久久久久se色偷偷亚洲精品av| 久久久国产精品无码免费专区| 国内精品视频在线观看| www.99精品视频在线播放| 免费精品国产日韩热久久| 国产精品V亚洲精品V日韩精品| 国产精品视频1区| 色欲麻豆国产福利精品| www.国产精品.com| 国产毛片片精品天天看视频| 国产成人久久精品区一区二区| 91免费国产精品| 精品三级AV无码一区| 麻豆国产在线精品国偷产拍| 亚洲爆乳精品无码一区二区三区| 伊人久久精品无码av一区| 91精品国产综合久久久久久| 国产精品自在拍一区二区不卡| 日韩免费人妻AV无码专区蜜桃 | 91精品国产91久久| 久久久999久久久精品| 亚洲精品自在在线观看| 国产精品无码无卡无需播放器| 免费视频精品一区二区| 久久精品无码一区二区日韩AV| 无码国产精品一区二区免费I6 | 久久久久国产精品| 最新精品亚洲成a人在线观看| 国产麻豆精品入口在线观看 | 国产成人精品午夜视频'| 国产精品一品二区三区的使用体验| 97久久精品人妻人人搡人人玩|