站長資訊網
最全最豐富的資訊網站

基于Python正則表達式提取搜索結果中的站點地址

正則表達式對于Python來說并不是獨有的,最近在把google搜索的結果中所有的站點地址導出,于是想到用python正則表達式提取搜索結果中的站點地址。

這其中涉及幾個需要解決的問題:

1、獲取搜索的結果文本

為了獲得更多的地址,我使用了Google的高級搜索功能,每個頁面顯示100條結果。

獲得顯示的結果后,可以查看源碼,并保持成文本文件就有了搜索的結果文本

2、分析如何提取站點信息

首先需要分析獲取的頁面,查看以怎樣的方式可以提取出站點信息。

我使用IE8自帶的開發工具(按F12就會彈出來)中的探查器功能查看自己要關心的內容有什么特殊的格式

基于Python正則表達式提取搜索結果中的站點地址

從上圖可以看出我需要的站點在標簽<cite></cite>中,所以我使用正則表達式提取這其中的文本是否就可以呢?

3、編寫正則表達式來獲取站點地址

接下來的就是寫表達式了,我使用Python3.2編寫的,方便好用(~_~)

代碼如下,先把搜索結果頁面保持到e:/t3.txt中,在執行如下代碼

  import re  p = re.compile(r'<cite>([^<>/].+?)</cite>')  f = open("e:/t3.txt", encoding='utf-8')  content = f.read()  print ("n".join(p.findall(content)))

運行如下:

基于Python正則表達式提取搜索結果中的站點地址

大家可以對照一下運行效果圖,看看所有的站點地址是不是都給獲取到了。

贊(0)
分享到: 更多 (0)
網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
四色在线精品免费观看| 亚洲人成亚洲精品| 中日韩国语视频在线观看| 国产99视频精品免费观看7| 在线精品国产一区二区| 久久精品免看国产| 91精品国产亚洲爽啪在线影院| 99精品国产在热久久| 一区二区三区精品视频| 日韩免费的视频在线观看香蕉| 日本一区二区三区精品视频| 亚洲国产欧美日韩精品一区二区三区 | 日韩一区二区三区精品| 国产69精品久久久久久久| 69久久精品无码一区二区| 亚洲精品一区二区三区四区乱码 | 久久国产乱子免费精品| 亚洲精品无码久久千人斩| 久久亚洲AV永久无码精品| 亚洲日韩国产精品乱| 婷婷成人国产精品| 一本一道久久a久久精品综合 | 91情国产l精品国产亚洲区| 热re99久久精品国99热| 久久久久成人精品免费播放动漫 | 亚洲首页国产精品丝袜| 最新在线精品国自产拍网站| 国产精品一区二区久久精品| 最新 国产 精品 精品 视频 | 精品午夜国产人人福利| 精品久久综合1区2区3区激情| 国产三级精品三级在专区| 国产精品va久久久久久久| 2022年国产精品久久久久| 国产精品.XX视频.XXTV| 精品99又大又爽又硬少妇毛片 | 四虎国产精品高清在线观看| 2020国产精品自拍| 精品香蕉一区二区三区| 日韩国产精品亚洲а∨天堂免| 无码人妻精品一区二区蜜桃|