使用Python2.7写的脚本,,用来抓取豆瓣电影评分排行的标题。代码如下:
#coding=utf-8 import urllib import re #导入正则表达式库 global x #全局变量 x=1 url=""
# 拿到网页内容 def getHtml(url): page = urllib.urlopen(url) html = page.read() return html # 根据网页的内容拿到电影名字 def getName(html): global x name_reg=r’class="title">\n.+\n(.+)\n’#名字正则表达式 name_comp= re.compile(name_reg) namelist = re.findall(name_comp,html) for aName in namelist: print "%s"%x+aName x+=1 # 获取其他页面的网址 生成列表返回(连续的分页) def getUrlList(url): urlreg=’href="(.+)" >[\d]*</a>’#网址的正则表达式 urlreg_com=re.compile(urlreg) urllist=re.findall(urlreg_com,getHtml(url)) return urllist
urllist=getUrlList(url)#获得网址列表 getName(getHtml(url))#将本页面的电影名字输出 for aUrl in urllist:#依次从网址列表中的网址得到名字 getName(getHtml(aUrl))
运行效果如下:
版权声明:本文为博主原创文章,未经博主允许不得转载。
销售世界上第一号的产品–不是汽车,而是自己。