Python 实现网络爬虫 抓取静态网页【代码】

博客Markdown编辑器上线啦那些年我们追过的Wrox精品红皮计算机图书PMBOK第五版精讲视频教程火星人敏捷开发1001问

Python 实现网络爬虫 抓取静态网页【代码】

分类:python

#———————————import—————————————#coding:utf-8import urllib2;from BeautifulSoup import BeautifulSoup;#——————————————————————————def main():#抓userMainUrl = "?id=38b94c4ed8add8bcccabd7d31b22&fr=userbar"; #修改抓取的链接地址req = urllib2.Request(userMainUrl);resp = urllib2.urlopen(req);respHtml = resp.read();print "respHtml=",respHtml; #此处输出所有抓取到的HTML源码#取songtasteHtmlEncoding = "GBK";#修改编码<span><span class="attribute-name">charset的格式</span></span>soup = BeautifulSoup(respHtml, fromEncoding=songtasteHtmlEncoding);foundClassH1user = soup.find(attrs={"target":"_blank"});#修改抓取内容print "foundClassH1user=%s",foundClassH1user;if(foundClassH1user):h1userStr = foundClassH1user.string;print "h1userStr=",h1userStr;###############################################################################if __name__=="__main__":main();

抓取1类标签

#eg:siteUrls=soup.findAll(‘a’)

抓取2类标签

#eg:foundClassH1user = soup.find(attrs={"target":"_blank"});

抓取2类标签

#foundClassH1user = soup.find(attrs={"class":"h1user"});

上一篇搭建notepad++ 下的 python编译器

顶1踩0

主题推荐猜你在找

查看评论

* 以上用户言论只代表其个人观点,,不代表CSDN网站的观点或立场

核心技术类目

让我们从自身的禁锢中放心地飞出去,重新审视自己,

Python 实现网络爬虫 抓取静态网页【代码】

相关文章:

你感兴趣的文章:

标签云: