博客Markdown编辑器上线啦那些年我们追过的Wrox精品红皮计算机图书PMBOK第五版精讲视频教程火星人敏捷开发1001问
Python 实现网络爬虫 抓取静态网页【代码】
分类:python
#———————————import—————————————#coding:utf-8import urllib2;from BeautifulSoup import BeautifulSoup;#——————————————————————————def main():#抓userMainUrl = "?id=38b94c4ed8add8bcccabd7d31b22&fr=userbar"; #修改抓取的链接地址req = urllib2.Request(userMainUrl);resp = urllib2.urlopen(req);respHtml = resp.read();print "respHtml=",respHtml; #此处输出所有抓取到的HTML源码#取songtasteHtmlEncoding = "GBK";#修改编码<span><span class="attribute-name">charset的格式</span></span>soup = BeautifulSoup(respHtml, fromEncoding=songtasteHtmlEncoding);foundClassH1user = soup.find(attrs={"target":"_blank"});#修改抓取内容print "foundClassH1user=%s",foundClassH1user;if(foundClassH1user):h1userStr = foundClassH1user.string;print "h1userStr=",h1userStr;###############################################################################if __name__=="__main__":main();
抓取1类标签
#eg:siteUrls=soup.findAll(‘a’)
抓取2类标签
#eg:foundClassH1user = soup.find(attrs={"target":"_blank"});
抓取2类标签
#foundClassH1user = soup.find(attrs={"class":"h1user"});
上一篇搭建notepad++ 下的 python编译器
顶1踩0
主题推荐猜你在找
查看评论
* 以上用户言论只代表其个人观点,,不代表CSDN网站的观点或立场
核心技术类目
让我们从自身的禁锢中放心地飞出去,重新审视自己,