Python使用urllib与BeautifulSoup下载并解析HTML

导入相关模块

>>> import urllib.request>>> from bs4 import BeautifulSoup>>> from bs4 import SoupStrainer

下载并读取HTML内容

>>> response = urllib.request.urlopen('http://www.baidu.com')>>> html_doc = response.read()

创建BeautifulSoup部分解析过滤器

>>> only_nv_id = SoupStrainer(id='nv')

解析并输出百度nv中的文本内容

>>> print(BeautifulSoup(html_doc, "html.parser", parse_only=only_nv_id).get_text())新 闻　网 页　贴 吧　知 道　音 乐　图 片　视 频　地 图

Beautiful Soup Documentation

原文地址：Python使用urllib与BeautifulSoup下载并解析HTML, 感谢原作者分享。最可怕的敌人，就是没有坚强的信念。