Python使用urllib与BeautifulSoup下载并解析HTML

导入相关模块

>>> import urllib.request>>> from bs4 import BeautifulSoup>>> from bs4 import SoupStrainer

下载并读取HTML内容

>>> response = urllib.request.urlopen('http://www.baidu.com')>>> html_doc = response.read()

创建BeautifulSoup部分解析过滤器

>>> only_nv_id = SoupStrainer(id='nv')

解析并输出百度nv中的文本内容

>>> print(BeautifulSoup(html_doc, "html.parser", parse_only=only_nv_id).get_text())新 闻 网 页 贴 吧 知 道 音 乐 图 片 视 频 地 图

Beautiful Soup Documentation

Python使用urllib与BeautifulSoup下载并解析HTML

相关文章:

你感兴趣的文章:

标签云: