Scrapy 辅助开发利器 XPath Helper

以前一直为写xpath而苦恼,多么蛋疼的一件事啊,今天终于一个利器:XPath Helper。然后我google了一下关于XPath Helper的介绍和使用,就直接转载过来了。原文地址:http://uimeet.com/tag/xpath-helper/ 。

在 Scrapy 开发中,调试最多,出问题最多的,不是网络通信,也不是解决内存泄漏,而是恼人的 XPath 地提取。

尽管利用现代浏览器的各种调试工具,可以很方便的分析数据的 HTML 标签结构了,但因为这样那样的原因,反复地对要抓取数据的 XPath 进行分析仍是十分让人头疼的事情。

在 Scrapy 的官方文档中,推荐了一些 Firefox 的插件来帮助开发人员简化这一过程,并详细介绍了操作方法。但是对于用惯了 Chrome 的人(比如我)来说,潜意识里对 Firefox 免疫,并且 Firefox 最近频繁的更新,也让人非常不安。

XPath Helper 是一款 Chrome 的插件,运行效果如下图黑色区域所示:

安装好插件后,打开某个网页,点击 Ctrl + Shift + X 激活 XPath Helper 的控制台,然后您可以在 Query 文本框中输入相应 XPath 进行调试了,提取的结果将被显示在旁边的 Result 文本框中,非常的方便。

但这并不是它最大的亮点。该插件最大的亮点在于,当您按住 Shift 后,将鼠标滑动到任意内容上,在Query 文本框中会自动填入要提取该内容而对应的 XPath,相当的方便吧。

尽管 XPath Helper 非常方便,可以简化我们提取 XPath 的过程,但是这并不代表你可以什么都不做了。因为 XPath Helper 自动提取的 XPath 参考价值大于实用价值。

原因有几点:

XPath Helper 自动提取的 XPath 都是从根路径开始的,这几乎必然导致 XPath 过长,不利于维护;当提取循环的列表数据时,XPath Helper 是使用的下标来分别提取的列表中的每一条数据,这显然不适合程序的批量处理;尽管如此,这并不代表 XPath Helper 自动提取的 XPath 就毫无价值了。相反的,利用它提供的 XPath 我们只需要稍作加工即可在我们的程序中使用,大大降低我们的人工劳作。

猛击此处下载 XPath Helper

Scrapy 辅助开发利器 XPath Helper

相关文章:

你感兴趣的文章:

标签云: