使用wget工具抓取网页和图片

使用wget工具抓取网页和图片:

包括css\js\html\图片文件

wget -e robots=off -w 1 -xq -np -nH -pk -m -t 1 -P "$PATH" "$URL"

这里robots=off是因为wget默认会根据网站的robots.txt进行操作,如果robots.txt里是User-agent: * Disallow: /的话,,wget是做不了镜像或者下载目录的

-e 用来执行额外的.wgetrc命令,会在.wgetrc中所有命令之后执行,因此会覆盖.wgetrc中相同的配置项。

-wseconds 资源请求下载之间的等待时间(减轻服务器的压力)

-x 创建镜像网站对应的目录结构

-q 静默下载,即不显示下载信息,你如果想知道wget当前在下载什么资源的话,可以去掉这个选项

-np 只下载给定URL下的内容,不下载它的上级内容

-nH 禁止wget以接收的URL为名称创建文件夹

-p 下载有关页面需要用到的所有资源,包括图片和css样式

-k 将绝对路径转换为相对路径(这个很重要,为了在用户打开网页的时候,加载的相关资源都在本地寻找)

-m 它会打开镜像相关的选项,比如无限深度的子目录递归下载

-t times 某个资源下载失败后的重试下载次数

-P 下载到哪个路径,,没有的话,wget会帮你自动创建

示例:

抓取的成果:

最有效的资本是我们的信誉,它24小时不停为我们工作。

使用wget工具抓取网页和图片

相关文章:

你感兴趣的文章:

标签云: