使用wget工具抓取网页和图片

使用wget工具抓取网页和图片：

包括css\js\html\图片文件

wget -e robots=off -w 1 -xq -np -nH -pk -m -t 1 -P "$PATH" "$URL"

这里robots=off是因为wget默认会根据网站的robots.txt进行操作，如果robots.txt里是User-agent: * Disallow: /的话，，wget是做不了镜像或者下载目录的

-e 用来执行额外的.wgetrc命令，会在.wgetrc中所有命令之后执行，因此会覆盖.wgetrc中相同的配置项。

-wseconds 资源请求下载之间的等待时间（减轻服务器的压力）

-x 创建镜像网站对应的目录结构

-q 静默下载，即不显示下载信息，你如果想知道wget当前在下载什么资源的话，可以去掉这个选项

-np 只下载给定URL下的内容，不下载它的上级内容

-nH 禁止wget以接收的URL为名称创建文件夹

-p 下载有关页面需要用到的所有资源，包括图片和css样式

-k 将绝对路径转换为相对路径（这个很重要，为了在用户打开网页的时候，加载的相关资源都在本地寻找）

-m 它会打开镜像相关的选项，比如无限深度的子目录递归下载

-t times 某个资源下载失败后的重试下载次数

-P 下载到哪个路径,，没有的话，wget会帮你自动创建

示例：

抓取的成果：

最有效的资本是我们的信誉，它24小时不停为我们工作。