Java正则表达式获取网页所有网址和链接文字

欢迎进入Java社区论坛，与200万技术人员互动交流 >>进入

　　//获取网址

　　Matcher myurl=Pattern.compile（”href=.*?>”）。matcher（mt.group（））；

　　while（myurl.find（））

　　…{

　　System.out.println（”网址：”+myurl.group（）。replaceAll（”href=|>”,””））；

　　}

　　System.out.println（）；

　　}

　　System.out.println（”共有”+i+”个符合结果”）；

　　}

　　//获得开始采集网址

　　public void getStartUrl（String startUrl）

　　…{

　　this.startUrl=startUrl;

　　}

　　//获得网址所在内容；

　　public void getUrlContent（）

　　…{

　　StringBuffer is=new StringBuffer（）；

　　try

　　…{

　　URL myUrl=new URL（startUrl）；

　　BufferedReader br= new BufferedReader（

　　new InputStreamReader（myUrl.openStream（）））；

　　String s;

　　while（（s=br.readLine（））！=null）

　　…{

　　is.append（s）；

　　}

　　urlContent=is.toString（）；

　　}

　　catch（Exception e）

　　…{

　　System.out.println（”网址文件未能输出”）；

　　e.printStackTrace（）；

　　}

　　//获得网址所在的匹配区域部分

　　public void getContentArea（）

　　…{

　　int pos1=0,pos2=0;

　　pos1= urlContent.indexOf（strAreaBegin）+strAreaBegin.length（）；

　　pos2=urlContent.indexOf（strAreaEnd,pos1）；

　　ContentArea=urlContent.substring（pos1,pos2）；

　　}

　　//以下两个函数获得网址应该要包含的关键字及不能包含的关键字

　　//这里只做初步的实验。后期，保护的关键字及不能包含的关键字应该是不只一个的。

　　public void getStringInUrl（String stringInUrl）

　　…{

　　this.stringInUrl=stringInUrl;

　　}

　　public void getStringNotInUrl（String stringNotInUrl）

　　…{

　　this.stringNotInUrl=stringNotInUrl;

　　}

　　//获取采集规则

　　//获取url网址

　　public void getUrl（）

　　…{

　　}

　　public String getRegex（）

　　…{

　　return regex;

　　}

　　class UrlAndTitle

　　…{

　　String myURL;

　　String title;

　　}

[1][2]

如果说对云南有进一步的了解的话就是鲜花。

相关文章：

你感兴趣的文章：

标签云：