欢迎进入Java社区论坛,与200万技术人员互动交流 >>进入
//获取网址
Matcher myurl=Pattern.compile(”href=.*?>”)。matcher(mt.group());
while(myurl.find())
…{
System.out.println(”网址:”+myurl.group()。replaceAll(”href=|>”,””));
}
System.out.println();
}
System.out.println(”共有”+i+”个符合结果”);
}
//获得开始采集网址
public void getStartUrl(String startUrl)
…{
this.startUrl=startUrl;
}
//获得网址所在内容;
public void getUrlContent()
…{
StringBuffer is=new StringBuffer();
try
…{
URL myUrl=new URL(startUrl);
BufferedReader br= new BufferedReader(
new InputStreamReader(myUrl.openStream()));
String s;
while((s=br.readLine())!=null)
…{
is.append(s);
}
urlContent=is.toString();
}
catch(Exception e)
…{
System.out.println(”网址文件未能输出”);
e.printStackTrace();
}
}
//获得网址所在的匹配区域部分
public void getContentArea()
…{
int pos1=0,pos2=0;
pos1= urlContent.indexOf(strAreaBegin)+strAreaBegin.length();
pos2=urlContent.indexOf(strAreaEnd,pos1);
ContentArea=urlContent.substring(pos1,pos2);
}
//以下两个函数获得网址应该要包含的关键字及不能包含的关键字
//这里只做初步的实验。后期,保护的关键字及不能包含的关键字应该是不只一个的。
public void getStringInUrl(String stringInUrl)
…{
this.stringInUrl=stringInUrl;
}
public void getStringNotInUrl(String stringNotInUrl)
…{
this.stringNotInUrl=stringNotInUrl;
}
//获取采集规则
//获取url网址
public void getUrl()
…{
}
public String getRegex()
…{
return regex;
}
class UrlAndTitle
…{
String myURL;
String title;
}
}
[1][2]
如果说对云南有进一步的了解的话就是鲜花。