Java正则表达式获取网页所有网址和链接文字

欢迎进入Java社区论坛,与200万技术人员互动交流 >>进入

  //获取网址

  Matcher myurl=Pattern.compile(”href=.*?>”)。matcher(mt.group());

  while(myurl.find())

  …{

  System.out.println(”网址:”+myurl.group()。replaceAll(”href=|>”,””));

  }

  System.out.println();

  }

  System.out.println(”共有”+i+”个符合结果”);

  }

  //获得开始采集网址

  public void getStartUrl(String startUrl)

  …{

  this.startUrl=startUrl;

  }

  //获得网址所在内容;

  public void getUrlContent()

  …{

  StringBuffer is=new StringBuffer();

  try

  …{

  URL myUrl=new URL(startUrl);

  BufferedReader br= new BufferedReader(

  new InputStreamReader(myUrl.openStream()));

  String s;

  while((s=br.readLine())!=null)

  …{

  is.append(s);

  }

  urlContent=is.toString();

  }

  catch(Exception e)

  …{

  System.out.println(”网址文件未能输出”);

  e.printStackTrace();

  }

  }

  //获得网址所在的匹配区域部分

  public void getContentArea()

  …{

  int pos1=0,pos2=0;

  pos1= urlContent.indexOf(strAreaBegin)+strAreaBegin.length();

  pos2=urlContent.indexOf(strAreaEnd,pos1);

  ContentArea=urlContent.substring(pos1,pos2);

  }

  //以下两个函数获得网址应该要包含的关键字及不能包含的关键字

  //这里只做初步的实验。后期,保护的关键字及不能包含的关键字应该是不只一个的。

  public void getStringInUrl(String stringInUrl)

  …{

  this.stringInUrl=stringInUrl;

  }

  public void getStringNotInUrl(String stringNotInUrl)

  …{

  this.stringNotInUrl=stringNotInUrl;

  }

  //获取采集规则

  //获取url网址

  public void getUrl()

  …{

  }

  public String getRegex()

  …{

  return regex;

  }

  class UrlAndTitle

  …{

  String myURL;

  String title;

  }

  }

[1][2]

如果说对云南有进一步的了解的话就是鲜花。

Java正则表达式获取网页所有网址和链接文字

相关文章:

你感兴趣的文章:

标签云: