• Java正则表达式获取网址和链接文字

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 关键知识点:

    1、正则表达式中Matcher中find()方法的应用。

    2、String对象中的 replaceAll(String regex,String replacement) 方法的使用。通过这个方法去除了不必要的字符串,从而得到了需要的网址和链接文字

     

    • 例子



    /*
         功能说明:分析字符串s,提取s里面的超链接和链接文字
         2008年3月30日
          程序人生博客 
    */

    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    public class RegTest
    {
        
    public static void main(String[] args)
        {
            
            
            
    //String s="<p id=km>&nbsp;<a href=http://hi.baidu.com>空间</a>&nbsp;|&nbsp;<a ";
            String s="</p><p style=height:14px><a href=http://jingjia.baidu.com>企业推广</a> | <a href=http://top.baidu.com>搜索风云榜</a> | <a href=/home.html>关于百度</a> | <a href=http://ir.baidu.com>About Baidu</a></p><p id=b>&copy;2008 Baidu <a href=http://www.baidu.com/duty>使用百度前必读</a> <a href=http://www.miibeian.gov.cn target=_blank>京ICP证030173号</a> <a href=http://www.hd315.gov.cn/beian/view.asp?bianhao=010202001092500412><img src=http://gimg.baidu.com/img/gs.gif></a></p></center></body></html><!--543ff95f18f36b11-->";
          

             String regex="<a.*?/a>";        
            
    //String regex = "<a.*>(.*)</a>";
            Pattern pt=Pattern.compile(regex);
            Matcher mt
    =pt.matcher(s);
            
    while(mt.find())
            {
                 System.out.println(mt.group());
                 System.out.println();
                 String s2
    =">.*?</a>";//标题部分
                 String s3="href=.*?>";
                  
                  Pattern pt2
    =Pattern.compile(s2);
                  Matcher mt2
    =pt2.matcher(mt.group());
                  
    while(mt2.find())
                    {
                   System.out.println(
    "标题:"+mt2.group().replaceAll(">|</a>",""));
                  }
                  
                  Pattern pt3
    =Pattern.compile(s3);
                  Matcher mt3
    =pt3.matcher(mt.group());
                  
    while(mt3.find())
                    {
                   System.out.println(
    "网址:"+mt3.group().replaceAll("href=|>",""));
                  }              
            }
        }
    }

    • 输出结果

    • 标签:
    • string
    • stringregex
    • 正则表达式
    • mt.group
    • pattern.compile
    • replaceall
    • a.
    • java
    • 链接
    • http
    • href
    • system.out.println
    • 标题
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部