学习元 · Java中去除ＨＴＭＬ代码

Java中去除ＨＴＭＬ代码
普通类
- 支持
- 批判
- 提问
- 解释
- 补充
- 删除
问题描述
做全文检索，取出的学习元文本中含有大量的ＨＴＭＬ标签，使得布局相当混乱，因此要寻求一种解决办法，初步想了一下试图将文本中的ＨＴＭＬ标签去除。
解决办法：正则表达式
　　　　String content= doc.get("content");　　//含有ＨＴＭＬ标签的字符串
           String textStr ="";　　　　　　　　　　　//目标字符串

           java.util.regex.Pattern p_script;
           java.util.regex.Matcher m_script;
           java.util.regex.Pattern p_style;
           java.util.regex.Matcher m_style;
           java.util.regex.Pattern p_html;
              java.util.regex.Matcher m_html;
              java.util.regex.Pattern p_html1;
              java.util.regex.Matcher m_html1;
              String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> }
              String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> }
              String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式
              String regEx_html1 = "<[^>]+";

              p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
              m_script = p_script.matcher(content);
              content = m_script.replaceAll(""); //过滤script标签

              p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
              m_style = p_style.matcher(content);
              content = m_style.replaceAll(""); //过滤style标签

              p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
              m_html = p_html.matcher(content);
              content = m_html.replaceAll(""); //过滤html标签

              p_html1 = Pattern.compile(regEx_html1,Pattern.CASE_INSENSITIVE);
              m_html1 = p_html1.matcher(content);
              content = m_html1.replaceAll(""); //过滤html标签
- 标签：
- java.util.regex.pattern
- string
- pattern.case_insensitive
- java.util.regex.matcher
- 标签
- style
- 正则表达式
- pattern.compile
- content
- script
加入的知识群：
- 学习元
  
  技术交流
  
  知识管理
  
  工作场所学习
  学习元项目技术交流
  
  普通类 95.0分
  
  杨现民 2011-03-03
学习元评论 (0条)

聪明如你，不妨在这发表你的看法与心得 ~

登录之后可以发表学习元评论。

回复内容

匿名回复
不良信息举报

被举报人：姓名

被举报内容：内容

举报原因：违法色情暴力广告抄袭骂人其他

描述：

顶部

Java中去除ＨＴＭＬ代码

加入的知识群：

学习元项目技术交流

学习元评论 (0条)