문제
Java 문자열에서 HTML을 제거하는 좋은 방법이 있습니까? 간단한 성적
replaceAll("\\<.*?>","")
효과가 있지만 같은 것들 &
올바르게 변환되지 않으면 두 각도 브래킷 사이의 비 HTML이 제거됩니다 (예 : .*?
Regex에서는 사라질 것입니다).
다른 팁
당신이 글을 쓰고 있다면 기계적 인조 인간 당신은 이것을 할 수 있습니다 ...
android.text.Html.fromHtml(instruction).toString()
사용자가 들어가는 경우 <b>hey!</b>
, 당신은 표시하고 싶습니까? <b>hey!</b>
또는 hey!
? 첫 번째라면 덜 thans를 탈출하고 html-encode ampersands (그리고 선택적으로 인용문). 괜찮습니다. 두 번째 옵션을 구현하기위한 코드 수정은 다음과 같습니다.
replaceAll("\\<[^>]*>","")
그러나 사용자가 잘못된 것을 입력하면 문제가 발생합니다. <bhey!</b>
.
체크 아웃 할 수도 있습니다 JTIDY "더러운"HTML 입력을 구문 분석하고 태그를 제거하고 텍스트를 유지하는 방법을 제공해야합니다.
HTML을 벗기려고하는 문제는 브라우저가 브라우저가 매우 관대 한 파서를 가지고 있으며, 어떤 라이브러리보다 더 관대하다는 것입니다. , 당신은 할 것입니다 아직 출력을 안전하게 유지하려면 나머지 HTML 특수 문자를 인코딩해야합니다.
또 다른 방법은 사용하는 것입니다 javax.swing.text.html.htmleditorkit 텍스트를 추출합니다.
import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
public class Html2Text extends HTMLEditorKit.ParserCallback {
StringBuffer s;
public Html2Text() {
}
public void parse(Reader in) throws IOException {
s = new StringBuffer();
ParserDelegator delegator = new ParserDelegator();
// the third parameter is TRUE to ignore charset directive
delegator.parse(in, this, Boolean.TRUE);
}
public void handleText(char[] text, int pos) {
s.append(text);
}
public String getText() {
return s.toString();
}
public static void main(String[] args) {
try {
// the HTML to convert
FileReader in = new FileReader("java-new.html");
Html2Text parser = new Html2Text();
parser.parse(in);
in.close();
System.out.println(parser.getText());
} catch (Exception e) {
e.printStackTrace();
}
}
}
HTML 태그를 필터링하는 가장 간단한 방법은 다음과 같습니다.
private static final Pattern REMOVE_TAGS = Pattern.compile("<.+?>");
public static String removeTags(String string) {
if (string == null || string.length() == 0) {
return string;
}
Matcher m = REMOVE_TAGS.matcher(string);
return m.replaceAll("");
}
또한 매우 간단한 사용 여리고, 그리고 일부 서식을 유지할 수 있습니다 (예를 들어 라인 브레이크 및 링크).
Source htmlSource = new Source(htmlText);
Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
Renderer htmlRend = new Renderer(htmlSeg);
System.out.println(htmlRend.toString());
안드로이드에서는 이것을 시도하십시오.
String result = Html.fromHtml(html).toString();
HTML Escaping은 실제로 올바른 작업을 수행하기가 어렵습니다. 도서관 코드를 사용하여 생각하는 것보다 훨씬 미묘하기 때문에이 작업을 수행하는 것이 좋습니다. 아파치를 확인하십시오 stringescapeutils 자바에서 이것을 처리하기위한 꽤 좋은 도서관.
간단한 일에 대한 받아 들여진 대답 Jsoup.parse(html).text()
JSOUP 1.7.3의 두 가지 잠재적 문제가 있습니다.
- 텍스트에서 줄이 나오는 것을 제거합니다
- 텍스트를 변환합니다
<script>
~ 안으로<script>
XSS로부터 보호하기 위해 이것을 사용한다면, 이것은 약간 성가시다. 다음은 JSOUP 및 Apache StringEscapeUtils를 사용하여 개선 된 솔루션에서 가장 좋은 샷입니다.
// breaks multi-level of escaping, preventing &lt;script&gt; to be rendered as <script>
String replace = input.replace("&", "");
// decode any encoded html, preventing <script> to be rendered as <script>
String html = StringEscapeUtils.unescapeHtml(replace);
// remove all html tags, but maintain line breaks
String clean = Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
// decode html again to convert character entities back into text
return StringEscapeUtils.unescapeHtml(clean);
마지막 단계는 출력을 일반 텍스트로 사용해야하기 때문입니다. HTML 출력 만 필요하면 제거 할 수 있어야합니다.
다음은 여러 테스트 사례 (출력에 대한 입력)가 있습니다.
{"regular string", "regular string"},
{"<a href=\"link\">A link</a>", "A link"},
{"<script src=\"http://evil.url.com\"/>", ""},
{"<script>", ""},
{"&lt;script&gt;", "lt;scriptgt;"}, // best effort
{"\" ' > < \n \\ é å à ü and & preserved", "\" ' > < \n \\ é å à ü and & preserved"}
더 나은 방법을 찾으면 알려주십시오.
교체하고 싶을 수도 있습니다 <br/>
그리고 </p>
Tim이 제안한 것처럼 HTML을 제거하기 전에 Newlines가있는 태그.
HTML 태그 제거를 생각할 수있는 유일한 방법이지만 각도 브래킷 사이에 비 HTML을 남겨 두는 것은 HTML 태그 목록. 이 라인을 따라 뭔가 ...
replaceAll("\\<[\s]*tag[^>]*>","")
그런 다음 html-decode 특수 문자 : &
. 결과는 소독으로 간주되어서는 안됩니다.
작동해야합니다.
이것을 사용하십시오
text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.
이
text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like , &, > etc.
허용 된 답변은 테스트 사례 I에 대해 나에게 효과가 없었습니다. "a <b 또는 b> c"의 결과는 "ab 또는 b> c"입니다.
그래서 대신 Tagsoup을 사용했습니다. 다음은 테스트 케이스 (및 다른 두 사람)에서 일한 샷입니다.
import java.io.IOException;
import java.io.StringReader;
import java.util.logging.Logger;
import org.ccil.cowan.tagsoup.Parser;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.Locator;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
/**
* Take HTML and give back the text part while dropping the HTML tags.
*
* There is some risk that using TagSoup means we'll permute non-HTML text.
* However, it seems to work the best so far in test cases.
*
* @author dan
* @see <a href="http://home.ccil.org/~cowan/XML/tagsoup/">TagSoup</a>
*/
public class Html2Text2 implements ContentHandler {
private StringBuffer sb;
public Html2Text2() {
}
public void parse(String str) throws IOException, SAXException {
XMLReader reader = new Parser();
reader.setContentHandler(this);
sb = new StringBuffer();
reader.parse(new InputSource(new StringReader(str)));
}
public String getText() {
return sb.toString();
}
@Override
public void characters(char[] ch, int start, int length)
throws SAXException {
for (int idx = 0; idx < length; idx++) {
sb.append(ch[idx+start]);
}
}
@Override
public void ignorableWhitespace(char[] ch, int start, int length)
throws SAXException {
sb.append(ch);
}
// The methods below do not contribute to the text
@Override
public void endDocument() throws SAXException {
}
@Override
public void endElement(String uri, String localName, String qName)
throws SAXException {
}
@Override
public void endPrefixMapping(String prefix) throws SAXException {
}
@Override
public void processingInstruction(String target, String data)
throws SAXException {
}
@Override
public void setDocumentLocator(Locator locator) {
}
@Override
public void skippedEntity(String name) throws SAXException {
}
@Override
public void startDocument() throws SAXException {
}
@Override
public void startElement(String uri, String localName, String qName,
Attributes atts) throws SAXException {
}
@Override
public void startPrefixMapping(String prefix, String uri)
throws SAXException {
}
}
나는 이것이 오래된 것을 알고 있지만, 나는 단지 HTML을 필터링 해야하는 프로젝트를 진행하고 있었고 이것은 잘 작동했다.
noHTMLString.replaceAll("\\&.*?\\;", "");
대신 :
html = html.replaceAll(" ","");
html = html.replaceAll("&"."");
다음은 브레이크 및 목록에 대한 일부 형식을 처리하기 위해 가볍게 더 많은 업데이트입니다. 나는 Amaya의 출력을 가이드로 사용했습니다.
import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Stack;
import java.util.logging.Logger;
import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;
public class HTML2Text extends HTMLEditorKit.ParserCallback {
private static final Logger log = Logger
.getLogger(Logger.GLOBAL_LOGGER_NAME);
private StringBuffer stringBuffer;
private Stack<IndexType> indentStack;
public static class IndexType {
public String type;
public int counter; // used for ordered lists
public IndexType(String type) {
this.type = type;
counter = 0;
}
}
public HTML2Text() {
stringBuffer = new StringBuffer();
indentStack = new Stack<IndexType>();
}
public static String convert(String html) {
HTML2Text parser = new HTML2Text();
Reader in = new StringReader(html);
try {
// the HTML to convert
parser.parse(in);
} catch (Exception e) {
log.severe(e.getMessage());
} finally {
try {
in.close();
} catch (IOException ioe) {
// this should never happen
}
}
return parser.getText();
}
public void parse(Reader in) throws IOException {
ParserDelegator delegator = new ParserDelegator();
// the third parameter is TRUE to ignore charset directive
delegator.parse(in, this, Boolean.TRUE);
}
public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
log.info("StartTag:" + t.toString());
if (t.toString().equals("p")) {
if (stringBuffer.length() > 0
&& !stringBuffer.substring(stringBuffer.length() - 1)
.equals("\n")) {
newLine();
}
newLine();
} else if (t.toString().equals("ol")) {
indentStack.push(new IndexType("ol"));
newLine();
} else if (t.toString().equals("ul")) {
indentStack.push(new IndexType("ul"));
newLine();
} else if (t.toString().equals("li")) {
IndexType parent = indentStack.peek();
if (parent.type.equals("ol")) {
String numberString = "" + (++parent.counter) + ".";
stringBuffer.append(numberString);
for (int i = 0; i < (4 - numberString.length()); i++) {
stringBuffer.append(" ");
}
} else {
stringBuffer.append("* ");
}
indentStack.push(new IndexType("li"));
} else if (t.toString().equals("dl")) {
newLine();
} else if (t.toString().equals("dt")) {
newLine();
} else if (t.toString().equals("dd")) {
indentStack.push(new IndexType("dd"));
newLine();
}
}
private void newLine() {
stringBuffer.append("\n");
for (int i = 0; i < indentStack.size(); i++) {
stringBuffer.append(" ");
}
}
public void handleEndTag(HTML.Tag t, int pos) {
log.info("EndTag:" + t.toString());
if (t.toString().equals("p")) {
newLine();
} else if (t.toString().equals("ol")) {
indentStack.pop();
;
newLine();
} else if (t.toString().equals("ul")) {
indentStack.pop();
;
newLine();
} else if (t.toString().equals("li")) {
indentStack.pop();
;
newLine();
} else if (t.toString().equals("dd")) {
indentStack.pop();
;
}
}
public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
log.info("SimpleTag:" + t.toString());
if (t.toString().equals("br")) {
newLine();
}
}
public void handleText(char[] text, int pos) {
log.info("Text:" + new String(text));
stringBuffer.append(text);
}
public String getText() {
return stringBuffer.toString();
}
public static void main(String args[]) {
String html = "<html><body><p>paragraph at start</p>hello<br />What is happening?<p>this is a<br />mutiline paragraph</p><ol> <li>This</li> <li>is</li> <li>an</li> <li>ordered</li> <li>list <p>with</p> <ul> <li>another</li> <li>list <dl> <dt>This</dt> <dt>is</dt> <dd>sdasd</dd> <dd>sdasda</dd> <dd>asda <p>aasdas</p> </dd> <dd>sdada</dd> <dt>fsdfsdfsd</dt> </dl> <dl> <dt>vbcvcvbcvb</dt> <dt>cvbcvbc</dt> <dd>vbcbcvbcvb</dd> <dt>cvbcv</dt> <dt></dt> </dl> <dl> <dt></dt> </dl></li> <li>cool</li> </ul> <p>stuff</p> </li> <li>cool</li></ol><p></p></body></html>";
System.out.println(convert(html));
}
}
또는 사용할 수 있습니다 htmlcleaner:
private CharSequence removeHtmlFrom(String html) {
return new HtmlCleaner().clean(html).getText();
}
사용 Html.fromHtml
HTML 태그가 있습니다
<a href=”…”> <b>, <big>, <blockquote>, <br>, <cite>, <dfn>
<div align=”…”>, <em>, <font size=”…” color=”…” face=”…”>
<h1>, <h2>, <h3>, <h4>, <h5>, <h6>
<i>, <p>, <small>
<strike>, <strong>, <sub>, <sup>, <tt>, <u>
에 따라 안드로이드의 공식 문서 에있는 모든 태그 HTML 일반적인 교체로 표시됩니다 끈 그런 다음 프로그램을 통해 실제로 교체 할 수있는 문자열.
Html.formHtml
메소드를 사용합니다 Html.TagHandler
그리고 html.imagegetter는 인수와 구문 분석 텍스트입니다.
예시
String Str_Html=" <p>This is about me text that the user can put into their profile</p> ";
그 다음에
Your_TextView_Obj.setText(Html.fromHtml(Str_Html).toString());
산출
이것은 사용자가 자신의 프로필에 넣을 수있는 나 텍스트에 관한 것입니다.
한 가지 방법은 com.google.gdata.util.common.html.htmltotext 클래스를 사용하는 것입니다.
MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));
이것은 방탄 코드가 아니며 Wikipedia 항목에서 실행할 때 스타일 정보도 받고 있습니다. 그러나 나는 작고 간단한 직업에 대해 이것이 효과적 일 것이라고 믿는다.
HTML에서 일반 텍스트로 가고 싶은 것 같습니다.
이 경우 www.htmlparser.org를보십시오. 다음은 URL에서 발견 된 HTML 파일에서 모든 태그를 제거하는 예입니다.
그것은 사용합니다 org.htmlparser.beans.stringbean.
static public String getUrlContentsAsText(String url) {
String content = "";
StringBean stringBean = new StringBean();
stringBean.setURL(url);
content = stringBean.getStrings();
return content;
}
다음과 같은 또 다른 방법은 다음과 같습니다.
public static String removeHTML(String input) {
int i = 0;
String[] str = input.split("");
String s = "";
boolean inTag = false;
for (i = input.indexOf("<"); i < input.indexOf(">"); i++) {
inTag = true;
}
if (!inTag) {
for (i = 0; i < str.length; i++) {
s = s + str[i];
}
}
return s;
}
다음은 모든 것을 교체하는 방법 중 하나입니다 (HTML 태그 | HTML 엔티티 | HTML 컨텐츠의 빈 공간)
content.replaceAll("(<.*?>)|(&.*?;)|([ ]{2,})", "");
여기서 내용은 문자열입니다.
하나도 사용할 수 있습니다 아파치 티카 이 목적을 위해. 기본적으로 스트리핑 된 HTML에서 공백을 보존합니다. 특정 상황에서는 다음과 같습니다.
InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())
JSOUP로 새 라인 정보를 유지하는 한 가지 방법은 Dummy String으로 모든 새 라인 태그를 선행하고 JSOUP을 실행하고 Dummy String을 " n"으로 바꾸는 것입니다.
String html = "<p>Line one</p><p>Line two</p>Line three<br/>etc.";
String NEW_LINE_MARK = "NEWLINESTART1234567890NEWLINEEND";
for (String tag: new String[]{"</p>","<br/>","</h1>","</h2>","</h3>","</h4>","</h5>","</h6>","</li>"}) {
html = html.replace(tag, NEW_LINE_MARK+tag);
}
String text = Jsoup.parse(html).text();
text = text.replace(NEW_LINE_MARK + " ", "\n\n");
text = text.replace(NEW_LINE_MARK, "\n\n");
안드로이드의 기본 HTML 필터를 사용할 수 있습니다.
public String htmlToStringFilter(String textToFilter){
return Html.fromHtml(textToFilter).toString();
}
위의 방법은 입력에 대해 HTML 필터링 문자열을 반환합니다.
내 5 센트 :
String[] temp = yourString.split("&");
String tmp = "";
if (temp.length > 1) {
for (int i = 0; i < temp.length; i++) {
tmp += temp[i] + "&";
}
yourString = tmp.substring(0, tmp.length() - 1);
}
얻기 위해 일반 HTML 텍스트를 형성했습니다 당신은 할 수 있습니다 :
String BR_ESCAPED = "<br/>";
Element el=Jsoup.parse(html).select("body");
el.select("br").append(BR_ESCAPED);
el.select("p").append(BR_ESCAPED+BR_ESCAPED);
el.select("h1").append(BR_ESCAPED+BR_ESCAPED);
el.select("h2").append(BR_ESCAPED+BR_ESCAPED);
el.select("h3").append(BR_ESCAPED+BR_ESCAPED);
el.select("h4").append(BR_ESCAPED+BR_ESCAPED);
el.select("h5").append(BR_ESCAPED+BR_ESCAPED);
String nodeValue=el.text();
nodeValue=nodeValue.replaceAll(BR_ESCAPED, "<br/>");
nodeValue=nodeValue.replaceAll("(\\s*<br[^>]*>){3,}", "<br/><br/>");
얻기 위해 일반 텍스트를 형성했습니다 변화u003Cbr/> n 및 마지막 줄을 변경하십시오.
nodeValue=nodeValue.replaceAll("(\\s*\n){3,}", "<br/><br/>");
classeString.replaceAll("\\<(/?[^\\>]+)\\>", "\\ ").replaceAll("\\s+", " ").trim()
당신은 단순히 다중 replaceall ()과 같은 방법을 만들 수 있습니다.
String RemoveTag(String html){
html = html.replaceAll("\\<.*?>","")
html = html.replaceAll(" ","");
html = html.replaceAll("&"."");
----------
----------
return html;
}
필요한 가장 일반적인 대체물 에이 링크를 사용하십시오.http://tunes.org/wiki/html_20special_20characters_20and_20symbols.html
간단하지만 효과적입니다. 이 메소드를 먼저 사용하여 정크를 제거하지만 첫 번째 줄, 즉 replaceall ( " <.*?>", "")은 아니며 나중에 특정 키워드를 사용하여 인덱스를 검색 한 다음 .substring (시작, 끝 ) 불필요한 물건을 제거하는 방법. 이것은 더 강력하고 전체 HTML 페이지에서 필요한 것을 정확하게 지적 할 수 있습니다.
문자열에서 HTML 태그를 제거하십시오. 어딘가에 서버에서 httpresponse와 같은 일부 응답으로 수신 된 문자열을 구문 분석해야합니다.
그래서 우리는 그것을 구문 분석해야합니다.
여기서 문자열에서 HTML 태그를 제거하는 방법을 보여 드리겠습니다.
// sample text with tags
string str = "<html><head>sdfkashf sdf</head><body>sdfasdf</body></html>";
// regex which match tags
System.Text.RegularExpressions.Regex rx = new System.Text.RegularExpressions.Regex("<[^>]*>");
// replace all matches with empty strin
str = rx.Replace(str, "");
//now str contains string without html tags