잘못된 HTML에서 유형별로 요소 가져오기

https://stackoverflow.com/questions/1712464

19-09-2019
|

문제

잘못된 형식의 HTML 페이지에서 특정 유형의 모든 요소를 Java에서 검색하는 가장 쉬운 방법은 무엇입니까?그래서 저는 다음과 같은 작업을 하고 싶습니다.

public static void main(String[] args) {
    // Read in an HTML file from disk
    // Retrieve all INPUT elements regardless of whether the HTML is well-formed
    // Loop through all elements and retrieve their ids if they exist for the element
}

해결책

HtmlCleaner (다소) 잘못된 형식의 HTML을 처리할 때 틀림없이 최고의 HTML 파서 중 하나입니다.

문서는 여기 일부 코드 샘플이 있습니다.당신은 기본적으로 찾고 있습니다 getElementsByName() 방법.

보세요 Java HTML 파서 비교 다른 도서관을 고려하고 있다면.

다른 팁

나는 사용하여 성공했습니다 태그 수프.홈 페이지의 간단한 설명은 다음과 같습니다.

다음은 Java로 작성된 SAX 호환 파서인 TagSoup의 홈 페이지입니다. 이 파서는 올바른 형식이나 유효한 XML을 구문 분석하는 대신 HTML을 실제 있는 그대로 구문 분석합니다.가난하고, 추잡하고, 잔인하지만 종종 부족함과는 거리가 멀다.TagSoup은 합리적인 애플리케이션 디자인을 사용하여 이러한 작업을 처리해야 하는 사람들을 위해 설계되었습니다.SAX 인터페이스를 제공함으로써 최악의 HTML에도 표준 XML 도구를 적용할 수 있습니다.TagSoup에는 HTML 파일을 읽고 깨끗한 HTML이나 XHTML에 가까운 올바른 형식의 XML을 생성할 수 있는 명령줄 프로세서도 포함되어 있습니다.

확인하다 지티디.

JTIDY는 HTML Tidy의 Java 포트, HTML 구문 검사기 및 Pretty Printer입니다.Java 비 사촌과 마찬가지로 Jtidy는 기형 및 결함이있는 HTML을 청소하는 도구로 사용할 수 있습니다.또한 JTIDY는 처리중인 문서에 DOM 인터페이스를 제공하므로 JTIDY를 실제 HTML의 DOM 파서로 효과적으로 사용할 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow