HTML 파일 그룹에서 테이블 내용을 추출하는 가장 좋은 방법은 무엇입니까?

https://stackoverflow.com/questions/68691

09-06-2019
|

문제

TIDY를 사용하여 HTML 파일로 가득 찬 폴더를 정리한 후 추가 처리를 위해 테이블 내용을 어떻게 추출할 수 있습니까?

해결책

어떤 종류의 처리를 수행하려는지에 따라 다릅니다.Tidy에게 XML 유형인 XHTML을 생성하도록 지시할 수 있습니다. 이는 결과에 대해 XSLT 및 XQuery와 같은 일반적인 XML 도구를 모두 사용할 수 있음을 의미합니다.

Microsoft Excel에서 처리하려면 HTML에서 테이블을 분할하여 파일에 넣은 다음 Excel에서 해당 파일을 열 수 있어야 합니다.HTML 테이블을 스프레드시트 페이지로 변환해 줍니다.그런 다음 CSV나 Excel 통합 문서 등으로 저장할 수 있습니다.(웹 서버에서도 이것을 사용할 수 있습니다. HTML 테이블을 반환하지만 Content-Type 헤더 application/ms-vnd.excel:Excel이 열리고 테이블을 가져와서 스프레드시트로 변환합니다.)

CSV를 데이터베이스에 입력하려면 이전처럼 Excel을 사용하거나 프로세스를 자동화하려는 경우 선택한 XML 탐색 API를 사용하여 테이블 행을 반복하는 프로그램을 작성할 수 있습니다. CSV로 저장하세요.Python의 Elementtree 및 CSV 모듈을 사용하면 이 작업이 매우 쉬워집니다.

다른 팁

나는 과거에 그런 일을 위해 BeautifulSoup을 사용해 큰 성공을 거두었습니다.

제안 사항을 검토한 후 결국 다음을 사용했습니다. HtmlUnit.

htmlunit을 사용하면 Java 코드를 사용자 정의하여 폴더에서 각 HTML 파일을 열고 테이블 태그로 이동하여 각 열 컨텐츠를 쿼리하며 CSV 파일을 작성하는 데 필요한 데이터를 추출 할 수있었습니다.

.NET에서는 다음을 사용할 수 있습니다. HTMLAgilityPack.

이것 좀 봐 이전 질문 자세한 내용은 StackOverflow에서 확인하세요.

HTML 마크업에서 콘텐츠를 추출하려면 특정 유형의 HTML 파서를 사용해야 합니다.이를 위해 거기에는 많은 것들이 있으며 다음은 귀하의 필요에 맞는 두 가지입니다:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

텍스트를 반복하고 정규식을 사용하십시오 :)

http://www.knowledgehouse.sg

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow