페이지의 기본 내용을 식별합니다

https://stackoverflow.com/questions/1220494

10-07-2019
|

문제

텍스트 무거운 기사 인 HTML 페이지가 주어지면 기본 내용을 식별하고 구문 분석하고 싶습니다.

사용 http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html 예를 들어, 제목과 기사를 포함하는 Div#post-4438372351887392855를 식별하고 싶습니다.

나는 완벽한 일이 없거나 100% 일할 수 없다는 것을 알고 있지만, 합리적인 수의 상황에서 원하는 결과를 줄 수있는 접근법이 있습니까?

나의 현재 생각은 각 div를 통해 반복하여 마크 업을 제거한 다음 가장 많은 텍스트를 포함하는 내부 DIV를 찾는 것입니다.

이 시점에서 나는 방금 시작하고 있으므로 개념적 접근 방식을 향한 입력을 찾고 있습니다. 또는 무언가가 있으면 오픈 소스 라이브러리가 좋을 것입니다.

통찰력에 미리 감사드립니다.

해결책

ARC90의 일부 사람들은 가독성 북마크. '메인'컨텐츠를 찾는 데 꽤 좋은 일을하는 것 같습니다. 페이지에서 완벽하게 목록을 작성합니다.
잘 댓글을 달린 JavaScript (북마크에서 링크)를 살펴볼 수는 있지만 개발자에게 아이디어와 사용 권한을 얻으려면 개발자에게 연락 할 수 있습니다.

다른 팁

1 차 콘텐츠 추출을위한 가장 완전한 컴파일 리소스 목록은 다음과 같습니다.

추가 팁이 있기 때문에 주석도보십시오.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow