Определение основного содержимого страницы

https://stackoverflow.com/questions/1220494

10-07-2019
|

Вопрос

Учитывая HTML-страницу, которая представляет собой текстовую статью, я хотел бы определить и проанализировать основной контент.

Использование http: //www.fivethirtyeight. com / 2009/08 / chavismo-obama-and-monroe-doctrine.html в качестве примера я хочу указать div # post-4438372351887392855, который содержит заголовок и статью.

Я знаю, что ничто не может быть идеальным или работать 100% времени, но есть ли подход, который может дать мне желаемый результат при разумном количестве обстоятельств?

Моя нынешняя мысль - перебирать каждый элемент div, убирать разметку и затем находить самый внутренний элемент div, который содержит наибольшее количество текста.

На данный момент, я только начинаю, поэтому в поисках информации могу предложить концептуальный подход. Или, если что-то есть, библиотека с открытым исходным кодом была бы хороша.

Заранее спасибо за идеи.

Решение

Некоторые люди в arc90 проделали довольно внушительную работу с этим с помощью своего читабельного букмарклета , Похоже, что он довольно хорошо справляется с поиском «основного» контента - он отлично работает на странице, которую вы перечислили.
Вы можете просмотреть их хорошо прокомментированный javascript (ссылка на который есть в букмарклете), но вы можете обратиться к разработчикам за их идеями и разрешением их использования.

Другие советы

Наиболее полный скомпилированный список ресурсов для извлечения основного контента:

<Ол>

Извлечение текста статьи из HTML-документов

Список ресурсов: статья извлечение текста из HTML-документов

Посмотрите также на комментарии, так как есть дополнительные советы.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow