Определение основного содержимого страницы
Вопрос
Учитывая HTML-страницу, которая представляет собой текстовую статью, я хотел бы определить и проанализировать основной контент.
Использование http: //www.fivethirtyeight. com / 2009/08 / chavismo-obama-and-monroe-doctrine.html в качестве примера я хочу указать div # post-4438372351887392855, который содержит заголовок и статью.
Я знаю, что ничто не может быть идеальным или работать 100% времени, но есть ли подход, который может дать мне желаемый результат при разумном количестве обстоятельств?
Моя нынешняя мысль - перебирать каждый элемент div, убирать разметку и затем находить самый внутренний элемент div, который содержит наибольшее количество текста.
На данный момент, я только начинаю, поэтому в поисках информации могу предложить концептуальный подход. Или, если что-то есть, библиотека с открытым исходным кодом была бы хороша.
Заранее спасибо за идеи.
Решение
Некоторые люди в arc90 проделали довольно внушительную работу с этим с помощью своего читабельного букмарклета ,
Похоже, что он довольно хорошо справляется с поиском «основного» контента - он отлично работает на странице, которую вы перечислили.
Вы можете просмотреть их хорошо прокомментированный javascript (ссылка на который есть в букмарклете), но вы можете обратиться к разработчикам за их идеями и разрешением их использования.
Другие советы
Наиболее полный скомпилированный список ресурсов для извлечения основного контента:
<Ол>Посмотрите также на комментарии, так как есть дополнительные советы.