Identificar el contenido primario de una página

https://stackoverflow.com/questions/1220494

10-07-2019
|

Pregunta

Dada una página HTML que es un artículo con mucho texto, me gustaría identificar y analizar el contenido principal.

Utilizando http: //www.fivethirtyeight. com / 2009/08 / chavismo-obama-and-monroe-doctrine.html como ejemplo, quiero identificar div # post-4438372351887392855, que contiene el título y el artículo.

Sé que nada puede ser perfecto o funcionar el 100% del tiempo, pero ¿hay algún enfoque que pueda darme el resultado deseado en un número razonable de circunstancias?

Mi pensamiento actual es iterar a través de cada div, eliminando el marcado, y luego encontrar el div más interno que contiene la mayor cantidad de texto.

En este punto, recién estoy comenzando, así que estoy buscando información que pueda aportar a un enfoque conceptual. O, si hay algo ahí fuera, una biblioteca de código abierto estaría bien.

Gracias de antemano por las ideas.

Solución

Algunas personas en arc90 han hecho un trabajo bastante impresionante con esto con su bookmarklet de legibilidad . Parece que hace un buen trabajo encontrar el contenido 'principal': funciona perfectamente en la página que enumeras.
Puede consultar su javascript bien comentado (vinculado en el bookmarklet), pero es posible que desee ponerse en contacto con los desarrolladores para obtener sus ideas y permiso para usarlos.

Otros consejos

La lista compilada más completa de recursos para la extracción de contenido primario son:

Mire también los comentarios, ya que hay consejos adicionales.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow