Pregunta

Dada una página HTML que es un artículo con mucho texto, me gustaría identificar y analizar el contenido principal.

Utilizando http: //www.fivethirtyeight. com / 2009/08 / chavismo-obama-and-monroe-doctrine.html como ejemplo, quiero identificar div # post-4438372351887392855, que contiene el título y el artículo.

Sé que nada puede ser perfecto o funcionar el 100% del tiempo, pero ¿hay algún enfoque que pueda darme el resultado deseado en un número razonable de circunstancias?

Mi pensamiento actual es iterar a través de cada div, eliminando el marcado, y luego encontrar el div más interno que contiene la mayor cantidad de texto.

En este punto, recién estoy comenzando, así que estoy buscando información que pueda aportar a un enfoque conceptual. O, si hay algo ahí fuera, una biblioteca de código abierto estaría bien.

Gracias de antemano por las ideas.

¿Fue útil?

Solución

Algunas personas en arc90 han hecho un trabajo bastante impresionante con esto con su bookmarklet de legibilidad . Parece que hace un buen trabajo encontrar el contenido 'principal': funciona perfectamente en la página que enumeras.
Puede consultar su javascript bien comentado (vinculado en el bookmarklet), pero es posible que desee ponerse en contacto con los desarrolladores para obtener sus ideas y permiso para usarlos.

Otros consejos

La lista compilada más completa de recursos para la extracción de contenido primario son:

  1. Extracción del texto del artículo de documentos html
  2. Lista de recursos: artículo extracción de texto de documentos html

Mire también los comentarios, ya que hay consejos adicionales.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top