Extracción de contenido/texto puro de páginas HTML excluyendo la navegación y el contenido de Chrome

https://stackoverflow.com/questions/1696914

18-09-2019
|

Pregunta

Estoy rastreando sitios web de noticias y quiero extraer el título de la noticia, el resumen de la noticia (primer párrafo), etc.

Me conecté al código del analizador webkit para navegar fácilmente por la página web como un árbol.Para eliminar la navegación y otros contenidos que no sean noticias, tomo la versión de texto del artículo (menos las etiquetas html, webkit proporciona una API para el mismo).Luego ejecuto el algoritmo de diferenciación comparando el texto de varios artículos del mismo sitio web, lo que da como resultado la eliminación de texto similar.Esto me da contenido menos el contenido de navegación común, etc.

A pesar del enfoque anterior, todavía recibo bastante basura en mi texto final.Esto da como resultado que se extraiga un resumen de noticias incorrecto.La tasa de error es de 5 en 10 artículos, es decir.50%.Error como en

Puede

Sugerir una estrategia alternativa para la extracción de contenido puro,
¿Aprender el procesamiento del lenguaje natural ayudaría o podría ayudar a extraer resúmenes correctos de estos artículos?
¿Cómo abordaría el problema anterior?
¿Son estos trabajos de investigación sobre el mismo?

Saludos

Ankur Gupta

Solución

Para la pregunta (1), no estoy seguro. No he hecho esto antes. Tal vez una de las otras respuestas ayudarán.

Para la pregunta (2), creación automática de resúmenes no es un campo desarrollado. Por lo general se conoce como 'selección pena', debido a que el enfoque típico en este momento es simplemente seleccionar frases enteras.

Para la pregunta (3), la forma básica para crear resúmenes de aprendizaje de máquina sería:

Crear un corpus de resúmenes existentes
Anotar los resúmenes de una manera útil. Por ejemplo, lo que probablemente quiere indicar si se eligió cada frase en el original y por qué (o por qué no).
entrenar a un clasificador de algún tipo en el corpus, a continuación, utilizarlo para clasificar las frases de nuevos artículos.

Mi referencia favorita el aprendizaje automático es aprendizaje automático de Tom Mitchell . Se enumera una serie de formas de implementar la etapa (3).

Para la pregunta (4), estoy seguro de que hay algunos papeles porque mi asesor indican que el año pasado, pero no sé por dónde empezar ya que no soy un experto en el campo.

Otros consejos

Es posible echar un vistazo a mi proyecto boilerpipe en Google Code y probarlo en páginas de su elección a través de la aplicación web en vivo en Google App Engine (vinculado desde allí).

Estoy investigando esta zona y han escrito algunos artículos sobre el contenido de la extracción / eliminación repetitivo de las páginas HTML. Véase, por ejemplo, "Detección de la plancha de caldera usando Características de un texto de poca profundidad" y ver el video correspondiente en VideoLectures.net. El documento debe darle una buena visión general del estado de la técnica en este ámbito.

Saludos,

Christian

No sé cómo funciona, pero echa un vistazo legibilidad. Hace exactamente lo que quería.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow