Extraire du contenu/texte pur des pages HTML en excluant le contenu de navigation et Chrome

https://stackoverflow.com/questions/1696914

18-09-2019
|

Question

J'explore des sites Web d'actualités et je souhaite extraire le titre de l'actualité, le résumé de l'actualité (premier paragraphe), etc.

Je me suis connecté au code de l'analyseur du kit Web pour naviguer facilement dans la page Web sous forme d'arborescence.Pour éliminer la navigation et autres contenus non liés aux actualités, je prends la version texte de l'article (moins les balises html, webkit fournit une API pour la même chose).Ensuite, j'exécute l'algorithme de comparaison en comparant le texte de différents articles du même site Web, ce qui entraîne l'élimination du texte similaire.Cela me donne du contenu moins le contenu de navigation commun, etc.

Malgré l'approche ci-dessus, je reçois encore pas mal de cochonneries dans mon texte final.Cela entraîne l'extraction d'un résumé d'actualité incorrect.Le taux d'erreur est de 5 articles sur 10, soit50%.Erreur comme dans

Peux-tu

Proposer une stratégie alternative d'extraction de contenu pur,
L'apprentissage du traitement du langage naturel pourrait-il/peut-il aider à extraire le résumé correct de ces articles ?
Comment aborderiez-vous le problème ci-dessus ?.
S'agit-il de documents de recherche sur le même sujet ?

Salutations

Ankur Gupta

La solution

Pour la question (1), je ne suis pas sûr.Je n'ai jamais fait ça auparavant.Peut-être qu'une des autres réponses aidera.

Pour la question (2), la création automatique de résumés n'est pas un domaine développé.C'est ce qu'on appelle généralement la « sélection de phrases », car l'approche typique à l'heure actuelle consiste simplement à sélectionner des phrases entières.

Pour la question (3), la manière de base de créer des résumés à partir de l’apprentissage automatique serait de :

Créer un corpus de résumés existants
Annotez les résumés de manière utile.Par exemple, vous souhaiterez probablement indiquer si chaque phrase de l'original a été choisie et pourquoi (ou pourquoi pas).
Entraînez un classificateur quelconque sur le corpus, puis utilisez-le pour classer les phrases dans de nouveaux articles.

Ma référence préférée sur l'apprentissage automatique est celle de Tom Mitchell Apprentissage automatique.Il répertorie un certain nombre de façons de mettre en œuvre l'étape (3).

Pour la question (4), je suis sûr qu'il y a quelques papiers car mon conseiller l'a mentionné l'année dernière, mais je ne sais pas par où commencer puisque je ne suis pas un expert en la matière.

Autres conseils

Vous pourriez jeter un oeil à mon chaudière projetez sur Google Code et testez-le sur les pages de votre choix à l'aide de l'application Web en direct sur Google AppEngine (liée à partir de là).

Je fais des recherches dans ce domaine et j'ai écrit des articles sur l'extraction de contenu/la suppression standard des pages HTML.Voir par exemple « Détection de plaque chauffante à l'aide de fonctionnalités de texte peu profond » et regardez la vidéo correspondante sur VideoLectures.net.Le document devrait vous donner un bon aperçu de l’état de l’art dans ce domaine.

Acclamations,

Christian

Je ne sais pas comment cela fonctionne, mais consultez Readability.Il fait exactement ce que vous vouliez.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow