Identifier le contenu principal d'une page
Question
Étant donné qu'une page HTML est un article lourd en texte, j'aimerais identifier et analyser le contenu principal.
Utilisation de http: //www.fivethirtyeight. com / 2009/08 / chavismo-obama-and-monroe-doctrine.html à titre d'exemple, je souhaite identifier div # post-4438372351887392855, qui contient le titre et l'article.
Je sais que rien ne peut être parfait ou fonctionner à 100% du temps, mais existe-t-il une approche qui puisse me donner le résultat souhaité dans un nombre raisonnable de circonstances?
Ma pensée actuelle est de parcourir chaque div, en supprimant le balisage, puis en recherchant la div la plus interne qui contient le plus de texte.
À ce stade, je viens tout juste de commencer. Je souhaite donc obtenir des informations utiles pour une approche conceptuelle. Ou, si quelque chose existe, une bibliothèque open source serait bien.
Merci d'avance pour vos commentaires.
La solution
Certains utilisateurs d'Arc90 ont fait un travail assez impressionnant avec leur bookmarklet de lisibilité . .
Il semble faire un très bon travail pour trouver le contenu "principal" - fonctionne parfaitement sur la page que vous listez.
Vous pouvez consulter leur code javascript bien commenté (lié à dans le bookmarklet), mais vous pouvez également contacter les développeurs pour connaître leurs idées et obtenir leur autorisation d'utilisation.
Autres conseils
La liste la plus complète des ressources compilées pour l'extraction de contenu principal est la suivante:
- Extraire le texte d'un article à partir de documents HTML
- Liste des ressources: article extraction de texte à partir de documents HTML
Regardez aussi les commentaires car il y a des astuces supplémentaires.