Question

Étant donné qu'une page HTML est un article lourd en texte, j'aimerais identifier et analyser le contenu principal.

Utilisation de http: //www.fivethirtyeight. com / 2009/08 / chavismo-obama-and-monroe-doctrine.html à titre d'exemple, je souhaite identifier div # post-4438372351887392855, qui contient le titre et l'article.

Je sais que rien ne peut être parfait ou fonctionner à 100% du temps, mais existe-t-il une approche qui puisse me donner le résultat souhaité dans un nombre raisonnable de circonstances?

Ma pensée actuelle est de parcourir chaque div, en supprimant le balisage, puis en recherchant la div la plus interne qui contient le plus de texte.

À ce stade, je viens tout juste de commencer. Je souhaite donc obtenir des informations utiles pour une approche conceptuelle. Ou, si quelque chose existe, une bibliothèque open source serait bien.

Merci d'avance pour vos commentaires.

Était-ce utile?

La solution

Certains utilisateurs d'Arc90 ont fait un travail assez impressionnant avec leur bookmarklet de lisibilité . . Il semble faire un très bon travail pour trouver le contenu "principal" - fonctionne parfaitement sur la page que vous listez.
Vous pouvez consulter leur code javascript bien commenté (lié à dans le bookmarklet), mais vous pouvez également contacter les développeurs pour connaître leurs idées et obtenir leur autorisation d'utilisation.

Autres conseils

La liste la plus complète des ressources compilées pour l'extraction de contenu principal est la suivante:

  1. Extraire le texte d'un article à partir de documents HTML
  2. Liste des ressources: article extraction de texte à partir de documents HTML

Regardez aussi les commentaires car il y a des astuces supplémentaires.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top