Question

Je voudrais analyser une page html et extraire le texte significatif de celui-ci. Tout le monde connaît quelques bons algorithmes pour le faire?

je développe mes applications Rails, mais je pense que Ruby est un peu lent dans ce domaine, donc je pense que si existe une bonne bibliothèque c pour cela, il serait approprié.

Merci !!

PD: S'il vous plaît ne recommande pas quoi que ce soit avec java

Mise à jour: J'ai trouvé ce texte lien

Malheureusement, est en python

Était-ce utile?

La solution

Nokogiri , qui est rapide et écrit en C , Ruby.

(en utilisant regexp pour analyser les expressions récursives comme HTML est notoirement difficile et sujette aux erreurs et je ne pas aller dans cette voie . Je ne mentionne que cela dans la réponse que cette question semble surgir encore et encore.)

Avec un vrai analyseur comme par exemple Nokogiri mentionné ci-dessus, vous obtenez également l'avantage supplémentaire que la structure et la logique du document HTML est conservé, et parfois vous avez vraiment besoin de ces indices.

scroll top