Question

Je suis à la recherche d'une API polyvalente / service Web / outil / etc ... qui permet de convertir une page HTML donnée à un graphe RDF aussi précis que possible (le plus probablement à l'aide d'une ontologie osseuse en arrière et / ou mappeur) .

Était-ce utile?

La solution 2

je XQuery pour extraire les données de l'ensemble donné de pages Web. Je devais écrire des requêtes personnalisées pour les pages Web. Je pense que c'est l'approche la plus directe de prendre pour un ensemble spécifique de fichiers HTML. Cependant, il est évidemment pas bon pour le cas général. Pour un ensemble différent de pages Web d'autres requêtes personnalisées sont doivent être écrites.

Autres conseils

Avez-vous prouvé GRDDL ?

  

GRDDL est une technique pour obtenir RDF   les données de documents XML et en   certaines pages XHTML.

je JSoup pour gratter les données de HTML. Il utilise le style jQuery de HTML DOM interrogation, wich j'étais déjà famirial avec, il était donc outil vraiment simple à utiliser pour moi. Je finançons également assez robuste mais il me fallait juste pour gratter 3 datasources donc je n'ont une riche expérience avec cet outil encore. jsoup

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top