Question

Je suis intéressé à trouver le sujet ou un sujet de pages web au hasard et en liant cette à une entité dans une base de données RDF tels que dbpedia. Je me demandais s'il y a des bibliothèques / outils pour le faire ou si quelqu'un a essayé de faire quelque chose comme ça avant?

Était-ce utile?

La solution

Trouver l'objet d'une page Web est probablement plus proche de Summarization automatique (voir la page Wikipedia du même nom ). L'un des sous-tâches utilisées pour c'est-Keyphrase Extraction (KE). KE retournera (phrases) sous-chaînes du texte d'entrée qui sont importants / proéminent / pertinentes à cet élément de texte. Si vous supposez que les entités nommées sont généralement clés au sujet de votre texte d'entrée, puis l'entité nommée reconnaissance (NER) serait une autre possible pour ce que vous sous-tâche voulez. NER renverra les sous-chaînes qui sont des noms d'entités, à côté du type de l'entité.

D'après votre description, il semble que vous cherchez plus que KE ou NER, comme vous le mentionnez un lien vers une base de connaissances (KB) tels que DBpedia. Un outil appelé Spotlight DBpedia fait exactement cela. Vous pouvez le configurer pour trouver toutes les ressources DBpedia dans le texte d'entrée, ou seulement keyphrases, seules les entités nommées, etc. Tout cela tout en reliant à DBpedia à la fin. Check it out: http://spotlight.dbpedia.org

Il existe d'autres outils tels que AlchemiAPI, Zemanta, WikiMachine, Evri, HeadUp, Enrycher, etc. Mais pour autant que je sache, DBpedia Spotlight est le seul qui est libre, open source (Apache V2) et vous permet de configurer le comportement de la reconnaissance des mots et homonymie semblables. (Disclaimer: Je suis co-créateur de DBpedia Spotlight)

Autres conseils

Qu'est-ce que vous êtes essentiellement après est un outil de reconnaissance des entités nommées. Il y a un certain nombre de services gratuits et disponibles dans le commerce, tels que API Alchemy , < a href = "http://www.opencalais.com/documentation/linked-data-entities" rel = "nofollow"> OpenCalais , Lupedia ou par Zemanta . Certains de mes collègues ont Blogged à propos de leurs expériences avec ces services.

Pour la partie serait généralement vous interconnexion utiliser des cadres tels que soie ou LIMES ; très bientôt il y aura un services dans le nuage interconnexion disponible via le projet CE 7e PC LATC. Disclaimer: Je suis le projet LATC coordinateur et soie / LIMES sont des produits des membres du consortium LATC

.

OpenLink Virtuoso le fait déjà avec son Sponger (un RDFizer) méta-cartouches pour OpenCalais, Alchemy, Pingar et DBPedia Spotlight. -À-dire, vous nourrir une page, il demande aux sites ci-dessus pour les entités, il vous donne multiplie par trois entités identifiées basé sur.

(Avertissement:. Je devrais le savoir)

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top