Frage

Ich bin daran interessiert, das Thema oder das Thema zufälliger Webseiten zu finden und diese mit einem Entität in einer RDF -Datenbank wie DBPedia zu verknüpfen. Ich habe mich gefragt, ob es Tools/Bibliotheken gibt, die dies tun oder ob jemand versucht hat, so etwas zu tun.

War es hilfreich?

Lösung

Das Finden einer Webseite ist wahrscheinlich am nächsten Automatische Zusammenfassung (Siehe Homonymous Wikipedia -Seite). Eine der dafür verwendeten Unteraufgaben ist die Tastaturextraktion (KE). Ke wird Substrings (Phrasen) aus dem Eingabetxt zurückgeben, die für diesen Textelement wichtig/prominent/relevant sind. Wenn Sie davon ausgehen, dass benannte Entitäten normalerweise für das Thema Ihres Eingabetxtes von entscheidender Bedeutung sind, wäre die benannte Entitätserkennung (NER) eine weitere mögliche Subtask für das, was Sie wollen. NER wird die Substrings, die Namen von Entitäten sind, neben dem Typ der Entität zurückgeben.

Aus Ihrer Beschreibung scheint es, dass Sie mehr als nur Ke oder Ner suchen, da Sie erwähnen, dass Sie mit einer Wissensbasis (KB) wie dbpedia verknüpfen. Ein Werkzeug namens Dbpedia Spotlight macht genau das. Sie können es konfigurieren, um jede dbpedia -Ressource im Eingabtext oder nur in Tastaturen, nur benannte Entitäten usw. Hör zu: http://spotlight.dbpedia.org

Es gibt andere Tools wie Alchemiapi, Zemanta, Wikimachine, Evri, Headup, Enrycher usw., aber soweit ich weiß, ist Dbpedia -Spotlight das einzige, das frei ist Die Phrase -Erkennung und -versteigerung gleichermaßen. (Haftungsausschluss: Ich bin Mitschöpfer des DBpedia-Spotlight)

Andere Tipps

Was Sie im Wesentlichen nachkommen, ist ein genanntes Entitätserkennungsinstrument. Es gibt eine Reihe von kostenlosen und kommerziellen Dienstleistungen, wie z. Alchemie -API, Opencalais, Lupedia oder von Zemanta. Einige meiner Kollegen haben Blogged um ihre Erfahrungen mit diesen Diensten.

Für den Verknüpfungsteil verwenden Sie normalerweise Frameworks wie z. Seide oder ZITRONEN; Sehr bald wird es eine geben Verknüpfung des Dienstes in der Cloud Erhältlich über die EC FP7 Project LATC. Haftungsausschluss: Ich bin das LATC-Projektkoordinator und Seiden/Limetten sind Produkte von LATC Consortium-Mitgliedern.

OpenLink Virtuoso macht dies bereits mit seinem Schmarotzer (ein RDFIZER) Meta-Cartridges für OpenCalais, Alchemie, Pingar und DBpedia-Spotlight. Dh, Sie füttern Sie eine Seite, sie fordert die oben genannten Websites für Entitäten auf, sie gibt Ihnen Dreier, die auf identifizierten Unternehmen basieren.

(Haftungsausschluss: Ich sollte es wissen.)

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top