Pregunta

Estoy interesado en la búsqueda de la materia o tema al azar de páginas web y vincular esto a una entidad en una base de datos RDF como dbpedia.Me preguntaba si hay herramientas/bibliotecas a hacer esto o si alguien ha intentado hacer algo como esto antes?

¿Fue útil?

Solución

Encontrar el tema de una página web probablemente sea el más cercano a Resumen automático (Ver la página homónima de Wikipedia). Una de las subtareas utilizadas para eso es la extracción de frase de claves (KE). KE devolverá las subcadenas (frases) del texto de entrada que es importante/prominente/relevante para ese elemento de texto. Si supone que las entidades nombradas suelen ser clave para el tema de su texto de entrada, entonces el reconocimiento de entidad nombrado (NER) sería otra subtarea posible para lo que desea. NER devolverá las subcadenas que son nombres de entidades, junto con el tipo de entidad.

Según su descripción, parece que está buscando algo más que KE o NER, como menciona vincularse a una base de conocimiento (KB) como DBPEDIA. Una herramienta llamada Dbpedia Spotlight hace exactamente eso. Puede configurarlo para encontrar todos los recursos de Dbpedia en el texto de entrada, o solo frases de claves, solo entidades con nombre, etc. Todo eso mientras se vincula a DBPEDIA al final. Échale un vistazo: http://spotlight.dbpedia.org

Hay otras herramientas como Alchemiapi, Zemanta, Wikimachine, Evri, Headup, Enrycher, etc. Pero, por lo que sé, Dbpedia Spotlight es el único que es gratuito y de código abierto (Apache V2) y le permite configurar el comportamiento de La frase reconocimiento y desambiguación por igual. (Descargo de responsabilidad: soy cocreador de Dbpedia Spotlight)

Otros consejos

Lo que esencialmente buscas es una herramienta de reconocimiento de entidad nombrada. Hay una serie de servicios gratuitos y comerciales disponibles, como API de alquimia, Opencalais, Lupedia o por Zemanta. Algunos de mis colegas tienen escribido sobre sus experiencias con estos servicios.

Para la parte interlinista, normalmente usaría marcos como Seda o LIMAS; Muy pronto habrá un Servicio de entrelazamiento en la nube Disponible a través del proyecto EC FP7 LATC. Descargo de responsabilidad: I'm the LATC Project Coordinator y Silk/Limes son productos de los miembros del Consorcio LATC.

OpenLink Virtuoso no esta ya con su Sponger (un RDFizer) meta-cartuchos para OpenCalais, la Alquimia, Pingar y DBPedia centro de atención.Es decir, que se alimentan de una página, se solicita a los sitios mencionados para las entidades, que le da triples basado en la determinación de las entidades.

(Descargo de responsabilidad:Yo debería saberlo.)

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top