Pregunta

Estoy trabajando en un proyecto que consiste en un sitio web que conecta con el NCBI (National Center for Biotechnology Information) y pesquisas de objetos allí. Lo que pasa es que tengo que hacer algo de minería de texto en todos los resultados. Estoy usando el lenguaje Java para la minería de textos y AJAX con icefaces para el desarrollo de la página web.  Qué es lo que tengo : Una lista de los artículos devueltos desde una búsqueda. Cada artículo tiene un identificador y un resumen. La idea es conseguir que las palabras clave de cada texto del resumen. Y luego comparar todas las palabras clave de todos los resúmenes y encontrar los que son los más repetidos. Así que a continuación, mostrar en la página web de las palabras relacionadas para la búsqueda. Algunas ideas ? He buscado mucho en la web, y sé que no se nombra reconocimiento de entidades, la categoría gramatical de marcado, hay teh tesauro para GENIA NER en los genes y las proteínas, que ya ha intentado detener ... Deja de listas de palabras, etc ... Sólo necesito saber la mejor aproahc para resolver este problema. Muchas gracias.

¿Fue útil?

Solución

Le recomiendo que utilice una combinación de etiquetado POS y luego tokenizing cadena para extraer todos los nombres de cada resumen .. entonces utilizar algún tipo de diccionario / hash para contar la frecuencia de cada uno de estos nombres y luego dar salida a la N la mayoría de los sustantivos prolíficos .. combinando eso con algunos otros mecanismos de filtrado inteligente debe hacer razonablemente bien en darle las palabras clave importantes de lo abstracto
para el etiquetado POS revisar el etiquetador en http://nlp.stanford.edu/software/index. shtml

Sin embargo, si usted está esperando una gran cantidad de términos de varias palabras en su corpus .. en lugar de extraer sólo los nombres, se puede tomar el más prolífico n-gramos para n = 2 a 4

Otros consejos

Hay un proyecto de Apache para que ... No he utilizado, pero, OpenNLP un proyecto de código abierto Apache. Está en la incubadora por lo que tal vez un poco crudo.

Este mensaje de href="http://www.searchenginecaffe.com/2007/03/java-open-source-text-mining-and.html" café motor de búsqueda de Jeff tiene una serie de otras sugerencias.

Esto podría ser relevante, así: https://github.com/jdf/cue.language

Tiene dejar de palabras, palabras y Ngram frecuencias, ...

Es parte del software detrás Wordle .

Terminé usando el Alias`i Ling Pipe

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top