Pregunta

¿Cómo puedo extraer eficientemente las palabras clave con relevancia de una cadena? Mi lista de palabras clave está predefinida. Por ejemplo, en un artículo sobre Michelle Obama que también menciona a Barack Obama, quiero extraer Michelle Obama y Barack Obama con la palabra clave Michelle Obama Obtener un valor de relevancia más alto (ambos Michelle Obama y Barack Obama están presentes en mi lista de palabras clave).

Verificar la cadena para el número de ocurrencia de cada palabra clave no parece muy eficiente. Mi aplicación se desarrolla en PHP, pero cualquier idioma está bien, si puedo hacerlo de manera eficiente.

Intenté OpenCalais, pero no está detectando la mayoría de mis palabras clave. ¿Es posible extraer palabras clave usando Lucene?

¿Fue útil?

Solución

El paquete Apache Lucene se adaptará a usted. Sin embargo, si tiene título y párrafos, puede filtrar las palabras de parada, dar rangos más altos para las palabras en el título y luego coincidir con ellos o sus formularios en los párrafos. Puede consultar algunos artículos de resumen de texto para una mejor programación usted mismo.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top