Pregunta

Estaba pensando en escribir un script PHP que analizara el contenido de una página CMS (es decir, el campo de la base de datos) y luego generara automáticamente (X) HTML META description & amp; etiquetas de palabras clave, pero como siempre no tiene sentido reinventar la rueda, así que me pregunto si alguien sabe de esa bestia.

La primera que imagino sería algo así como una expresión regular relativamente sencilla para captar la primera o dos oraciones, mientras que la última probablemente implicaría la eliminación de palabras contra un diccionario de palabras comunes y luego ponderar la frecuencia o similar.

¿Fue útil?

Solución

Los problemas que está considerando son dobles: uno de extracción de palabras clave y otro de resumen de documentos. El primero, que obviamente usaría para las palabras clave tiene un enfoque ingenuo muy simple: elija la palabra más frecuente en el contenido, menos todas las palabras clave (busque esto en Wikipedia si no sabe qué son). Existen muchos métodos más avanzados, incluida la ponderación para la inclusión de sinónimos, la ubicación en el texto o el marcado, y más. Hay algunos ejemplos de scripts de extracción de palabras clave fáciles en PHP que puede implementar probablemente sin problemas. Simplemente busque en Google algo así como " extracción de palabras clave PHP " y encontrarás unos cuantos.

El segundo problema, por otro lado, es un poco más difícil y sigue siendo la fuente de mucho trabajo académico. Necesitaría un resumen para una etiqueta de metadescripción muy completa. Es posible que no valga la pena su tiempo si no está buscando un proyecto de IA a gran escala que aún pueda parecer rígido o incoherente. Otro enfoque sería simplemente una heurística que utiliza la extracción de palabras clave: " Este artículo trata sobre (la primera palabra clave más común), (la segunda palabra clave más común) y (la tercera palabra clave más común). & Quot; Al menos, está obteniendo el beneficio de incluir algún contenido tanto en palabras clave como en descripción. Si quieres sacudirlo, usa algunos sinónimos. Hay una implementación de PHP de WordNet semi-funcional, pero sugeriría subcontratar a Natural Language Toolkit for Python para el trabajo pesado allí, ya que la mayoría del trabajo ya está hecho por usted.

Me gustaría tomarme un breve momento para alentar su investigación en esta área e ignorar las palabras negativas del Sr. Warnica. La metainformación es importante tanto para la clasificación de documentos como para la extracción de información en el área de búsqueda. Sería una tontería no tener los datos y, de hecho, vale la pena automatizarlos para sistemas de administración de contenido a gran escala. Buena suerte con tus esfuerzos.

Otros consejos

El módulo Yahoo Pipes Term Extractor hace algo similar a lo que usted quiere. Lamentablemente, no conozco el origen de los módulos de tuberías que están abiertos.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top