Pregunta

¿Hay algún / enfoques desplegados, algoritmos o herramientas fiables para etiquetar el tipo de página web mediante el análisis de algunas de sus páginas web.

Por ejemplo: foros, blogs, sitios PressRelease, noticias, etc. E-Comm

Busco a algunas características bien definidas (reglas estáticas) de la que esta se puede determinar. Si no es así, espero modelo de aprendizaje automático puede ayudar.

Sugerencias / Ideas?

¿Fue útil?

Solución

Si se acerca a esto desde el punto de vista de aprendizaje automático, clasificador de Bayes ingenuo probablemente tiene la mayor proporción de trabajo / recompensa. Una versión de la misma se utiliza en Aventar para categorizar los artículos de noticias.

Se necesitará un conjunto de páginas, cada una etiquetada con su categoría correcta. A continuación, extraer palabras u otros elementos relevantes de cada página y los usa como características

artículo en la implementación de Bayes ingenuo

Otros consejos

Si está interesado en persuing el enfoque bayesiano (hay otras opciones de aprendizaje de máquina, después de todo), entonces sugiero el siguiente documento, que sigue a la cobertura de este tema en "Data Mining: Herramientas prácticas y la máquina de aprendizaje técnicas", por Witten y Frank:

http: //www.coli.uni-sb .de / ~ Crocker / Enseñanza / conexionista / lecture10_4up.pdf

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top