Pregunta

Me hizo una pregunta href="https://stackoverflow.com/questions/695347/algorithm-to-classify-a-list-of-products"> similar a éste un par de hace semanas, pero no me pide la pregunta correctamente. Así que estoy re-preguntando aquí la pregunta con más detalles y me gustaría obtener una respuesta más orientada AI.

Tengo una lista que representa los productos que son más o menos lo mismo. Por ejemplo, en la siguiente lista, que son todos los discos duros de Seagate.

  1. disco duro Seagate 500Go
  2. disco duro Seagate 120Go para el ordenador portátil
  3. Seagate Barracuda 7200.12 ST3500418AS 500 GB 7200 RPM SATA 3,0 Gb / s de disco duro
  4. Nuevo y brillante disco duro de Seagate 500Go
  5. Seagate Barracuda 7200.12
  6. Seagate FreeAgent Desk 500 GB de disco duro externo USB 2.0 de Plata 7200 al por menor
  7. GE Spacemaker lavandería
  8. Mazda3 2010
  9. Mazda3 2009 2.3L

Para un ser humano, las unidades de disco duro 3 y 5 son los mismos. Podríamos ir un poco más allá y suponer que los productos 1, 3, 4 y 5 son los mismos y poner en otras categorías de producto 2 y 6.

En mi pregunta anterior, alguien me sugirió utilizar la extracción de características. Funciona muy bien cuando tenemos un pequeño conjunto de datos de descripciones predefinidas (todas las unidades de disco duro), pero ¿qué pasa con todos los demás tipo de descripción? No quiero empezar a escribir en base de expresiones regulares extractores de características para todas las descripciones de mi solicitud podría enfrentar, no escala. ¿Hay algún algoritmo de aprendizaje automático que podría ayudar a mí para lograr esto? La gama de la descripción que puedo conseguir es muy amplia, en la línea 1, que podría ser una nevera, y luego en la siguiente línea, un disco duro. Debería tratar de tomar el camino de redes neuronales? Lo que debería ser mis entradas?

Gracias por la ayuda!

¿Fue útil?

Solución

Me gustaría ver alguna métodos de clasificación bayesiana . Se trataría de entrenar al clasificador para reconocer palabras en particular como una indicación de la probabilidad de que un producto pertenece a una de sus clases. Por ejemplo, después de haber sido entrenado, se podría reconocer que si una descripción del producto tiene "Seagate" en ella, hay una probabilidad del 99% que se trata de un disco duro, mientras que si tiene "Mazda" hay una posibilidad de 97% que es un coche. Una palabra como "nuevo" probablemente terminaría no contribuye mucho a cualquier clasificación, que es la forma en que desea que funcione.

La desventaja de esto sería que por lo general requiere bastante grandes corpus de datos de entrenamiento antes de que comience a funcionar bien, pero se puede configurarlo para que siga a modificar sus porcentajes mientras se está en producción (si se observa que éste clasificada algo de manera incorrecta), y con el tiempo llegará a ser muy eficaz.

técnicas bayesianas se utilizan muy fuertemente recientemente para de filtrado de spam , por lo que podría ser bueno a leer un poco sobre las formas se ha utilizado allí.

Otros consejos

Usted debe mirar tanto agrupación y clasificación. Sus categorías parecen abierto y por lo tanto sugieren que la agrupación puede encajar mejor el problema. En cuanto a la representación de entrada, puede probar su suerte con la extracción de palabras y caracteres n-gramos . Su medida de similitud puede ser el recuento de n-gramas comunes, o algo más sofisticado . Es posible que necesite para etiquetar las agrupaciones resultantes de forma manual.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top