Pregunta

¿Qué conjuntos de datos de libre acceso que puede utilizar para entrenar a un clasificador de texto?

Estamos tratando de mejorar nuestro compromiso usuarios recomendando el contenido más relacionado para él, por lo que pensamos Si clasificamos nuestro contenido basado en una bolsa predefinido de palabras que puede recomendarle un contenido atractivo por conseguir su retroalimentación en el número al azar de puestos ya clasificadas antes.

Puede utilizar esta información para recomendar para él pulsos etiquetado con esas clases. Pero encontramos Si usamos una bolsa predefinido de palabras no relacionadas con nuestro contenido del vector de características estará llena de ceros, también categorías pueden no ser relevantes para nuestro contenido. así que por esas razones hemos intentado otra solución que se clustering nuestro contenido no clasificarla.

Gracias:)

¿Fue útil?

Solución

Algunos conjuntos de datos estándar para la clasificación de texto son el grupo 20-News, Reuters (con 8 y 52 clases) y WebKb. Usted puede encontrar todos ellos aquí .

Otros consejos

Uno de la colección prueba más utilizada para la investigación de categorización de texto (enlace más abajo). He utilizado muchas veces. Disfrutar de su exploración:)

http://www.daviddlewis.com/resources/testcollections/reuters21578/ o http://archive.ics.uci.edu/ml/datasets/Reuters- 21578 + Texto + Categorización + Colección

Hay un montón de conjuntos de datos hizo libre por la UC Irvine jugar con aquí. Entre esos conjuntos de datos, existen unas pocas docenas de conjuntos de datos textual que podría ayudar a chicos con su tarea.

Estas son la clase de conjuntos de datos genéricos, por lo que dependiendo de su propósito que no deben ser utilizados como los únicos datos para entrenar a sus modelos, o bien su modelo - si bien podría trabajar -. No va a producir resultados de calidad

Además de las sugerencias anteriores, hay un pdf de gran utilidad - Benchmarking Colecciones de texto para la clasificación y agrupación en clústeres Tareas que contiene varios conjuntos de datos, junto con los puntos de referencia con el fin de probar nuestros modelos. Esto incluye 20 ng Colección, Reuters y muchos de los conjuntos de datos anteriormente sugeridas. Espero que ayude!

Licenciado bajo: CC-BY-SA con atribución
scroll top