Pregunta

Creo que hay una gran cantidad de datos en lenguaje natural asociados con sitios como reddit o digg o news.google.com.

He investigado un poco sobre la minería de textos, pero no encuentro cómo podría usar esas herramientas para analizar algo como reddit.

¿Qué tipo de aplicaciones puedes crear?

¿Fue útil?

Solución

En el pasado, descubrí que la mejor manera de extraer datos en sitios como Reddit o Digg es usar primero la API de desarrollador que proporcionan. Normalmente, tiene un interés enfocado en un tema o una tendencia, y la única forma de obtener esos datos es a través de una interfaz pública establecida. También puedes analizar feeds y combinarlos para descubrir el 90% de lo que querrías saber. Si desea realizar una investigación profunda sobre los datos que no están disponibles a través de una API, debe estar preparado para dedicar una cantidad significativa de tiempo a escribir envoltorios personalizados alrededor de una herramienta como cURL. Si tiene el presupuesto, también puede llamarlos y preguntarles si ofrecen datos de investigación pagados a los usuarios.

Otros consejos

Comenzaría en el RSS , y después de eso podría usar Nutch ; Lo que realmente debe hacer con los datos es más su llamada.

Estas son buenas ideas. Puedo obtener los datos, pero ¿qué aplicaciones se pueden construir a su alrededor?

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top