Lenguaje natural / Minería de textos y Reddit / sitio de noticias sociales
-
03-07-2019 - |
Pregunta
Creo que hay una gran cantidad de datos en lenguaje natural asociados con sitios como reddit o digg o news.google.com.
He investigado un poco sobre la minería de textos, pero no encuentro cómo podría usar esas herramientas para analizar algo como reddit.
¿Qué tipo de aplicaciones puedes crear?
Solución
En el pasado, descubrí que la mejor manera de extraer datos en sitios como Reddit o Digg es usar primero la API de desarrollador que proporcionan. Normalmente, tiene un interés enfocado en un tema o una tendencia, y la única forma de obtener esos datos es a través de una interfaz pública establecida. También puedes analizar feeds y combinarlos para descubrir el 90% de lo que querrías saber. Si desea realizar una investigación profunda sobre los datos que no están disponibles a través de una API, debe estar preparado para dedicar una cantidad significativa de tiempo a escribir envoltorios personalizados alrededor de una herramienta como cURL. Si tiene el presupuesto, también puede llamarlos y preguntarles si ofrecen datos de investigación pagados a los usuarios.