Question

Je pense qu'il existe une multitude de données en langage naturel associées à des sites tels que reddit, digg ou news.google.com.

J'ai effectué quelques recherches sur l'exploration de texte, mais je ne trouve pas comment utiliser ces outils pour analyser quelque chose comme reddit.

Quel type d’applications pouvez-vous proposer?

Était-ce utile?

La solution

J'ai déjà constaté par le passé que le meilleur moyen d'exploiter des données sur des sites comme Reddit ou Digg consistait tout d'abord à utiliser l'API de développeur fournie. En règle générale, vous avez un intérêt particulier pour un sujet ou une tendance, et le seul moyen d'obtenir ces données consiste à utiliser une interface publique établie. Vous pouvez également analyser les flux et les combiner pour découvrir 90% de ce que vous souhaitez savoir. Si vous souhaitez effectuer des recherches approfondies sur des données non disponibles via une API, vous devez être prêt à passer un temps considérable à écrire des wrappers personnalisés autour d'un outil tel que cURL. Si vous avez le budget, vous pouvez également les appeler et leur demander s’ils proposent des données de recherche payées sur les utilisateurs.

Autres conseils

Je commencerais par RSS , puis je pourrais utiliser Nutch ; que faire réellement avec les données est plus votre appel.

Ce sont de bonnes idées. Je peux obtenir les données, mais quelles applications peuvent être construites autour?

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top