Pergunta

Eu penso que há uma riqueza de dados em linguagem natural associados com sites como o reddit ou digg ou news.google.com.

Eu fiz um pouco de pesquisa com mineração de texto, mas não consigo encontrar como eu poderia usar essas ferramentas para algo parse como reddit.

Que tipo de aplicativos você pode chegar a?

Foi útil?

Solução

Eu encontrei no passado que a melhor maneira de dados mina em sites como o Reddit ou Digg é a primeira a usar a API do desenvolvedor que eles fornecem. Normalmente você tem um interesse focado em qualquer um tópico ou uma tendência, ea única maneira de obter esses dados é através de uma interface pública estabelecida. Você pode alimentações também de análise, e combiná-los tanto para descobrir 90% do que você gostaria de saber. Se você quer fazer uma profunda pesquisa sobre dados não disponíveis através de uma API, então você deve estar preparado para gastar uma quantidade significativa de wrappers personalizados escrito tempo em torno de uma ferramenta como o cURL. Se você tiver o orçamento, você também pode chamá-los e perguntar se eles oferecem pago dados de pesquisa sobre os usuários.

Outras dicas

Eu começaria na RSS , e depois que eu possa usar Nutch; o que fazer realmente com os dados é mais a sua chamada.

Estas são boas idéias. Eu posso obter os dados, mas o que as aplicações podem ser construídas em torno dele?

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top