自然言語/テキストマイニングおよびReddit /ソーシャルニュースサイト

StackOverflow https://stackoverflow.com/questions/228042

質問

reddit、digg、news.google.comなどのサイトに関連する自然言語データが豊富にあると思います。

テキストマイニングの研究を少し行いましたが、これらのツールを使用してredditのようなものを解析する方法を見つけることができません。

どんな種類のアプリケーションを思いつくことができますか?

役に立ちましたか?

解決

過去に、RedditやDiggなどのサイトのデータをマイニングする最良の方法は、最初に提供されている開発者APIを使用することであることがわかりました。通常、トピックまたはトレンドのいずれかに関心を集中し、そのデータを取得する唯一の方法は、確立されたパブリックインターフェイスを使用することです。フィードを解析し、両方を組み合わせて、知りたいことの90%を発見することもできます。 APIを介して利用できないデータについて詳細な調査を行いたい場合は、cURLなどのツールのカスタムラッパーを書くのにかなりの時間を費やす準備をする必要があります。予算がある場合は、電話をかけ、ユーザーに関する有料の調査データを提供しているかどうかを尋ねることもできます。

他のヒント

RSS から始め、その後 Nutch ;実際にデータをどうするかはあなたの呼び出しです。

これらは良いアイデアです。データを取得することはできますが、その周りにどのアプリケーションを構築できますか?

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top