Frage

Ich denke, dass es eine Fülle von natürlichen Sprachdaten ist im Zusammenhang mit Websites wie reddit oder digg oder news.google.com.

Ich habe ein wenig Forschung mit Text Mining getan, aber nicht finden kann, wie ich diese Werkzeuge so etwas wie reddit analysieren nutzen könnte.

Welche Art von Anwendungen können Sie kommen mit?

War es hilfreich?

Lösung

Ich habe in der Vergangenheit festgestellt, dass der beste Weg, um Minendaten auf Websites wie Reddit oder Digg ist zuerst den Entwickler-API zu verwenden, die sie bieten. Typischerweise haben Sie ein fokussiertes Interesse entweder in einem Thema oder Trend, und der einzige Weg, dass die Daten durch ein etabliertes öffentliche Schnittstelle zu erhalten. Sie können auch RSS-Feeds analysieren, und kombinieren sie beide 90% zu entdecken, was Sie wollen, würde wissen. Wenn Sie tief Forschung auf Daten nicht zur Verfügung über eine API tun wollen, dann sollten Sie bereit sein, eine erhebliche Menge an Zeit mit dem Schreiben benutzerdefinierten Wrapper um ein Werkzeug wie cURL zu verbringen. Wenn Sie das Budget haben, können Sie sie auch anrufen und fragen, ob sie bezahlt Forschungsdaten über Benutzer bieten.

Andere Tipps

Ich beginne würde auf der RSS , und danach habe ich verwenden könnte? Nutch ; was eigentlich zu tun mit den Daten mehr auf Ihren Anruf ist.

Das sind gute Ideen. Ich kann die Daten bekommen, aber welche Anwendungen können um ihn herum gebaut werden?

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top