Natural Language / Text Mining und Reddit / Social News Site
-
03-07-2019 - |
Frage
Ich denke, dass es eine Fülle von natürlichen Sprachdaten ist im Zusammenhang mit Websites wie reddit oder digg oder news.google.com.
Ich habe ein wenig Forschung mit Text Mining getan, aber nicht finden kann, wie ich diese Werkzeuge so etwas wie reddit analysieren nutzen könnte.
Welche Art von Anwendungen können Sie kommen mit?
Lösung
Ich habe in der Vergangenheit festgestellt, dass der beste Weg, um Minendaten auf Websites wie Reddit oder Digg ist zuerst den Entwickler-API zu verwenden, die sie bieten. Typischerweise haben Sie ein fokussiertes Interesse entweder in einem Thema oder Trend, und der einzige Weg, dass die Daten durch ein etabliertes öffentliche Schnittstelle zu erhalten. Sie können auch RSS-Feeds analysieren, und kombinieren sie beide 90% zu entdecken, was Sie wollen, würde wissen. Wenn Sie tief Forschung auf Daten nicht zur Verfügung über eine API tun wollen, dann sollten Sie bereit sein, eine erhebliche Menge an Zeit mit dem Schreiben benutzerdefinierten Wrapper um ein Werkzeug wie cURL zu verbringen. Wenn Sie das Budget haben, können Sie sie auch anrufen und fragen, ob sie bezahlt Forschungsdaten über Benutzer bieten.