有关的研究项目,我想获得最后3个月的价值Twitter消息。技术挑战之外,这可能吗?通过使用某种慢轮询机制,以保持在海湾速率限定?

在微博API状态“客户端可以经由页面请求高达3200个状态和计数的时间表REST API参数”这些每小时?每天?或...永远不会消失?

任何建议?难道即使是理论上的可能?难道有人之前做类似的事情?

谢谢! 马可

有帮助吗?

解决方案

Twitter的出了名的不作超过三周旧的“可用”的鸣叫。在某些情况下,你只能得到一个星期。你关闭存储鸣叫未来三个月更好。许多正确地怀疑他们甚至Twitter的坚持。

您是否在寻找随便什么鸣叫?如果是这样,检查出的流API的状态/样品方法。流API使用持久HTTP插口,可以是一个痛苦的程序,但是当你得到它的工作是相当优美。我建议设立一个小脚本转储从状态/样品鸣叫到数据库中。之后几天,你应该有数据的一吨。

其他提示

您可以使用搜索API,不给它一个搜索,返回最大的100每页,然后通过每个页面有一分钟(每小时120次 - 比限速低30倍)的两倍。但是,如果我的数学是正确的,这可以给你们72万条微博一小时.....问题是,Twitter已经在近3个月增加了大约1.75十亿鸣叫。所以,如果我的数学是正确的,它会带你2361天或6年的时间完成这一点。

您可以在问这个问题,在Twitter上谈发展在谷歌网上论坛,或与Twitter来获得白名单,所以你可以做一个小时20,000个请求。

就个人而言,我不认为这是可能的。

DataSift声称拥有一个Twitter历史数据API即将推出,您可以申请进行时,其可这里通知

这可能不存在,当你第一次提出这样的问题,但“PeopleBrowsr” API是为这个完美的,你可以回去1400天有一个API调用:的 https://developer.peoplebrowsr.com/pb

希望帮助!

匙孔可以让你历史鸣叫在XLS或在视觉仪表盘呈现它们。预览样本只有几个最近的微博,不过,你可以要求历史数据,如果你给他们发邮件。

请参阅: http://keyhole.co/conversation_tracking

您可以阅读使用GNIP的历史PowerTrack工具twitter的历史数据。它会给你,因为第一鸣叫访问所有的Twitter数据,并比较这是非常简单的工具T选用。

您可以得到免费的估计数据范围和费用使用我公司建立了一个服务名为。如果您决定购买对数据的访问,将通过我们的文本分析平台 DiscoverText ,在那里你可以搜索,筛选可用,去重复的,簇,人代码,和数据的机器分类。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top