我想写一个Java FUNC grabTopResults(String f)这样grabTopResults("automata theory")返回我的前100引上scholar.google.com论文为“自动机理论”的清单。

有没有人有什么库将让我的生活更轻松的建议?

谢谢!

有帮助吗?

解决方案

正如我敢肯定,谷歌可以承受的带宽,我会忽略这是否是不道德的/非法/谷歌的条款及条件禁止

问题 你需要做的

第一件事情就是搞清楚HTTP请求(或请求),你需要为了与你所需要的数据,以获得页面的问题。一旦你想通了这一点,使用 HttpClient的发出相同从Java代码请求。以前的链接显示了示例代码,解释了如何做到这一点。

一旦你下载了相关页面的内容,你需要使用一个HTML解析器来提取您感兴趣的数据,的 通过peperg建议杰里科解析器是一个很好的选择。

如果谷歌的警察来敲门,你从来没有听说过我,好不好?

其他提示

我使用 http://jericho.htmlparser.net/docs/index.html。谷歌学术没有API(的http:// code.google.com/p/google-ajax-apis/issues/detail?id=109 )。当然它不是由谷歌允许的(读使用规则。自动requestr被禁止)。

scroll top