سؤال

أريد أن أكتب جافا ظائفها grabTopResults(String f) مثل أن grabTopResults("automata theory") ترجع لي قائمة أفضل 100 استشهد الأوراق على scholar.google.com عن "نظرية التلقائية".

هل من أحد لديه اقتراحات لما المكتبات سوف أجعل الحياة سهلة ؟

وذلك بفضل!

هل كانت مفيدة؟

المحلول

وأنا متأكد جوجل تستطيع عرض النطاق الترددي، وأنا سوف تتجاهل مسألة ما إذا كان هذا غير أخلاقي / غير قانونية / يحظرها جوجل T & C

وأول شيء يجب عليك القيام به هو معرفة ما HTTP طلب (أو طلبات) تحتاج إلى القضية من أجل الحصول على الصفحة مع البيانات التي تحتاج إليها. مرة واحدة كنت قد برزت من ذلك، استخدم HttpClient وإصلاحه لإصدار نفسه يطلب من كود جافا. السابق يظهر الرابط مثال التعليمة البرمجية التي تشرح كيفية القيام بذلك.

وبمجرد تحميل محتوى الصفحة ذات الصلة، ستحتاج إلى استخدام محلل HTML لاستخراج البيانات كنت في مهتما. في أريحا محلل واقترحه peperg هو خيار جيد.

إذا الشرطة جوجل تأتي يطرق، كنت قد سمعت أبدا من لي، OK؟

نصائح أخرى

يمكنني استخدام http://jericho.htmlparser.net/docs/index.html .الباحث العلمي من Google لا يجب API ( http://code.google.com/p/google-ajax-apis/issues/detail?id=109 ).بالطبع هو غير مسموح من قبل Google (قراءة شروط الاستخدام.التلقائي requestr ممنوعة).

وفيما يلي قليلا من المثال رمز الذي يحصل على الألقاب على الصفحة الأولى استخدام المنتج المصدر المفتوح TestPlan . وهو منتج مستقل، ولكن إذا كنت بحاجة لها حقا أنا يمكن أن تساعدك على إدماجه في جافا البرمجية الخاصة بك (وهو مكتوب بلغة جافا نفسه).

GotoURL http://scholar.google.com/

SubmitForm with
    %Params:q% automate theory
end

set %Items% as response //div[@class='gs_r']
foreach %Item% in %Items%
    set %Title% as selectIn %Item% h3
    Notice %Title%
end

وهذا ينتج الناتج مثل أدناه (بلدي IP غير ألمانيا، وبالتالي استجابة الألمانية). من الواضح أنك يمكن تهيئته كيفما تشاء، أو الكتابة إلى ملف. هذا هو مجرد اختبار الخام.

00000000-00 GOTOURL http://scholar.google.com/
00000001-00 SUBMITFORM default
00000002-00 NOTICE [ZITATION] Stochastic complexity in statistical inquiry theory
00000003-00 NOTICE AUTOMATED THEORY FORMATION IN MATHEMATICS1
00000004-00 NOTICE Constraint generation via automated theory formation
00000005-00 NOTICE [BUCH] Automated theorem proving: after 25 years
00000006-00 NOTICE [BUCH] Introduction to the Theory of Computation
00000007-00 NOTICE [ZITATION] Computer-controlled systems: theory and design
00000008-00 NOTICE [BUCH] … , randomness & incompleteness: papers on algorithmic information theory
00000009-00 NOTICE [BUCH] Automatic control systems
00000010-00 NOTICE [BUCH] VLSI physical design automation: theory and practice
00000011-00 NOTICE Singular Control Systems.
scroll top