Comment télécharger les résultats de la recherche sur Google Scholar à l'aide de R?

StackOverflow https://stackoverflow.com/questions/5005989

  •  14-11-2019
  •  | 
  •  

Question

J'aimerais extraire les 100 premiers résultats (disons) d'une recherche de Scholar Google à l'aide de R. Est-ce que quelqu'un sait-il comment le faire?

Pour être précis, j'ai juste besoin du nom du papier, des auteurs et du nombre de citations.

PS serait-ce légal?

Était-ce utile?

La solution

Autres conseils

Il y a des gratters Python et Perl là-bas que vous pourriez être capable d'adapter, lié à http://bmb-common.blogspot.com/2011/02/does-google-scholar-suck-or-am-i-just.html

Je ne peux pas parler aux légalités de votre tâche, mais il y a quelques façons que vous pouvez y aller.Pendant que je ne suis pas fort dans XPath, c'est peut-être le meilleur moyen.Je crois que vous pouvez utiliser le package XML pour récupérer le contenu de la page et utiliser XPath pour extraire les données des éléments dont vous avez besoin.

Par exemple, j'utilise Chrome pour un navigateur, et lorsque j'ai inspecté la page avec des outils de développement, il semble y avoir une structure à la page, avec les données "cachées" à l'intérieur de divers étiquettes qui devraient pouvoir exploiterVraiment facile à utiliser xpath.

Déconnectez ce lien Pour un exemple d'utilisation de XPath.

ht et bonne chance

You can definitely retrieve the HTML content of the page using RCurl and parse them using RXML as suggested by Btibert3. The only issue you might face is that Google won't allow you to do queries in a "robotic" way. After something like 200 queries in Google in a short period of time, it won't return results anymore. Maybe that's different with Google Scholar, but I doubt so...

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top