comment rechercher un certain type de fichier spécifique avec l'API de recherche Yahoo?

StackOverflow https://stackoverflow.com/questions/522781

  •  22-08-2019
  •  | 
  •  

Question

Est-ce que quelqu'un sait s'il y a un paramètre disponible pour la recherche programmatique sur Yahoo permettant de limiter les résultats des liens afin que les fichiers de type spécifique sera retourné (comme PDF par exemple)? Il est possible de le faire dans l'interface graphique, mais comment y arriver via l'API?

Je suis très reconnaissant un exemple de code en Python, mais toutes les autres solutions pourrait être utile aussi bien.

Était-ce utile?

La solution 2

Merci. Je me suis trouvé que quelque chose comme cela fonctionne OK (type de fichier est le premier argument, et la requête est la deuxième):

format = sys.argv [1]

query = "" .join (sys.argv [2:])

srch = create_search ( "Web", app_id, requête = requête, format = Format)

Autres conseils

Voici ce que je fais pour ce genre de chose. Il expose plusieurs des paramètres afin que vous puissiez l'accorder à vos besoins. Cela devrait imprimer les dix premiers fichiers PDF URL de la requête « reprendre » [le mien est pas un d'entre eux;)]. Vous pouvez télécharger ces URL comme bon vous semble.

Le dictionnaire JSON qui est renvoyée de la requête est un peu brut, mais cela devrait vous aider à démarrer. Sachez que dans votre code, vous devez vérifier si quelques-unes des clés dans le dictionnaire existe. Quand il n'y a pas de résultats, ce code sera probablement lancer une exception.

Le lien Tiago fourni est bon pour savoir quelles valeurs sont prises en charge pour le paramètre « type ».

from yos.crawl import rest
APPID="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
base_url = "http://boss.yahooapis.com/ysearch/%s/v%d/%s?start=%d&count=%d&type=%s" + "&appid=" + APPID
querystr="resume"
start=0
count=10
type="pdf"
search_url = base_url % ("web", 1, querystr, start, count, type)
json_result = rest.load_json(search_url)
for url in [recs['url'] for recs in json_result['ysearchresponse']['resultset_web']]:
    print url
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top