como procurar por tipo de arquivo específico com busca do Yahoo API?
-
22-08-2019 - |
Pergunta
Alguém sabe se existe algum parâmetro disponível para pesquisa programática no yahoo que permite restringir os resultados para que apenas links para arquivos do tipo específico será devolvido (como PDF, por exemplo)? É possível fazer isso na GUI, mas como fazer isso acontecer através do API?
eu muito gostaria de receber um código de exemplo em Python, mas quaisquer outras soluções pode ser útil também.
Solução 2
Obrigado. Eu encontrei-me que algo como isso funciona OK (tipo de arquivo é o primeiro argumento, e de consulta é o segundo):
format = sys.argv [1]
query = "" .join (sys.argv [2:])
srch = create_search ( "Web", app_id, query = consulta, format = format)
Outras dicas
Aqui está o que eu faço para esse tipo de coisa. Ela expõe mais dos parâmetros para que você possa ajustá-lo às suas necessidades. Isso deve imprimir os primeiros PDFs URLs dez do "currículo" consulta [mina não é um deles;)]. Você pode baixar esses URLs como quiser.
O dicionário JSON que é retornado a partir da consulta é um pouco bruto, mas isso deve começar. Esteja ciente de que em código real, você terá que verificar se algumas das chaves na exist dicionário. Quando não há resultados, este código provavelmente irá lançar uma exceção.
O link que Tiago fornecido é bom para saber o que os valores são suportados para o parâmetro "tipo".
from yos.crawl import rest
APPID="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
base_url = "http://boss.yahooapis.com/ysearch/%s/v%d/%s?start=%d&count=%d&type=%s" + "&appid=" + APPID
querystr="resume"
start=0
count=10
type="pdf"
search_url = base_url % ("web", 1, querystr, start, count, type)
json_result = rest.load_json(search_url)
for url in [recs['url'] for recs in json_result['ysearchresponse']['resultset_web']]:
print url