Pergunta

Alguém sabe se existe algum parâmetro disponível para pesquisa programática no yahoo que permite restringir os resultados para que apenas links para arquivos do tipo específico será devolvido (como PDF, por exemplo)? É possível fazer isso na GUI, mas como fazer isso acontecer através do API?

eu muito gostaria de receber um código de exemplo em Python, mas quaisquer outras soluções pode ser útil também.

Foi útil?

Solução 2

Obrigado. Eu encontrei-me que algo como isso funciona OK (tipo de arquivo é o primeiro argumento, e de consulta é o segundo):

format = sys.argv [1]

query = "" .join (sys.argv [2:])

srch = create_search ( "Web", app_id, query = consulta, format = format)

Outras dicas

Aqui está o que eu faço para esse tipo de coisa. Ela expõe mais dos parâmetros para que você possa ajustá-lo às suas necessidades. Isso deve imprimir os primeiros PDFs URLs dez do "currículo" consulta [mina não é um deles;)]. Você pode baixar esses URLs como quiser.

O dicionário JSON que é retornado a partir da consulta é um pouco bruto, mas isso deve começar. Esteja ciente de que em código real, você terá que verificar se algumas das chaves na exist dicionário. Quando não há resultados, este código provavelmente irá lançar uma exceção.

O link que Tiago fornecido é bom para saber o que os valores são suportados para o parâmetro "tipo".

from yos.crawl import rest
APPID="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
base_url = "http://boss.yahooapis.com/ysearch/%s/v%d/%s?start=%d&count=%d&type=%s" + "&appid=" + APPID
querystr="resume"
start=0
count=10
type="pdf"
search_url = base_url % ("web", 1, querystr, start, count, type)
json_result = rest.load_json(search_url)
for url in [recs['url'] for recs in json_result['ysearchresponse']['resultset_web']]:
    print url
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top