どのようにYahooの検索APIを使用して特定のファイルタイプを検索するには?
-
22-08-2019 - |
質問
その特定の種類のファイルへのリンクのみが(例えばPDFのように)返される結果を制限することができますヤフーでのプログラムの検索に利用可能ないくつかのパラメータがある場合は、
誰でも知っていますか? これは、GUIでそれを行うことは可能だが、それは、APIを介して実現するためにどのように?
私は非常に多くのPythonのサンプルコードをいただければと思いますが、他のソリューションも同様に役に立つかもしれません。
解決 2
ありがとうございます。 このようなものはOK(ファイルタイプが最初の引数で、クエリが秒で)動作することを私は自分自身を見つけます:
の形式= sys.argvの[1]
クエリ= "" .join(sys.argvの[2])
SRCH = create_search( "ウェブ"、APP_ID、クエリ=クエリ、形式=フォーマット)
他のヒント
ここで私はこの種のもののために行うものです。それはあなたのニーズに調整することができるので、複数のパラメータを公開します。 [;)鉱山はそのうちの一つではありません]これは、クエリ「再開」から最初の10のPDFファイルのURLをプリントアウトする必要があります。あなたが好きしかし、あなたはそれらのURLをダウンロードすることができます。
クエリから返されるJSON辞書は少しグロスですが、これはあなたが始める必要があります。実際のコードでは、あなたが辞書のキーの一部が存在するかどうかを確認する必要があることに注意してください。結果がない場合は、このコードはおそらく、例外がスローされます。
ティアゴが提供されるリンクは、値が「タイプ」パラメータでサポートされているものを知るために良いです。
from yos.crawl import rest
APPID="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
base_url = "http://boss.yahooapis.com/ysearch/%s/v%d/%s?start=%d&count=%d&type=%s" + "&appid=" + APPID
querystr="resume"
start=0
count=10
type="pdf"
search_url = base_url % ("web", 1, querystr, start, count, type)
json_result = rest.load_json(search_url)
for url in [recs['url'] for recs in json_result['ysearchresponse']['resultset_web']]:
print url
所属していません StackOverflow