YQL ウェブサイト/ドメイン全体をスクレイピング
-
20-09-2019 - |
質問
ドメインから一連のリンクとコンテンツをエスケープバックしようとしています。
Googleでのクエリは次のようになります
"site:www.newswebsite.com search_term"
私はこれが機能することに近いものをいくつか見てきましたが、Webサイト全体で検索を機能させ、検索用語でフィルタリングすることは完全にはできないようです。
これはカスタム データ テーブルなしで可能ですか?
解決
私は最終的にはそれの底になっています。
select title,abstract,url,date from search.web(0) where query="search_term" and sites="www.website1.com,www.website2.com,www.website3.com" | sort (field='date') | reverse()
このは、日付によって3つのサイト、注文を検索し、最新の最初。そこソートを逆にする別の方法があるが、これは今のために働くようです。私はそれが一種内=真降順だと思う(フィールド=「日付」の降順=「真」)
私は自分自身を言う場合でも、非常に便利です。
他のヒント
Christian Heilmann は、YQL と HTML データソースから情報を取得することについて、非常に優れた記事を書きました。 24wayウェブサイト.
所属していません StackOverflow