YQL raschiare tutto il sito / dominio
-
20-09-2019 - |
Domanda
Sto cercando di scape indietro una serie di link e contenuti provenienti da un dominio.
La query in Google sarebbe
"site:www.newswebsite.com search_term"
Ho visto alcune cose vicino ad ottenere questo lavoro, ma non riesco a ottenere abbastanza una ricerca di lavoro attraverso un intero sito web, e poi filtrare con il termine di ricerca.
Questo è possibile senza una tabella di dati personalizzati?
Soluzione
ho avuto modo di fondo di esso alla fine.
select title,abstract,url,date from search.web(0) where query="search_term" and sites="www.website1.com,www.website2.com,www.website3.com" | sort (field='date') | reverse()
Questo cerca 3 siti, gli ordini per data, e più nuovi. C'è un modo alternativo per invertire l'ordinamento, ma questo sembra funzionare per ora. Penso che sia decrescente = true all'interno della specie (campo = 'data', discendente = 'true')
Molto utile, anche se io lo dico io.
Altri suggerimenti
Christian Heilmann ha appena scritto un abbastanza interessante resoconto sulla YQL e ottenere informazioni di ritorno da un'origine dati HTML sul sito web 24ways .