YQL raspar todo el sitio web / dominio
-
20-09-2019 - |
Pregunta
Estoy tratando de escapar de vuelta un conjunto de enlaces y el contenido de un dominio.
La consulta en Google sería
"site:www.newswebsite.com search_term"
He visto algunas cosas cerca de conseguir este trabajo, pero me parece que no puede llegar a ser muy una búsqueda de trabajo a través de todo un sitio web, y luego filtrar por el término de búsqueda.
¿Es esto posible sin una tabla de datos personalizado?
Solución
llegué a la parte inferior de la pena al final.
select title,abstract,url,date from search.web(0) where query="search_term" and sites="www.website1.com,www.website2.com,www.website3.com" | sort (field='date') | reverse()
Esto busca en los sitios 3, pedidos por fecha, y el más reciente primero. Hay una forma alternativa de invertir el tipo, pero esto parece funcionar por ahora. Creo que es descendente = true dentro del género (campo = 'fecha', descendente = 'true')
Muy útil, aunque yo lo diga yo.
Otros consejos
Christian Heilmann acabo de escribir una valoración crítica bastante agradable en YQL y obtener información de nuevo a partir de una fuente de datos HTML en el sitio web 24ways .