¿Cómo obtienen datos los mashups de craigslist? [cerrado]

https://stackoverflow.com/questions/237124

04-07-2019
|

Pregunta

Estoy realizando un trabajo de investigación sobre agregadores de contenido, y tengo curiosidad por saber cómo algunos de los agregadores de craigslist actuales obtienen datos en sus mashups.

Por ejemplo, www.housingmaps.com y www.chicagocrime.org ahora cerrado

Si hay una URL que puede usarse como referencia, ¡sería perfecta!

Solución 8

Mientras continuaba investigando esta área, encontré un sitio increíble que hace en parte lo que me interesa:

Crazedlist

Utiliza el HTTPReferer del navegador del cliente, que es interesante pero no ideal. El autor del sitio también afirma haber marcado de forma real el CL, lo que entiendo. También da un claro ejemplo de necesidad comercial, que son similares a mis necesidades y por qué me interesa este tema.

Otros consejos

Para AdRavage.com uso una combinación de Magpie RSS (para extraer los datos devueltos de las búsquedas) y una pantalla personalizada clase de raspado para poblar correctamente la información de la ciudad / categoría utilizada al crear búsquedas.

Por ejemplo, para extraer las categorías podría:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

Una alternativa al raspado (y el bloqueo), el uso de marcos o la búsqueda de Google es utilizar el servicio data broker o data exchange .

3taps es un servicio beta que proporciona una API de desarrollador para muchos servicios, incluido Craigslist. Su equipo también creó Craiggers para demostrar un caso de uso de esta API. El fundador, Greg Kidd, me dijo que 3taps recopila datos de Craigslist de fuentes que no son de Craigslist, donde ya están indexados y guardados en la caché para que no ponga ninguna tensión en Craigslist. También se enumeran otras fuentes de datos de 3taps, pero estas estadísticas hacen que no esté claro si se admiten actualmente. Su objetivo es Democratizar el intercambio de datos .

80legs es un servicio de rastreo que proporciona una opción menos en tiempo real pero potencialmente más completa. Su servicio de volcado de datos incluye paquetes de rastreo para cientos de sitios que incluyen Amazon, Facebook y Zillow (no No creo Craigslist actualmente). Su nuevo esfuerzo Datafiniti es proporcionar un motor de búsqueda sobre este tipo de datos.

La opción alternativa sería usar YQL o Yahoo pipe para recopilar los resultados.

Craiglook y HousingMaps los está utilizando para recopilar resultados

El problema con cualquier solución de raspado de craigslist es que bloquean automáticamente cualquier dirección IP que acceda a ellas "demasiado", lo que generalmente significa más de unos cientos de veces al día. Tan pronto como su herramienta tenga algún tipo de popularidad, se cerrará.

Es por eso que los únicos sitios de búsqueda de craigslist que han durado utilizan marcos (como searchtempest.com y crazedlist.org) o google (como allofcraigs.com).

Lo que hace 3taps es recopilar la lista de craigslist de fuentes de terceros 'en la naturaleza', como el caché de Google y Bing, por ejemplo.

Editar: esta respuesta ya no está actualizada. La mayoría de los motores de búsqueda clasificados que incluyen resultados de craigslist ahora usan la Búsqueda personalizada de Google o soluciones similares de Yahoo o Bing. SearchTempest utiliza ambos. Allofcraigs ahora es adhuntr y usa Google. Crazedlist se ha cerrado.

He hecho un montón de agregación de datos de sitios como eBay, Craigslist y Zillow. Cada fuente requiere un método diferente para agregar los datos.

Para Craigslist, obtuve los datos utilizando canales RSS. Solo quería datos específicos en categorías específicas en ciudades específicas, y los canales RSS funcionaron bien para mí. Si está tratando de obtener todos los datos y abusa de los canales RSS, es probable que Craigslist lo prohíba. Además, no podrá obtener todos los datos de los feeds de Craigslist, porque los feeds muestran la mayoría de los datos pero no todos. Si su confiabilidad no necesita ser del 100%, entonces RSS es la forma más fácil de hacerlo.

Estoy adivinando el raspado de la pantalla

No creo que haya una API de craigslist todavía ... y no creo que vayan a lanzar una ...

así que la única manera de hacerlo es raspar los datos ... puede usar la biblioteca cURL y aumentar la expresión regular para raspar los datos que desea de una página

si ve un enlace ... acceda a la página ... raspe la nueva página para obtener los datos y mostrarlos o almacenarlos

y así sucesivamente ..

Acabo de hacer uno:

http://cdn.javascriptmvc.com/videos/jobs/craigslist.js

Eso produce:

http://cdn.javascriptmvc.com/videos/jobs/craigslist.html

Se debe ejecutar en rhino.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow