Domanda

Sto facendo un lavoro di ricerca sugli aggregatori di contenuti e sono curioso di sapere come alcuni degli attuali aggregatori di craigslist inseriscano i dati nei loro mashup.

Ad esempio, www.housingmaps.com e il www.chicagocrime.org ora chiuso

Se esiste un URL che può essere utilizzato come riferimento, sarebbe perfetto!

È stato utile?

Soluzione 8

Mentre continuavo a cercare quest'area, ho trovato un sito fantastico che fa in parte ciò che mi interessa:

Crazedlist

Utilizza HTTPReferer del browser client, che è interessante ma non ideale. L'autore del sito afferma anche di aver barrato regalmente su CL, che ho capito. Fornisce anche un chiaro esempio di esigenze aziendali, che sono simili alle mie esigenze e perché sono interessato a questo argomento.

Altri suggerimenti

Per AdRavage.com utilizzo una combinazione di Magpie RSS (per estrarre i dati restituiti dalle ricerche) e una schermata personalizzata classe di scraping per popolare correttamente le informazioni sulla città / categoria utilizzate durante la creazione di ricerche.

Ad esempio, per estrarre le categorie potresti:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

Un'alternativa allo scraping (e al blocco), all'utilizzo di frame o alla ricerca di Google è l'uso di un servizio broker di dati o scambio di dati .

3taps è un servizio beta che fornisce un'API per sviluppatori a molti servizi, tra cui Craigslist. Il loro team ha anche creato Craiggers per dimostrare un caso d'uso di questa API. Il fondatore Greg Kidd mi ha detto che 3taps raccoglie i dati di Craigslist da fonti non Craigslist in cui sono già indicizzati e memorizzati nella cache in modo da non mettere a dura prova Craigslist. Sono anche elencate altre fonti di dati 3taps, ma queste statistiche rendono poco chiaro se sono attualmente supportate. Il loro obiettivo è Democratizzare lo scambio di dati .

80legs è un servizio di scansione che fornisce un'opzione meno in tempo reale ma potenzialmente più completa. Il loro servizio in stile dump di dati include pacchetti di scansione per centinaia di siti di siti tra cui Amazon, Facebook e Zillow (I don Credo che Craigslist attualmente). Il loro nuovo sforzo Datafiniti sta fornendo un motore di ricerca su questo tipo di dati.

L'opzione alternativa sarebbe quella di utilizzare le pipe YQL o Yahoo per raccogliere i risultati.

Craiglook e HousingMaps li stanno usando per raccogliere risultati

Il problema con qualsiasi soluzione di scraping di craigslist è che bloccano automaticamente qualsiasi indirizzo IP che accede a loro "troppo" - che di solito significa più di qualche centinaio di volte al giorno. Quindi, non appena il tuo strumento acquisisse popolarità, verrà chiuso.

Ecco perché gli unici siti di ricerca di craigslist che sono durati o utilizzano frame (come searchtempest.com e crazedlist.org) o google (come allofcraigs.com).

Quello che fa 3taps è raccogliere elenchi di craigslist da fonti di terze parti "in the wild" - cose come le cache di Google e Bing, ad esempio.

Modifica: questa risposta non è più aggiornata. La maggior parte dei motori di ricerca di annunci che includono risultati di craigslist ora utilizzano la Ricerca personalizzata di Google o soluzioni simili di Yahoo o Bing. SearchTempest utilizza entrambi. Allofcraigs è ora adhuntr e utilizza Google. Crazedlist si è spento.

Ho fatto molte aggregazioni di dati da siti come eBay, Craigslist e Zillow. Ogni fonte richiede un metodo diverso per aggregare i dati.

Per Craigslist, ho ottenuto i dati utilizzando i feed RSS. Volevo solo dati specifici in categorie specifiche in città specifiche e i feed RSS hanno funzionato bene per me. Se stai cercando di ottenere tutti i dati e usi in modo eccessivo i feed RSS, Craigslist probabilmente ti vieterà. Inoltre, non sarai in grado di ottenere tutti i dati dai feed Craigslist, poiché i feed mostrano la maggior parte dei dati ma non tutti. Se la tua affidabilità non deve essere al 100%, allora RSS è il modo più semplice per farlo.

Sto indovinando lo screen scraping

non credo che ci sia ancora un'API Craigslist .. e non credo che ne rilasceranno uno ..

quindi l'unico modo per andare è quello di raschiare i dati .. potresti usare la libreria cURL e sollevare regex per raschiare i dati che desideri di una pagina

se vedi un link .. accedi alla pagina .. raschia la nuova pagina ottieni i dati e mostrali o salvali

e così via ..

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top