Frage

Ich mache einige Forschungsarbeit in Content-Aggregatoren, und ich bin gespannt, wie einige der aktuellen Craigslist-Aggregatoren Daten in ihre Mashups erhalten.

Zum Beispiel www.housingmaps.com und die jetzt geschlossen www.chicagocrime.org

Wenn Sie eine URL, die als Referenz verwendet werden kann, das wäre perfekt!

War es hilfreich?

Lösung 8

Während er weiterhin diesen Bereich zu erforschen, fand ich eine tolle Website, die sich zum Teil, was ich habe Interesse an:

Crazedlist

Es nutzt die HTTPReferer des Client-Browser, was interessant ist aber nicht ideal. Der Autor der Seite behauptet, auch fürstlich auf CL abgehakt zu haben, die ich verstehe. Es gibt auch klares Beispiel für Geschäftsanforderungen, die auf meine Bedürfnisse ähnlich sind, und warum ich in diesem Thema interessiert.

Andere Tipps

AdRavage.com verwende ich eine Kombination von Magpie RSS (zum Extrahieren der Daten aus Suche zurückgegeben) und einen benutzerdefinierten Bildschirm Klasse kratzen, um richtig auf die Stadt / Kategorie Informationen verwendet zu füllen, wenn Suchanfrage zu bauen.

Um zum Beispiel die Kategorien zu extrahieren Sie könnte:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

Eine Alternative zum Schaben (und blockiert zu werden), Verwendung von Frames oder Google-Suche ist einen Daten-Broker verwenden oder Datenaustausch Service.

3taps ist ein Beta-Service, der einen Entwickler-API für viele Dienste, einschließlich Craigslist. Ihr Team baute auch Craiggers einen Anwendungsfall dieser API zu demonstrieren. Gründer Greg Kidd sagte mir, dass Ernten Craigslist-Daten von Nicht-Craigslist Quellen 3taps wo es bereits indiziert ist und zwischengespeichert, so dass es keine Belastung auf Craigslist gesetzt wird. Andere 3taps Datenquellen sind ebenfalls aufgeführt, aber diese Statistiken machen unklar, ob sie derzeit unterstützt. Ihr Ziel ist es href="http://www.readwriteweb.com/archives/3taps_wants_to_democratize_the_exchange_of_data.php"> den Austausch von Daten Democratise

80legs ein Crawling-Service ist, der eine weniger in Echtzeit bietet, aber potenziell umfassendere Option. Ihre Daten-Dump-style-Service umfasst Crawl-Pakete für hunderte Websites, Websites wie Amazon, Facebook und Zillow (I don ‚t Craigslist glaubt zur Zeit). Ihr neuerer Aufwand Datafiniti ist eine Suchmaschine, über diese Art von Daten.

Die Alternative wäre Rohre YQL oder Yahoo zu verwenden, um die Ergebnisse zu sammeln.

Craiglook und HousingMaps sind mit ihnen Ergebnisse sammeln

Das Problem mit einem Kratzen Lösung von Craigslist ist, dass sie eine beliebige IP-Adresse automatisch blockieren, die sie ‚zu viel‘ greift - die in der Regel mehr als ein paar hundert Mal bedeutet ein Tag. Also, sobald Ihr Werkzeug, jede Art von Popularität bekam, würde es herunterzufahren.

Das ist, warum die einzige Craigslist-Such-Websites, die entweder verwendet Frames (wie searchtempest.com und crazedlist.org) oder Google (wie allofcraigs.com) gedauert haben.

Was 3taps tut, ist Craigslist Liste von Drittquellen ‚in der Wildnis‘ zu sammeln - Dinge wie die Google und Bing-Caches zum Beispiel.

Edit: diese Antwort ist nicht mehr auf dem neuesten Stand. Die meisten Anzeigen Suchmaschinen, die Ergebnisse von Craigslist enthalten verwenden jetzt Google Custom Search oder ähnliche Lösungen von Yahoo oder Bing. SearchTempest verwendet beides. Allofcraigs ist jetzt adhuntr und benutzt Google. Crazedlist wird heruntergefahren.

Ich habe eine Menge von Datenaggregation von Seiten wie eBay, Craigslist, und Zillow getan. Jede Quelle erfordert eine andere Methode, die Daten zu aggregieren.

Für Craigslist, bekam ich die Daten mit RSS-Feeds. Ich wollte nur bestimmte Daten in bestimmten Kategorien in bestimmten Städten und der RSS-Feeds funktionierte gut für mich. Wenn Sie versuchen, alle Daten zu erhalten, und Sie Übernutzung der RSS-Feeds, wird Craigslist verbieten Sie wahrscheinlich. Außerdem werden Sie nicht in der Lage sein, alle Daten zu erhalten, von Craigslist-Feeds, weil die Feeds die meisten Daten zeigen, aber nicht alle. Wenn Ihre Zuverlässigkeit muss nicht 100% sein, dann RSS ist der einfachste Weg, es zu tun.

Ich vermute, Screen Scraping

Ich glaube nicht, gibt es eine Craigslist API noch .. und ich glaube nicht, dass ein Release wird ..

so dass der einzige Weg, um Daten zu gehen, ist zu kratzen .. Sie könnten cURL-Bibliothek verwenden und hieven regex die Daten, die Sie von einer Seite wollen kratzen

Wenn Sie einen Link sehen .. die Seite zugreifen .. schaben die neue Seite, die Daten erhalten und zeigen Sie es an oder speichern Sie

und so weiter ..

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top