Comment les mashups craigslist obtiennent-ils des données? [fermé]

https://stackoverflow.com/questions/237124

04-07-2019
|

Question

Je fais des recherches sur les agrégateurs de contenu et je suis curieux de savoir comment certains des agrégateurs actuels de Craigslist obtiennent des données dans leurs mashups.

Par exemple, www.housingmaps.com et le site maintenant fermé www.chicagocrime.org

S'il existe une URL pouvant être utilisée à titre de référence, ce serait parfait!

La solution 8

Tout en poursuivant mes recherches dans ce domaine, j'ai trouvé un site génial qui fait en partie ce qui m'intéresse:

Crazedlist

Il utilise le HTTPReferer du navigateur client, ce qui est intéressant mais pas idéal. L'auteur du site prétend également avoir royalement coché sur CL, ce que je comprends. Il donne également un exemple clair des besoins de l’entreprise, similaires à mes besoins, et explique pourquoi ce sujet m’intéresse.

Autres conseils

Pour AdRavage.com , j'utilise une combinaison de Magpie RSS (pour extraire les données renvoyées par les recherches) et d'un écran personnalisé. en grattant la classe pour renseigner correctement les informations de ville / catégorie utilisées lors de la construction de recherches.

Par exemple, pour extraire les catégories, vous pouvez:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

Une alternative au raclage (et au blocage), à ??l'utilisation de cadres ou à la recherche Google consiste à utiliser un service courtier en données ou échange de données .

3taps est un service bêta qui fournit une API de développement à de nombreux services, y compris Craigslist. Leur équipe a également mis au point Craiggers pour illustrer un cas d'utilisation de cette API. Le fondateur, Greg Kidd, m'a dit que 3taps exploite des données de Craigslist à partir de sources non-Craigslist où elles sont déjà indexées et mises en cache, de manière à ne pas surcharger Craigslist. D'autres sources de données 3taps sont également répertoriées, mais ces statistiques ne permettent pas de savoir si elles sont actuellement prises en charge. Leur objectif est de démocratiser l'échange de données .

80legs est un service d'analyse qui fournit une option moins rapide, mais potentiellement plus complète. Leur service de type vidage de données inclut les packages d'analyse pour des centaines de sites, y compris Amazon, Facebook et Zillow (en anglais). 'croyez pas Craigslist actuellement). Datafiniti fournit un moteur de recherche sur ce type de données.

L’option alternative consisterait à utiliser les tubes YQL ou Yahoo pour collecter les résultats.

Craiglook et HousingMaps les utilisent pour collecter des résultats

Le problème avec toutes les solutions de grattage de Craigslist est qu’elles bloquent automatiquement toute adresse IP qui y accède «trop» - ce qui signifie généralement plus de quelques centaines de fois par jour. Donc, dès que votre outil aura une popularité quelconque, il sera arrêté.

C'est pourquoi les seuls sites de recherche Craigslist qui ont duré utilisent des cadres (tels que searchtempest.com et crazedlist.org) ou Google (tels qu'allofcraigs.com).

Ce que fait 3taps, c'est de rassembler les listes de Craigslist provenant de sources tierces "à l'état sauvage", comme les caches Google et Bing, par exemple.

Modifier: cette réponse n’est plus à jour. La plupart des moteurs de recherche d'annonces comportant des résultats de Craigslist utilisent désormais Google Recherche personnalisée ou des solutions similaires proposées par Yahoo ou Bing. SearchTempest utilise les deux. Allofcraigs est maintenant adhuntr et utilise Google. Crazedlist a fermé ses portes.

J'ai effectué beaucoup d'agrégation de données à partir de sites tels qu'eBay, Craigslist et Zillow. Chaque source nécessite une méthode différente pour agréger les données.

Pour Craigslist, j’ai récupéré les données à l’aide de flux RSS. Je voulais seulement des données spécifiques dans des catégories spécifiques dans des villes spécifiques, et les flux RSS me convenaient parfaitement. Si vous essayez d'obtenir toutes les données et que vous utilisez trop les flux RSS, Craigslist vous interdira probablement. En outre, vous ne pourrez pas obtenir toutes les données des flux Craigslist, car les flux affichent la plupart des données, mais pas toutes. Si votre fiabilité n’est pas nécessairement de 100%, alors le RSS est le moyen le plus simple de le faire.

Je devine le grattage de l'écran

Je ne pense pas qu’il existe une API Craigslist pour le moment .. et je ne pense pas qu’ils en publieront une ..

la seule façon de procéder est donc de récupérer des données .. vous pouvez utiliser la bibliothèque cURL et générer une expression rationnelle pour supprimer les données d’une page

si vous voyez un lien .. accédez à la page .. récupérez la nouvelle page, récupérez les données et affichez-les ou stockez-les

et ainsi de suite ..

Je viens d'en faire un:

http://cdn.javascriptmvc.com/videos/jobs/craigslist.js

Cela produit:

http://cdn.javascriptmvc.com/videos/jobs/craigslist.html

Doit être exécuté dans un rhinocéros.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow