Pergunta

Eu estou fazendo algum trabalho de investigação para agregadores de conteúdo, e estou curioso como alguns dos agregadores craigslist atuais obter dados em seus mashups.

Por exemplo, www.housingmaps.com e agora fechou www.chicagocrime.org

Se houver uma URL que pode ser usado para referência, que seria perfeito!

Foi útil?

Solução 8

Enquanto continuar a pesquisar nessa área, eu encontrei um site impressionante que faz parte do que estou interessado em:

Crazedlist

Ele usa o HTTPReferer do navegador do cliente, o que é interessante, mas não é o ideal. O autor do site também afirma ter regiamente assinalada na CL, que eu entendo. Ele também dá exemplo claro da necessidade de negócios, que são semelhantes às minhas necessidades, e porque eu estou interessado neste tópico.

Outras dicas

Para AdRavage.com Eu uso uma combinação de Magpie RSS (para extrair os dados retornados a partir de pesquisas) e uma tela personalizada raspando classe para preencher corretamente as informações municipais / categoria usada na construção de pesquisas.

Por exemplo, para extrair as categorias que você pode:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

Uma alternativa para raspagem (e ficar bloqueado), usando quadros, ou de busca do Google é usar um corretor de dados ou troca de dados serviço.

3taps é um serviço beta que fornece uma API desenvolvedor para muitos serviços, incluindo Craigslist. Sua equipe também construiu Craiggers para demonstrar um caso de uso desta API. Fundador Greg Kidd me disse que 3taps colhe dados Craigslist de fontes não Craigslist onde já está indexado e armazenado em cache para que ele não coloca qualquer pressão sobre Craigslist. outras fontes de dados 3taps também estão listados, mas estas estatísticas tornam claro se eles estão atualmente suportados. Seu objetivo é Democratizar o intercâmbio de dados .

80legs é um serviço de rastreamento que proporciona um menor tempo real, mas opção potencialmente mais abrangente. Seu serviço de dados em estilo de despejo inclui para centenas de sites locais, incluindo Amazon, Facebook, e Zillow (I don 't acreditar Craigslist atualmente). Seu mais recente esforço Datafiniti está fornecendo um motor de busca sobre este tipo de dados.

A opção alternativa seria a utilização de tubos YQL ou Yahoo para reunir os resultados.

Craiglook e HousingMaps estão usando-os para reunir resultados

O problema com qualquer solução de raspagem do craigslist é que eles automaticamente bloquear qualquer endereço IP que os acessos 'demasiado' - o que geralmente significa mais do que algumas centenas de vezes por dia. Assim, logo que a sua ferramenta tem qualquer tipo de popularidade, seria desligado.

É por isso que os sites de busca só craigslist que duraram tanto quadros de uso (como searchtempest.com e crazedlist.org) ou o Google (como allofcraigs.com).

O que 3taps faz é reunir lista craigslist partir de fontes de terceiros 'na natureza' - coisas como as caches Google e Bing por exemplo.

Edit: esta resposta não é mais atualizado. A maioria dos Classificados motores de busca que incluem os resultados de craigslist agora usar o Google Pesquisa personalizada ou soluções similares de Yahoo ou Bing. SearchTempest usa tanto. Allofcraigs é agora adhuntr e usa Google. Crazedlist foi encerrado.

Eu fiz um monte de agregação de dados de sites como o eBay, Craigslist, e Zillow. Cada fonte requer um método diferente para agregar os dados.

Para Craigslist, eu tenho os dados usando feeds RSS. Eu só queria dados específicos em categorias específicas em cidades específicas, e os feeds RSS funcionou bem para mim. Se você está tentando obter todos os dados, e você overuse os feeds RSS, Craigslist provavelmente vai proibi-lo. Além disso, você não será capaz de obter todos os dados a partir de alimentações Craigslist, porque os feeds mostram que a maioria dos dados, mas não todos. Se a sua confiabilidade não precisa ser 100%, então RSS é a maneira mais fácil de fazê-lo.

i estou supondo captura de tela

Eu não acho que há uma API craigslist ainda .. e eu não acho que eles vão lançar um ..

então a única maneira de ir é aos dados raspar .. você poderia usar a biblioteca cURL e regex alçada para raspar os dados que você quer de uma página

Se você ver um link .. acesso a página .. raspar a nova página obter os dados e mostrá-lo ou armazená-lo

e assim por diante ..

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top