Вопрос

Я занимаюсь исследованием агрегаторов контента, и мне любопытно, как некоторые из нынешних агрегаторов craigslist переносят данные в свои коллажи.

Например, www.housingmaps.com и закрытый сайт www.chicagocrime.org

Если есть URL-адрес, который можно использовать для ссылки, это было бы идеально!

Это было полезно?

Решение 8

Продолжая исследовать эту область, я нашел удивительный сайт, который частично делает то, что мне интересно:

Безумный список

Он использует HTTPReferer клиентского браузера, что интересно, но не идеально. Автор сайта также утверждает, что по-королевски пометил CL, что я понимаю. Это также дает четкий пример потребностей бизнеса, которые похожи на мои потребности, и почему я заинтересован в этой теме.

Другие советы

Для AdRavage.com я использую комбинацию Magpie RSS (для извлечения данных, полученных в результате поиска) и настраиваемый экран. класс очистки, чтобы правильно заполнить информацию о городе / категории, используемую при поиске здания.

Например, чтобы извлечь категории, вы можете:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

Альтернативой очистке (и блокировке), использованию фреймов или поиску в Google является использование службы брокер данных или обмен данными .

3taps - это бета-служба, которая предоставляет API-интерфейс для разработчиков многих служб, включая Craigslist. Их команда также создала Craiggers , чтобы продемонстрировать пример использования этого API. Основатель Грег Кидд (Greg Kidd) сказал мне, что 3taps собирает данные Craigslist из источников, не относящихся к Craigslist, где они уже проиндексированы и кэшированы, чтобы не создавать нагрузку на Craigslist. Другие источники данных 3taps также перечислены, но эта статистика не позволяет понять, поддерживаются ли они в настоящее время. Их целью является демократизация обмена данными .

80legs - это служба сканирования, которая предоставляет менее оперативный, но потенциально более комплексный вариант. Их сервис в стиле дампа данных включает в себя пакеты сканирования для сотен сайтов, включая Amazon, Facebook и Zillow (я верить Craigslist в настоящее время). Их новое усилие Datafiniti предоставляет поисковую систему по данным такого типа.

Альтернативный вариант - использовать каналы YQL или Yahoo для сбора результатов.

Craiglook и HousingMaps используют их для сбора результатов

Проблема с любым чистящим решением craigslist заключается в том, что они автоматически блокируют любой IP-адрес, который обращается к ним «слишком часто», что обычно означает более нескольких сотен раз в день. Поэтому, как только ваш инструмент приобретет какую-либо популярность, он будет закрыт.

Вот почему единственные поисковые сайты Craigslist, которые продолжали работать, используют фреймы (например, searchtempest.com и crazedlist.org) или Google (например, allofcraigs.com).

Что делает 3taps, так это собирает список craigslist из сторонних источников «в дикой природе», например, таких как кеш Google и Bing.

Изменить: этот ответ больше не актуален. Большинство поисковых систем объявлений, которые включают результаты из craigslist, теперь используют Google Custom Search или аналогичные решения от Yahoo или Bing. SearchTempest использует оба. Allofcraigs теперь adhuntr и использует Google. Сумасшедший закрылся.

Я много собирал данные с таких сайтов, как eBay, Craigslist и Zillow. Каждый источник требует своего метода для агрегирования данных.

Для Craigslist я получил данные с помощью RSS-каналов. Я хотел только конкретные данные в определенных категориях в определенных городах, и RSS-каналы работали хорошо для меня. Если вы пытаетесь получить все данные и чрезмерно используете RSS-каналы, Craigslist, скорее всего, забанит вас. Кроме того, вы не сможете получить все данные из каналов Craigslist, потому что каналы показывают большую часть данных, но не все. Если ваша надежность не должна быть на 100%, тогда RSS - самый простой способ сделать это.

Я предполагаю, что скребет по экрану

Я не думаю, что API Craigslist пока что есть .. и я не думаю, что они выпустят его.

так что единственный способ - это очистить данные .. вы можете использовать библиотеку cURL и использовать регулярные выражения для очистки нужных данных страницы

если вы видите ссылку .. перейдите на страницу .. очистите новую страницу, получите данные и покажите их или сохраните

и т. д.

Я только что сделал один

http://cdn.javascriptmvc.com/videos/jobs/craigslist.js

Что производит:

http://cdn.javascriptmvc.com/videos/jobs/craigslist.html

Должен быть запущен в носороге.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top