Craigslist 매시업은 어떻게 데이터를 얻습니까? [닫은

https://stackoverflow.com/questions/237124

04-07-2019
|

문제

저는 콘텐츠 애그리 게이터에 대한 연구 작업을하고 있으며 현재 Craigslist Aggregator 중 일부가 매시업에 데이터를 얻는 방법이 궁금합니다.

예를 들어, www.housingmaps.com 및 현재 폐쇄 된 www.chicagocrime.org

참조에 사용할 수있는 URL이 있다면 완벽합니다!

해결책 8

이 분야를 계속 연구하는 동안 나는 내가 관심있는 것을 부분적으로 수행하는 멋진 사이트를 찾았습니다.

크레이즈리스트

클라이언트 브라우저의 httpreferer를 사용합니다. 이는 흥미롭지 만 이상적이지 않습니다. 이 사이트의 저자는 또한 내가 이해하는 CL에서 왕실을 진압했다고 주장합니다. 또한 비즈니스 요구에 대한 명확한 예를 제공하며, 이는 내 요구와 유사한 이유 와이 주제에 관심이있는 이유를 제시합니다.

다른 팁

을 위한 adravage.com Magpie RSS (검색에서 반환 된 데이터를 추출하기 위해)와 사용자 정의 화면 스크래핑 클래스의 조합을 사용하여 검색을 구축 할 때 사용되는 도시/카테고리 정보를 올바르게 채우십시오.

예를 들어, 카테고리를 추출하려면 다음과 같습니다.

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

프레임 또는 Google 검색을 사용하는 스크래핑 (및 차단)에 대한 대안은 데이터 브로커 또는 데이터 교환 서비스.

3taps Craigslist를 포함한 많은 서비스에 개발자 API를 제공하는 베타 서비스입니다. 그들의 팀도 구축했습니다 Craiggers 이 API의 사용 사례를 보여줍니다. 창립자 Greg Kidd는 3TAPS가 Craigslist에 부담을주지 않도록 이미 색인화되고 캐시 된 비 Craigslist 소스에서 Craigslist 데이터를 수확한다고 말했습니다. 다른 3TAPS 데이터 소스도 나열되어 있지만 이 통계 그들이 현재 지원되는지 확실하지 않도록하십시오. 그들의 목표는 데이터 교환을 민주화합니다.

80legs 덜 실시간이지만 잠재적으로 더 포괄적 인 옵션을 제공하는 크롤링 서비스입니다. 그들의 데이터 덤프 스타일 서비스에는 포함됩니다 크롤링 패키지 Amazon, Facebook 및 Zillow를 포함한 수백 개의 사이트 (현재 Craigslist를 믿지 않습니다). 그들의 새로운 노력 데이터 피니티 이러한 유형의 데이터에 대한 검색 엔진을 제공하고 있습니다.

대안 옵션은 YQL 또는 Yahoo 파이프를 사용하여 결과를 수집하는 것입니다.

크레이그 루크 그리고 HousingMaps는 결과를 수집하기 위해이를 사용하고 있습니다

Craigslist의 스크래핑 솔루션의 문제점은 '너무 많이'액세스하는 IP 주소를 자동으로 차단한다는 것입니다. 이는 일반적으로 하루에 수백 번 이상을 의미합니다. 따라서 도구가 어떤 인기를 얻 자마자, 종료 될 것입니다.

그렇기 때문에 지속 된 유일한 Craigslist 검색 사이트는 프레임 (SearchTempest.com 및 CrazedList.org :) 또는 Google (Allofcraigs.com)을 사용하는 이유입니다.

3TAPS가하는 일은 예를 들어 Google 및 Bing Caches와 같은 타사 소스 'Wild'에서 Craigslist 목록을 수집하는 것입니다.

편집 :이 답변은 더 이상 최신 상태가 아닙니다. Craigslist의 결과가 포함 된 대부분의 분류 검색 엔진은 이제 Google 사용자 정의 검색 또는 Yahoo 또는 Bing의 유사한 솔루션을 사용합니다. SearchTempest는 둘 다 사용합니다. Allofcraigs는 이제 Adhuntr이며 Google을 사용합니다. Crazedlist가 종료되었습니다.

eBay, Craigslist 및 Zillow와 같은 사이트에서 많은 데이터 집계를 수행했습니다. 각 소스마다 데이터를 집계하려면 다른 방법이 필요합니다.

Craigslist의 경우 RSS 피드를 사용하여 데이터를 얻었습니다. 특정 도시의 특정 범주로 특정 데이터 만 원했고 RSS 피드는 나에게 잘 작동했습니다. 모든 데이터를 얻으려고 노력하고 RSS 피드를 과도하게 사용하는 경우 Craigslist가 귀하를 금지 할 것입니다. 또한 피드에 대부분의 데이터가 표시되지만 모든 데이터가 표시되지 않기 때문에 Craigslist 피드에서 모든 데이터를 얻을 수 없습니다. 신뢰성이 100%일 필요가 없다면 RSS가 가장 쉬운 방법입니다.

화면 스크래핑을 추측하고 있습니다

나는 아직 Craigslist API가 있다고 생각하지 않습니다. 그리고 나는 그들이 하나를 발표 할 것이라고 생각하지 않습니다.

그래서 갈 수있는 유일한 방법은 데이터를 긁어내는 것입니다. 컬 라이브러리를 사용하고 Regex를 사용하여 페이지의 데이터를 긁어 낼 수 있습니다.

링크가 표시되면 .. 페이지에 액세스하십시오 .. 새 페이지를 긁어 데이터를 가져 와서 보여 주거나 저장하십시오.

등등..

방금 하나를 만들었습니다.

http://cdn.javaScriptmvc.com/videos/jobs/craigslist.js

생산 :

http://cdn.javaScriptmvc.com/videos/jobs/craigslist.html

Rhino에서 실행해야합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow