クレイグリストマッシュアップはどのようにデータを取得しますか？ [閉まっている]

https://stackoverflow.com/questions/237124

04-07-2019
|

質問

コンテンツアグリゲーターの研究を行っています。現在のクレイグリストアグリゲーターがマッシュアップにデータを取得する方法に興味があります。

たとえば、www.housingmaps.comおよび現在閉鎖されているwww.chicagocrime.org

参照に使用できるURLがあれば、それは完璧です！

解決 8

この分野の研究を続けているうちに、私が興味を持っていることの一部を行っている素晴らしいサイトを見つけました：

クレイズリスト

クライアントブラウザのHTTPRefererを使用しますが、これは興味深いですが理想的ではありません。このサイトの作者はまた、CLを高く評価していると主張していますが、これは理解できます。また、ビジネスニーズの明確な例も示していますが、これは私のニーズに似ており、なぜこのトピックに興味があるのですか。

他のヒント

AdRavage.com の場合、Magpie RSS（検索から返されたデータを抽出するため）とカスタム画面の組み合わせを使用しますクラスをスクレイピングして、検索の構築時に使用される都市/カテゴリ情報を適切に入力します。

たとえば、カテゴリを抽出するには、次のようにします。

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

フレームを使用したスクレイピング（およびブロック）、またはGoogle検索の代替手段は、データブローカーまたはデータ交換サービスを使用することです。

3taps は、Craigslistを含む多くのサービスに開発者APIを提供するベータサービスです。彼らのチームはまた、 Craiggers を構築して、このAPIの使用例を示しました。創設者のグレッグ・キッドは、3tapsがCraigslistに負担をかけないように、すでにインデックス化およびキャッシュされているCraigslist以外のソースからCraigslistのデータを収集すると語った。他の3tapsデータソースもリストされていますが、これらの統計により、現在サポートされているかどうかがわかりません。彼らの目標は、データ交換の民主化です。

80legs は、リアルタイムではありませんが、より包括的なオプションを提供するクロールサービスです。データダンプ形式のサービスには、Amazon、Facebook、Zillowなどの数百のサイトサイトのクロールパッケージが含まれています（現在Craigslistを信じていない）。彼らの新しい取り組み Datafiniti は、このタイプのデータに対する検索エンジンを提供しています。

代替オプションは、YQLまたはYahooパイプを使用して結果を収集することです。

Craiglook とHousingMapsはそれらを使用して結果を収集しています

クレイグリストのスクレイピングソリューションの問題は、クレイグリストが「過剰」にアクセスするIPアドレスを自動的にブロックすることです。これは通常、1日に数百回以上を意味します。したがって、ツールが何らかの人気を得るとすぐにシャットダウンされます。

だから、フレーム（searchtempest.comやcrazedlist.orgなど）またはgoogle（allofcraigs.comなど）を使用している唯一のクレイグリスト検索サイトがあります。

3tapsが行うことは、「荒野で」サードパーティのソースからクレイグリストのリストを収集することです。たとえば、GoogleやBingのキャッシュなどです。

編集：この回答は最新ではありません。 craigslistからの結果を含むほとんどのクラシファイド検索エンジンは、Googleカスタム検索またはYahooまたはBingの同様のソリューションを使用するようになりました。 SearchTempestは両方を使用します。 Allofcraigsは現在adhuntrであり、Googleを使用しています。 Crazedlistはシャットダウンしました。

eBay、Craigslist、Zillowなどのサイトから多くのデータを収集しました。各ソースには、データを集約するための異なる方法が必要です。

Craigslistでは、RSSフィードを使用してデータを取得しました。特定の都市の特定のカテゴリの特定のデータのみが必要であり、RSSフィードはうまく機能しました。すべてのデータを取得しようとしていて、RSSフィードを使いすぎると、Craigslistが禁止する可能性があります。また、フィードにはすべてではなくほとんどのデータが表示されるため、Craigslistフィードからすべてのデータを取得することはできません。信頼性を100％にする必要がない場合は、RSSが最も簡単な方法です。

スクリーンスクレイピングを推測しています

私はまだクレイグリストAPIがあるとは思わない..そして彼らがそれをリリースするとは思わない..

したがって、唯一の方法はデータをスクレイピングすることです..cURLライブラリを使用し、正規表現を使用してページの必要なデータをスクレイピングすることができます

リンクが表示された場合..ページにアクセスします。新しいページをスクレイプしてデータを取得し、表示または保存します

など..

作成しました：

http://cdn.javascriptmvc.com/videos/jobs/craigslist.js

それは以下を生成します：

http://cdn.javascriptmvc.com/videos/jobs/craigslist.html

サイで実行する必要があります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow