كيف المزج كريغسليست الحصول على البيانات؟ [مغلق]

StackOverflow https://stackoverflow.com/questions/237124

  •  04-07-2019
  •  | 
  •  

سؤال

وأنا أفعل بعض البحوث إلى تجميع المحتوى، وأنا الغريب كيف أن بعض من تجميع كريغسليست الحالية الحصول على بيانات في المزج بهم.

وعلى سبيل المثال، www.housingmaps.com وأغلقت الآن www.chicagocrime.org

إذا كان هناك URL التي يمكن استخدامها للإشارة، التي من شأنها أن تكون مثالية!

هل كانت مفيدة؟

المحلول 8

وبينما تواصل للبحث عن هذا المجال، وجدت موقع الهائلة التي لا جزئيا ما أنا مهتم في:

Crazedlist

ويستخدم HTTPReferer من مستعرض العميل، والتي هي مثيرة للاهتمام ولكن ليست مثالية. ويدعي مقدم البلاغ للموقع أيضا أن تكتك ملكي على CL، التي أفهم. كما انه يعطي مثالا واضحا على حاجة العمل، والتي تشبه احتياجاتي، ولماذا أنا مهتم في هذا الموضوع.

نصائح أخرى

ل AdRavage.com يمكنني استخدام مزيج من العقعق RSS (لاستخراج البيانات التي تم إرجاعها من عمليات البحث) وشاشة مخصصة كشط الطبقة لتجميع بشكل صحيح المعلومات مدينة / فئة المستخدمة عند بناء عمليات البحث.

وعلى سبيل المثال، لاستخراج الفئات التي يمكن أن:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

وبديل لكشط (والحصول على سدت)، وذلك باستخدام الإطارات، أو البحث جوجل هو استخدام <م> وسيط البيانات أو <م> تبادل البيانات الخدمة.

3taps هو خدمة بيتا الذي يوفر API المطور لكثير من الخدمات، بما في ذلك كريغزلست. أيضا بناء فريقهم Craiggers ليبرهن على وجود حالة استخدام هذا API. قال لي مؤسس غريغ كيد أن 3taps المحاصيل البيانات كريغزلست من مصادر غير كريغزلست حيث سبق فهرستها وتخزينها مؤقتا بحيث لا تضع أي الضغط على كريغزلست. وترد مصادر البيانات 3taps أخرى أيضا، ولكن هذه الإحصائيات جعله غير واضح سواء أكانت المعتمدة حاليا. هدفهم هو دمقرطة تبادل البيانات .

هي خدمة الزحف الذي يوفر في الوقت الحقيقي أقل ولكن الخيار يحتمل أن تكون أكثر شمولا. وتشمل خدمتهم البيانات على غرار تفريغ حزم الزحف href="http://80legs.com/use-crawl-package.html"> للمئات من المواقع المواقع بما في ذلك الأمازون، الفيسبوك، وشركة Zillow (I دون 'ر نعتقد كريغزلست حاليا). من أحدث جهد Datafiniti توفر محرك بحث على هذا النوع من البيانات.

والخيار البديل سيكون لاستخدام YQL أو ياهو أنابيب لجمع النتائج.

Craiglook و HousingMaps يتم استخدامها لجمع النتائج

والمشكلة مع أي حل يكشط من كريغسليست هو أنها تمنع تلقائيا أي عنوان IP الذي يصل لهم 'الكثير' - وهو ما يعني عادة أكثر من بضع مئات المرات في اليوم. ذلك في أقرب وقت حصلت أداة على أي نوع من شعبيته، وسيتم إغلاقها.

وهذا هو السبب الوحيد في مواقع البحث كريغسليست التي استمرت إما إطارات الاستخدام (مثل searchtempest.com وcrazedlist.org) أو البريد الإلكتروني (مثل allofcraigs.com).

وماذا 3taps يفعله هو لجمع الإدراج كريغسليست من مصادر طرف ثالث "في البرية" - أشياء مثل غوغل وبينغ تخزين على سبيل المثال.

وتحرير: هذه الإجابة لم تعد حتى الآن. معظم محركات المبوبة التي تشمل نتائج كريغسليست الآن استخدام محرك البحث المخصص أو حلول مماثلة من ياهو أو بنج. SearchTempest يستخدم كلا. Allofcraigs الآن adhuntr ويستخدم جوجل. وأغلقت Crazedlist أسفل.

ولقد فعلت الكثير من تجميع البيانات من مواقع مثل موقع ئي باي، كريغزلست، وشركة Zillow. كل مصدر يتطلب أسلوبا مختلفا لتجميع البيانات.

لكريغزلست، حصلت على البيانات باستخدام آر إس إس. أنا فقط أردت بيانات محددة في فئات محددة في مدن محددة، ويغذي RSS عمل بشكل جيد بالنسبة لي. إذا كنت تحاول الحصول على كل البيانات، ويمكنك الإفراط في آر إس إس، سوف كريغزلست المرجح حظر لك. أيضا، فلن تكون قادرة على الحصول على كافة البيانات من كريغزلست إس، لأن يغذي تظهر معظم البيانات ولكن ليس كل شيء. إذا لم الموثوقية الخاص بك تحتاج إلى أن تكون 100٪، ثم RSS هي أسهل طريقة للقيام بذلك.

وأنا التخمين شاشة كشط

وأنا لا أعتقد أن هناك API كريغسليست بعد .. وأنا لا أعتقد أنهم سوف الافراج عن واحد ..

وبالتالي فإن الطريقة الوحيدة للذهاب هو أن تتخلص البيانات .. هل يمكن استخدام مكتبة الضفيرة والتعابير المنطقية يتنفس لتتخلص من البيانات التي تريد من صفحة

وإذا كنت ترى وجود صلة .. الوصول إلى الصفحة .. كشط صفحة جديدة الحصول على البيانات وإظهار أو تخزينه

ووهلم جرا ..

ولقد قدمت واحدة:

http://cdn.javascriptmvc.com/videos/jobs/craigslist.js

وهذا ينتج:

http://cdn.javascriptmvc.com/videos/jobs/craigslist.html

ويجب أن يتم تشغيلها في وحيد القرن.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top