크롤링 및 데이터 광산 웹 사이트에 대한 최상의 오픈 소스 라이브러리 또는 응용 프로그램

StackOverflow https://stackoverflow.com/questions/759363

문제

웹 사이트 크롤링 및 분석을위한 최고의 Eopen-Source 라이브러리가 무엇인지 알고 싶습니다. 한 가지 예는 크롤러 부동산 대행사로, 여러 사이트에서 정보를 가져 와서 내 사이트로 집계하고 싶습니다. 이를 위해 사이트를 기어 다니고 속성 광고를 추출해야합니다.

도움이 되었습니까?

해결책

우수한 파이썬 패키지를 사용하여 많은 스크래핑을합니다. urllib2, 기계화 그리고 BeautifulSoup.

나는 또한 보는 것이 좋습니다 LXML 그리고 스크레이프, 나는 현재 그것들을 사용하지 않지만 (여전히 스크레이프를 시험해 볼 계획).

Perl Language에는 스크래핑을위한 훌륭한 시설도 있습니다.

다른 팁

PHP/Curl은 매우 강력한 조합입니다. 특히 웹 페이지에서 결과를 직접 사용하려는 경우 ...

Morozov 씨와 공통적으로 나는 주로 구직 사이트를 긁어냅니다. 나는 그것이 도움이된다면 기계화에 의지 할 필요가 없었습니다. urllib2와 함께 BeautifulSoup은 항상 충분했습니다.

LXML을 사용했습니다. 그러나 필요한 경우 몇 달 전에 Google Apps에서 사용할 수 없었을 것 같습니다.

Morozov 씨가 문자를 언급 한 것에 감사드립니다. 들어 본 적이 없습니다.

스크레이프 외에도 살펴 봐야합니다 Parselets

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top