웹 스크래핑 프로젝트의 모범 사례에 대한 좋은 튜토리얼 추천을 찾고 계십니까?[닫은]

StackOverflow https://stackoverflow.com/questions/684629

문제

웹 스크래핑과 관련된 상당히 광범위한 프로젝트를 수행해야 하며 Hpricot 또는 Beautiful Soup(예:루비 또는 파이썬).이 주제에 대해 제가 프로젝트를 순조롭게 시작하는 데 도움이 될 것이라고 생각하는 튜토리얼을 본 사람이 있나요?

도움이 되었습니까?

해결책

우수한 것이 있습니다 RailScasts 에피소드 scrapi.

다른 팁

Python 웹 스크래핑을위한 내가 가장 좋아하는 두 가지 도구는 다음과 같습니다. 스크레이프 그리고 기계화. 이러한 각 프로젝트에는 자체 자습서와 모범 사례가 있습니다.

실제로 도구는 아니지만 좋은 토론은 Michael Shrenk의 책입니다. 웹봇, 스파이더, 스크린 스크레이퍼.

이 책은 명시된 사명을 성공적으로 수행합니다.간단한 웹봇을 구축하고 커뮤니티 표준에 따라 운영하는 방법을 설명합니다.여러분이 알아야 할 모든 것이 아니지만, 제가 본 것 중 최고의 소개입니다.단순한 단일 스레드 봇에 중점을 두고 있습니다.중앙 저장소에 데이터를 저장하는 여러 봇을 사용하는 것에 대한 약간의 언급이 있지만 초당 수백 페이지를 처리할 수 있는 다중 스레드 또는 분산 봇 작성과 관련된 문제에 대한 논의는 없습니다.

PHP에 익숙하지 않거나 사용할 의도가 없더라도 웹봇 작성에 관심이 있다면 이 책을 읽어 보시기를 권합니다.그러나 책에서 제공하는 것 이상을 기대하지 마십시오.

사용을 살펴보십시오 LXML BeautifulSoup 대신. 그 이름에도 불구하고, 그것은 또한 HTML을 구문 분석하고 긁는 것입니다. 그것은 BeautifulSoup보다 훨씬 빠르며, BeautifulSoup보다 "깨진"HTML을 더 잘 처리합니다 (명성에 대한 주장 -LXML은 그것에 대해 보컬이 아닙니다). LXML API를 배우고 싶지 않다면 BeautifulSoup의 호환 API도 있습니다.

Ian Blicking은 동의합니다.

Google App Engine에 있거나 순전히 Python이 허용되지 않는 경우 더 이상 BeautifulSoup을 사용할 이유가 없습니다.

루비에게 Scrubyt 웹 스크래핑 툴킷은 우수합니다. 여기에 있습니다 광범위한 소개 다른 도구를 사용하더라도 읽을 가치가 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top