웹 스크래핑 프로젝트의 모범 사례에 대한 좋은 튜토리얼 추천을 찾고 계십니까?[닫은]
-
22-08-2019 - |
문제
웹 스크래핑과 관련된 상당히 광범위한 프로젝트를 수행해야 하며 Hpricot 또는 Beautiful Soup(예:루비 또는 파이썬).이 주제에 대해 제가 프로젝트를 순조롭게 시작하는 데 도움이 될 것이라고 생각하는 튜토리얼을 본 사람이 있나요?
해결책
우수한 것이 있습니다 RailScasts 에피소드 scrapi.
다른 팁
실제로 도구는 아니지만 좋은 토론은 Michael Shrenk의 책입니다. 웹봇, 스파이더, 스크린 스크레이퍼.
이 책은 명시된 사명을 성공적으로 수행합니다.간단한 웹봇을 구축하고 커뮤니티 표준에 따라 운영하는 방법을 설명합니다.여러분이 알아야 할 모든 것이 아니지만, 제가 본 것 중 최고의 소개입니다.단순한 단일 스레드 봇에 중점을 두고 있습니다.중앙 저장소에 데이터를 저장하는 여러 봇을 사용하는 것에 대한 약간의 언급이 있지만 초당 수백 페이지를 처리할 수 있는 다중 스레드 또는 분산 봇 작성과 관련된 문제에 대한 논의는 없습니다.
PHP에 익숙하지 않거나 사용할 의도가 없더라도 웹봇 작성에 관심이 있다면 이 책을 읽어 보시기를 권합니다.그러나 책에서 제공하는 것 이상을 기대하지 마십시오.
사용을 살펴보십시오 LXML BeautifulSoup 대신. 그 이름에도 불구하고, 그것은 또한 HTML을 구문 분석하고 긁는 것입니다. 그것은 BeautifulSoup보다 훨씬 빠르며, BeautifulSoup보다 "깨진"HTML을 더 잘 처리합니다 (명성에 대한 주장 -LXML은 그것에 대해 보컬이 아닙니다). LXML API를 배우고 싶지 않다면 BeautifulSoup의 호환 API도 있습니다.
Google App Engine에 있거나 순전히 Python이 허용되지 않는 경우 더 이상 BeautifulSoup을 사용할 이유가 없습니다.
다음 스크린 캐스트를 살펴보십시오.
- http://railscasts.com/episodes/190-screen-scraping-with-nokogiri
- http://railscasts.com/episodes/191-mechanize
또는 당신이 그것을 좋아한다면, 해당 asciicasts :