문제

나는 Python에 능숙하므로 세부 사항이 사소한 경우에는 의사 코드로 충분합니다.작업을 시작하도록 해주세요. 우리 주에 있는 교회의 일반 메일 주소를 찾기 위해 인터넷을 크롤링하는 방법은 무엇입니까?"123 Old West Road #3 Old Lyme City MD 01234"와 같은 하나의 라이너가 있으면 아마도 충분한 시행착오를 거쳐 도시, 주, 거리, 번호로 구문 분석할 수 있을 것입니다.내 문제는 온라인에서 화이트 페이지를 사용하는 경우 모든 HTML 정크, HTML 테이블, 광고 등을 어떻게 처리합니까?나는 그들의 전화번호가 필요하다고 생각하지 않지만 그것은 아프지 않을 것입니다. 일단 분석되면 언제든지 버릴 수 있습니다.솔루션이 반수작업(예: PDF로 저장한 다음 Acrobat을 열고 텍스트로 저장)인 경우에도 여전히 만족할 수 있습니다.감사해요!도대체 Perl 조각도 허용하겠습니다. 직접 번역할 수도 있습니다.

도움이 되었습니까?

해결책

당신은 사용할 수 있습니다 기계화. 브라우저를 시뮬레이션하는 파이썬 라이브러리이므로 흰색 페이지를 기어 다닐 수 있습니다 (수동으로 수행하는 작업과 마찬가지로).

'HTML 정크'파이썬을 다루기 위해서는이를위한 라이브러리도 있습니다. BeautifulSoupHTML에서 원하는 데이터를 얻는 멋진 방법입니다 (물론 구문 분석 트리를 탐색해야하기 때문에 HTML에 대해 조금 알고 있다고 가정합니다).

업데이트 : 여러 페이지를 클릭하는 방법에 대한 후속 질문에 관해서. 기계화는 바로 그 일을하는 도서관입니다. 그들의 예를 자세히 살펴보십시오. follow_link 메소드. 내가 말했듯이 브라우저를 시뮬레이션하므로 Python에서 '클릭'을 빠르게 실현할 수 있습니다.

다른 팁

노력하다 lynx --dump <url> 웹 페이지를 다운로드합니다.문제가 있는 HTML 태그는 모두 출력에서 ​​제거되고 페이지의 모든 링크가 함께 나타납니다.

당신이하려는 것은 호출됩니다 스크래핑 또는 웹 스크래핑.

당신이 일부를한다면 검색 ~에 파이썬과 스크래핑, 당신은 목록을 찾을 수 있습니다 도구 도움이 될 것입니다.

(나는 스크레이프를 사용한 적이 없지만 사이트는 유망 해 보인다 :)

아름다운 수프는 똑똑하지 않습니다. 여기에서 시작할 수있는 사이트가 있습니다 http://www.churchangel.com/. 그들은 거대한 목록을 가지고 있으며 형식은 매우 규칙적입니다. 번역 : BSOUP을 쉽게 설정하기 쉽습니다.

지리적 지역에서 교회의 연설을 찾고 있다면 파이썬 스크립트 가이 직업에 가장 적합한 도구가 아닐 수도 있습니다.

미국 인구 조사는 지리 정보 시스템과 함께 사용할 교회 데이터 세트를 제공합니다. 모든 것을 찾는 경우 x 공간 영역에서는 반복되는 문제가 있는데, GIS 학습에 투자하십시오. 그런 다음 많은 지리적 작업을 수행하기 위해 파이썬 기술을 가져올 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top