문제

나는이 거미를 몇 주 동안 쓰려고 노력했지만 성공하지 못했습니다. 파이썬에서 이것을 코딩하는 가장 좋은 방법은 무엇입니까?

1) 초기 URL : http://www.whitecase.com/Attorneys/List.aspx?LastName=A

2) 초기 URL 에서이 REGEX를 사용하여 이러한 URL을 선택하십시오.

hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+')

[u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairisto', u
/zalbert', u'/salberts', u'/aaleksandrova', u'/malhadeff', u'/nalivojvodic', u'
....

3)이 각 URL로 이동 하여이 REGEX로 학교 정보를 긁어냅니다.

hxs.select('//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)'

[u'JD, ', u'University of Florida Levin College of Law, <em>magna cum laude</em> , Order of the Coif, Symposium Editor, Florida Law Review, Awards for highest grades in Comparative Constitutional History, Legal Drafting, Real Property and Sales, ', u'2007']

4) 스크랩 된 학교 정보를 학교에 쓰기 .csv 파일

이 거미를 파이썬으로 쓰도록 도와 줄 수 있습니까? 나는 그것을 스크레이프로 쓰려고 노력했지만 성공하지 못했습니다. 내 이전을 참조하십시오 의문.

고맙습니다.

도움이 되었습니까?

해결책

http://www.ibm.com/developerworks/linux/library/l-spider/ 좋은 설명이있는 IBM 기사

또는

http://code.activestate.com/recipes/576551/ 파이썬 요리 책, 더 나은 코드이지만 설명이 적습니다

다른 팁

또한 읽는 것이 좋습니다.

XHTML 자체 포함 태그를 제외한 REGEX는 열린 태그를 일치시킵니다

정규 표현식으로 HTML을 구문 분석하려고합니다. 그런 다음 누군가의 이름이 처음으로 페이지를 라틴어 1 대신에 유니 코드로 강제 할 때 어떤 일이 발생하는지 생각해보십시오.

편집 : 파이썬에서 사용할 라이브러리에 대한 질문에 답하기 위해 아름다운 수프, 이것은 훌륭한 HTML 파서이며 전반적으로 유니 코드를 지원합니다 (그리고 오르플 링 된 HTML을 사용하여 정말 좋은 일을합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top