문제

간단한 웹 스크레이퍼를 만들고 있다면 (루트 URL에서 모든 링크를 가져 오면 해당 링크에서 모든 이메일을 잡는 경우) HTML 민첩성 팩을 사용하는 것이 가치가 있습니까? 실제로 HTML 태그를 살펴 보지 않고 전체 문서 내에서 이메일을 스캔하려고합니다.

HTML 민첩성 팩을 사용하는 것이 더 효율적입니까?

이 이메일이 필요하고 약 100 개의 링크가 필요하기 때문에 엄격하게 벗겨냅니다. 약 500 개의 이메일 만 긁습니다. 걱정하지 마십시오. 여기서 윤리를 염두에두고 있습니다.

도움이 되었습니까?

해결책

이것에 대해 많은 질문이 있습니다. 제가 읽은 대부분의 사람들은 웹 스크래핑에 정기적 인 표현식을 사용하지 마십시오.

반면에 - 텍스트의 HTML 특성에 관계없이 텍스트 구문 분석이 필요한 경우 (내가 당신을 올바르게 이해하면) 일반 표현식을 사용하는 것이 더 나을 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top