문제

가능한 중복:
Javascript가 많이 포함된 웹페이지에서 화면 스크래핑

양식 입력, 웹 스크래핑 등의 작업을 하고 싶지만 자바스크립트 지원이 필요한 사이트에서는 할 수 없습니다.그리고 같은 세션에서 양식 입력, 스크랩 등도 해야 합니다.이상적으로는 명령줄에서 웹 브라우저를 제어할 수 있는 방법을 원합니다.그리고 이 모든 작업에는 Linux만 사용하고 싶기 때문에 .NET을 사용할 수 없습니다.

Python용 웹브라우저 라이브러리를 찾았지만 그 기능은 매우 제한적으로 보입니다.그것이 mechanize 및 BeautifulSoup과 인터페이스할 수 있다면 정말 놀라운 일이 될 것입니다.어떤 제안이 있으십니까?감사해요!

도움이 되었습니까?

해결책

웹 브라우저를 스크립트하는 Mozilla(Firefox, Xulrunner 등으로 실행)를 사용하여 XUL 애플리케이션을 작성할 수도 있습니다.이러한 작업에는 일반적으로 Javascript가 사용됩니다.

내가 발견한 까다로운 점은 브라우저가 생성할 모든 종류의 대화 상자를 억제하는 것입니다. 각 대화 유형에 대해 호출되는 XPCOM 서버 클래스의 동작을 효과적으로 재정의해야 하며, 여기에는 다양한 대화 상자가 있습니다. (예를 들어 사이트가 만료된 인증서를 사용하여 https 사이트로 리디렉션하기로 결정한 경우)

물론 로봇 사용에 대한 사이트 정책을 위반하기 위해 이러한 메커니즘을 사용해서는 안 됩니다.일반적으로 로봇을 사용하여 양식을 제출하면 안 됩니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top