웹페이지를 컬하거나 웹페이지로 가져오는 방법은 무엇입니까?

문제

내 질문, 답변, 순위 등에 대한 변경 요약을 볼 수 있도록 stackoverflow 페이지를 가져와 전날 페이지와 비교하는 야간 크론 작업을 만들고 싶습니다.

불행하게도 이 작업을 수행하는 데 적합한 쿠키 세트 등을 얻을 수 없었습니다.어떤 아이디어가 있나요?

또한, 베타가 종료되면 로그인 없이 상태 페이지에 액세스할 수 있나요?

해결책

이제 로그인 없이 귀하의 상태 페이지를 사용할 수 있습니다(클릭 로그 아웃 그리고 시도해 보세요).베타 쿠키가 비활성화되면 귀하와 귀하의 상태 페이지 사이에는 아무 것도 존재하지 않습니다.

wget의 경우:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

다른 팁

그리고 여기에 작동하는 것이 있습니다 ...

컬 -s --쿠키 소바=. https://stackoverflow.com/users

그리고 wget의 경우:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

좋은 생각 :)

나는 당신이 wget을 사용한 것 같아요

--load-cookies (filename)

약간 도움이 될 수 있지만 좋은 스파이더를 얻기 위해 브라우저를 더 완벽하게 모방하기 위해 Mechanize(Perl 또는 Python)와 같은 것을 사용하는 것이 더 쉬울 수 있습니다.

쿠키가 작동하도록 하는 방법도 알 수 없었지만 로그아웃한 동안 브라우저에서 상태 페이지에 접근할 수 있었기 때문에 stackoverflow가 공개되면 이것이 작동할 것이라고 가정합니다.

이것은 흥미로운 아이디어입니다. 하지만 기본 HTML 코드의 차이점도 살펴보지 않으시겠습니까?실제 콘텐츠가 아닌 HTML의 차이로 끝나지 않도록 하는 전략이 있습니까?

그리고 여기에 작동하는 것이 있습니다 ...

curl -s --cookie soba=. http://stackoverflow.com/users

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow