웹 페이지에서 텍스트를 잡습니다

문제

버스 정류장 시간을 찾아 내 개인 웹 페이지를 그에 따라 업데이트하는 프로그램을 작성하고 싶습니다.

내가 수동으로 그렇게한다면 나는 그렇게 할 것이다

결과는 다음과 같을 수 있습니다.

10 : 16p Route 154
10 : 46p Route 154
11 : 32p Route 154

시간과 경로를 잡으면 웹 페이지를 그에 따라 업데이트합니다.

어디서부터 시작 해야할지 모르겠습니다. 나는 웹 프로그래밍에 대해 Didly Squat를 알고 있지만 C와 Python을 쓸 수 있습니다. 내가 살펴볼 수있는 몇 가지 주제/도서관은 무엇입니까?

해결책

아름다운 수프 웹 페이지를 구문 분석 용으로 설계된 파이썬 라이브러리입니다. 그것과 urllib2 (urllib.request 파이썬에서 3) 필요한 것을 파악할 수 있어야합니다.

다른 팁

당신이 묻는 것은 "웹 스크래핑"이라고합니다. Google 주위에 물건을 찾을 수 있을지 확신하지만 핵심 개념은 웹 사이트에 대한 연결을 열고 HTML에서 Slurp, 구문 분석하고 원하는 청크를 식별하려는 것입니다.

그만큼 파이썬 위키 이것에 대해 많은 것들이 있습니다.

C로 쓰기 때문에 체크 아웃 할 수 있습니다. 곱슬 곱슬하다; 특히 Libcurl을 살펴보십시오. 훌륭합니다.

Python에 사용할 수있는 Mechanize 라이브러리를 사용할 수 있습니다. http://wwwsearch.sourceforge.net/mechanize/

Perl을 사용하여 작업을 완료 할 수 있습니다.

use strict;
use LWP;

my $browser = LWP::UserAgent->new;

my $responce = $browser->get("http://google.com");
print $responce->content;

귀하의 Responce 객체는 페이지의 내용을 반환 할뿐만 아니라 Suceed the Sucense를 알려줄 수 있습니다.이 동일한 라이브러리를 사용하여 페이지에 게시 할 수도 있습니다.

해당 사이트는 필요한 적절한 데이터를 얻을 수 있도록 API를 제공하지 않습니다. 이 경우 CURL 요청과 같이 실제 HTML 페이지를 구문 분석해야합니다.

이것은 ... 불리운다 웹 스크래핑, 심지어 그것은 심지어 자체가 있습니다 위키 백과 기사 더 많은 정보를 찾을 수있는 곳.

또한 이에 대한 자세한 내용은 찾을 수 있습니다 그래서 토론.

웹 페이지의 레이아웃이 정기적으로 변경되지 않는 한, 현대적인 프로그래밍 언어로 HTML을 구문 분석 할 수 있어야합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow