문제

Google의 금융 API는 불완전합니다.

http://www.google.com/finance?fstype=ii&q=nyse:ge

API를 통해 사용할 수 없습니다.

Google 검색을 통해 "Greenblatt Index Scans"를 통해 이용할 수있는 Greenblatt의 공식에 따라 캐나다 증권 거래소에서 회사를 순위하기 위해이 데이터가 필요합니다.

내 질문 :이 웹 페이지에서 데이터에 액세스하고 처리하는 가장 지능적이고 깨끗하고 효율적인 방법은 무엇입니까? 이 경우 지루한 접근 방식이 실제로 필요한가? 그렇다면 가장 좋은 방법은 무엇입니까? 저는 현재이 프로젝트와 관련된 프로젝트를 위해 Python을 배우고 있습니다.

도움이 되었습니까?

해결책

Google에 누락 된 API를 제공하도록 요청할 수 있습니다. 그렇지 않으면, 당신은 갇혀 있습니다 화면 스크래핑, 그것은 결코 재미 있고, 통지없이 깨지기 쉬우 며, Google의 서비스 약관을 위반할 가능성이 높습니다.

그러나 여전히 스크린 스크레이퍼를 쓰고 싶다면 기계화 그리고 BeautifulSoup. BeautifulSoup은 HTML 파서이며 Mechanize는 파이썬 기반 웹 브라우저로 로그인하고 쿠키를 저장하며 일반적으로 다른 웹 브라우저와 마찬가지로 탐색 할 수 있습니다.

다른 팁

BeautifulSoup 파이썬을 사용한 HTML 파싱의 선호하는 방법이 될 것입니다.

Google (예 : Yahoo Finance API) 외에 옵션을 살펴 보셨습니까?

웹 페이지를 스크래핑하는 것은 항상 짜증나지만 XML (Tidy 또는 다른 HTML -> XML 프로그램을 통해)으로 변환 한 다음 XPath를 사용하여 관심있는 노드를 걸어 보는 것이 좋습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top