Wikipedia 페이지의 하위 집합을 어떻게 얻을 수 있습니까?
-
19-09-2019 - |
문제
Wikipedia의 페이지의 하위 집합 (100MB)을 어떻게 얻습니까? 전체 데이터 세트를 XML로 얻을 수 있지만 1 또는 2 공연과 비슷합니다. 나는 그렇게 많이 필요하지 않습니다.
맵-유도 알고리즘 구현을 실험하고 싶습니다.
만약 내가 어디에서나 100 메가 상당의 텍스트 샘플 데이터를 찾을 수 있다면 좋을 것입니다. 예를 들어 스택 오버 플로우 데이터베이스는 사용 가능한 경우 크기가 좋을 것입니다. 나는 제안에 열려 있습니다.
편집 : 급류가 아닌 사람이 있습니까? 나는 그것들을 직장에서 얻을 수 없다.
해결책
StackoverFlow 데이터베이스를 사용할 수 있습니다 다운로드.
다른 팁
Chris, 100MB의 웹 페이지를 얻을 때까지 Wikipedia "Random Page"링크를 누르기 위해 작은 프로그램을 작성할 수 있습니다. http://en.wikipedia.org/wiki/special:random. 받을 수있는 중복을 버리고 싶을 때 분당 요청 수를 제한하고 싶을 수도 있습니다 (기사의 일부는 Wikipedia 서버가 아닌 중간 웹 캐시에 의해 제공됩니다). 그러나 매우 쉬워야합니다.
stackoverflow 데이터베이스 사본을 받고 싶다면 Creative Commons 데이터 덤프.
호기심 으로이 모든 데이터를 사용하고 있습니까?
한 가지 옵션은 전체 Wikipedia 덤프를 다운로드 한 다음 그 일부만 사용하는 것입니다. 전체를 압축 한 다음 간단한 스크립트를 사용하여 파일을 작은 파일로 분할 할 수 있습니다 (예 : 여기), 또는 디스크 공간에 대해 걱정이된다면, 즉시 압축을 내고 나누는 스크립트를 작성하고 원하는 모든 단계에서 압축 압축 공정을 중지 할 수 있습니다. Wikipedia 덤프 리더 파이썬에 익숙하다면 (mparser.py를 참조하십시오), 탈 감압 및 가공에 대한 영감을받을 수 있습니다.
전체를 다운로드하고 싶지 않다면 스카핑 옵션이 남아 있습니다. 그만큼 수출 기능 이에 도움이 될 수 있습니다 Wikipediabot 이 맥락에서도 제안되었습니다.
웹 크롤러를 사용하고 100MB의 데이터를 긁어 낼 수 있습니까?
사용 가능한 Wikipedia 덤프가 많이 있습니다. 가장 큰 (영어 위키)를 선택하고 싶은 이유는 무엇입니까? Wikinews 아카이브는 훨씬 작습니다.
Wikipedia 기사의 작은 하위 집합은 '메타'위키 기사로 구성됩니다. 이것은 전체 기사 데이터 세트와 동일한 XML 형식이지만 (2019 년 3 월 기준 약 400MB) 소프트웨어 검증 (예 : Gensim 스크립트 테스트)에 사용할 수 있습니다.
https://dumps.wikimedia.org/metawiki/latest/
당신은 어떤 파일을 찾고 싶습니다 -articles.xml.bz2
접미사.