문제

Wikipedia의 페이지의 하위 집합 (100MB)을 어떻게 얻습니까? 전체 데이터 세트를 XML로 얻을 수 있지만 1 또는 2 공연과 비슷합니다. 나는 그렇게 많이 필요하지 않습니다.

맵-유도 알고리즘 구현을 실험하고 싶습니다.

만약 내가 어디에서나 100 메가 상당의 텍스트 샘플 데이터를 찾을 수 있다면 좋을 것입니다. 예를 들어 스택 오버 플로우 데이터베이스는 사용 가능한 경우 크기가 좋을 것입니다. 나는 제안에 열려 있습니다.

편집 : 급류가 아닌 사람이 있습니까? 나는 그것들을 직장에서 얻을 수 없다.

도움이 되었습니까?

해결책

StackoverFlow 데이터베이스를 사용할 수 있습니다 다운로드.

다른 팁

Chris, 100MB의 웹 페이지를 얻을 때까지 Wikipedia "Random Page"링크를 누르기 위해 작은 프로그램을 작성할 수 있습니다. http://en.wikipedia.org/wiki/special:random. 받을 수있는 중복을 버리고 싶을 때 분당 요청 수를 제한하고 싶을 수도 있습니다 (기사의 일부는 Wikipedia 서버가 아닌 중간 웹 캐시에 의해 제공됩니다). 그러나 매우 쉬워야합니다.

stackoverflow 데이터베이스 사본을 받고 싶다면 Creative Commons 데이터 덤프.

호기심 으로이 모든 데이터를 사용하고 있습니까?

한 가지 옵션은 전체 Wikipedia 덤프를 다운로드 한 다음 그 일부만 사용하는 것입니다. 전체를 압축 한 다음 간단한 스크립트를 사용하여 파일을 작은 파일로 분할 할 수 있습니다 (예 : 여기), 또는 디스크 공간에 대해 걱정이된다면, 즉시 압축을 내고 나누는 스크립트를 작성하고 원하는 모든 단계에서 압축 압축 공정을 중지 할 수 있습니다. Wikipedia 덤프 리더 파이썬에 익숙하다면 (mparser.py를 참조하십시오), 탈 감압 및 가공에 대한 영감을받을 수 있습니다.

전체를 다운로드하고 싶지 않다면 스카핑 옵션이 남아 있습니다. 그만큼 수출 기능 이에 도움이 될 수 있습니다 Wikipediabot 이 맥락에서도 제안되었습니다.

웹 크롤러를 사용하고 100MB의 데이터를 긁어 낼 수 있습니까?

사용 가능한 Wikipedia 덤프가 많이 있습니다. 가장 큰 (영어 위키)를 선택하고 싶은 이유는 무엇입니까? Wikinews 아카이브는 훨씬 작습니다.

Wikipedia 기사의 작은 하위 집합은 '메타'위키 기사로 구성됩니다. 이것은 전체 기사 데이터 세트와 동일한 XML 형식이지만 (2019 년 3 월 기준 약 400MB) 소프트웨어 검증 (예 : Gensim 스크립트 테스트)에 사용할 수 있습니다.

https://dumps.wikimedia.org/metawiki/latest/

당신은 어떤 파일을 찾고 싶습니다 -articles.xml.bz2 접미사.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top