대용량 데이터 세트

https://stackoverflow.com/questions/12880

08-06-2019
|

문제

난 항상 찾고 큰 데이터 세트를 테스트하는 다양한 종류의 프로그램이다.누군가가 어떤 제안이 있는가?

해결책

체크아웃 대회 넷플릭스.나는 그들이 노출되는 자신의 데이터베이스,또는 큰 하위 집합을 촉진하기 위하여 경연 대회입니다.

업데이트: 자 faq 말 그들이 100 백만개의 입에서 일부 다운로드할 수 있습니다.

다른 팁

할 수 있습을 보 데이터에 대한 미국의 통계 협회 데이터 엑스포 -그것은에 항공편 정보를 위해 모든 상업적인 항공편에서 우리를 위해 지난 20 년 동안-120 만 달러를 기록,11 공연의 데이터입니다.

나는 몇 가지 작업 Wikimedia 다운로드 세트,거대한 XML 파일이 있습니다.불행하게도,그들의 다운로드 서버로 나타나 현재는 디스크 공간을 많은 문제의 데이터 세트를 사용할 수 없습니다.그러나 사용할 때,전체 영어 위키백과 데이터 세트 전체 역사 2.8TB(18GB 압축).

의 번호 del.icio.미국 사용자는(나 자신을 포함하여)태그를 포함하는 페이지 공용 데이터를 사용하는"publicdata"태그입니다.을 찾을 수 있습는 아카이브 기 고 subscribe to RSS 피드는 태그 기.가입을 공급하고 당신의 꾸준한 스트림에 흥미있는 데이터는 웹에 있습니다.

모든 사람의 데이터 집합은 큰이지만,그들은 자주 흥미롭습니다.

당신은 수도에서 보고 싶은 생성하는 임의의 데이터 털 테스트.는 당신에게 아주 많은 무제한 금액의 테스트 데이터는,당신은 더 많은 가능성이 충돌하 edge 경우입니다.

어쩌면 더 많은 정보에 어떤 종류의 시험 데이터의 당신이 원하는 형식,그리고 무엇을 위해 형식의 응용 프로그램은 무엇입니까?

I don't know what 의 타겟 플랫폼입니다,하지만 경우에 당신은 개발에 대해 MSSQL 데이터베이스 확인 Visual Studio 를 위한 데이터베이스 전문가.그것은 매우 멋진 기능을 수 있는 데이터 생성을 위한 당신의 스키마를 사용하여 데이터 플랜을 정의할 수 있습니다.

레드 게이트도 있 datageneration 도구지만,나는 사용하지 않았습니다.

이점을 만들 수 있다는 것입 데이터 생성 계획을 사용하여 그것을 채우는 데이터베이스로 일관성,대량의 데이터 튜닝할 수 있는 테스트의 특정 지역에 당신의 스키마.

할 수도 있습 확인 theinfo 아론 Swartz.

사이트에서

이 사이트에 대한 큰 데이터 세트 그들을 사랑하는 사람들:스크레이퍼 크롤러 사람이 그들을 수집 학사과 괴짜가 프로세스들 디자이너들과 예술인들 시각화하는 그들.그것은 장소 그들이 할 수 있 exchange tips and tricks, 을 개발하고 공유하기 위한 도구를 함께,고 시작하는 통합정 프로젝트입니다.

에 관심이 있는 경우 맞춤 데이터의 유형은 당신이 있어요,체크 아웃 기모노 Labs.그것은 웹 긁어 소프트웨어를 사용할 수 있습을 긁어 모든 사이트에 대한 무료 없이 행 반환 한계입니다.다만 설정한 API 에 그것은(당신이 사용할 수 있습 url 발전기를 긁어 무리의 url 은 한 번에)그리고 활용하는 귀하의 개인 데이터 집합 JSON 으로,CSV,또는 RSS.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow