質問
私は、さまざまな種類のプログラムをテストするための大規模なデータ セットを常に探しています。誰か何か提案はありますか?
解決
をチェックしてください ネットフリックスコンテスト. 。彼らはコンテストを促進するためにデータベース、または大規模なサブセットを公開したと思います。
アップデート: よくある質問 ダウンロードできるサブセットには 1 億のエントリがあると述べています。
他のヒント
アメリカ統計協会のデータを見てみるのもいいでしょう。 データエキスポ - 過去 20 年間の米国のすべての商用便のフライト詳細 - 1 億 2,000 万件のレコード、11 ギガのデータ。
私はいくつかの仕事をしました ウィキメディア ダウンロード セットは巨大な XML ファイルです。残念ながら、ダウンロード サーバーには現在ディスク容量の問題があるようで、多くのデータ セットが利用できません。ただし、利用可能な場合、完全な履歴を含む英語版 Wikipedia データ セット全体は 2.8 TB (圧縮すると 18 GB) になります。
ランダムデータの生成を検討してみるとよいでしょう。 ファズテスト. 。そうすれば、ほぼ無制限の量のテストデータが得られるため、エッジケースに遭遇する可能性が高くなります。
どのような種類のテスト データが必要か、どの形式、どのような種類のアプリケーション向けかについて、さらに詳しい情報をお聞かせください。
ターゲット プラットフォームが何であるかはわかりませんが、MSSQL データベースに対して開発している場合はチェックしてください。 データベースプロフェッショナルのための Visual Studio. 。これには、定義できるデータ プランを使用してスキーマのデータを生成できる非常に優れた機能があります。
Redgate にもデータ生成ツールがありますが、私は使用したことがありません。
利点は、データ生成計画を作成し、それを使用してデータベースに一貫した大量のデータを入力し、スキーマの特定の領域をテストするように調整できることです。
こちらもチェックしてみてはいかがでしょうか 情報 アーロン・スワーツ著。
サイトから
これは、大規模なデータセットとそれらを愛する人々のためのサイトです。それらを収集するスクレーパーとクローラー、それらを処理する学者とオタク、それらを視覚化するデザイナーとアーティスト。これは、ヒントやトリックを交換し、ツールを開発して共有し、特定のプロジェクトの統合を開始できる場所です。
取得するデータの種類をカスタマイズすることに興味がある場合は、次を確認してください。 キモノラボ. 。これは、返される行の制限なしで、ほぼすべてのサイトを無料でスクレイピングするために使用できる Web スクレイピング ソフトウェアです。API を設定するだけで (URL ジェネレーターを使用して、一度に大量の URL を収集できます)、個人データセットを JSON、CSV、または RSS として利用します。