CassandraまたはHadoop Hiveまたはmysql?
質問
データの保存に適したWebクローラーを開発していますか? CassandraまたはHadoop HiveまたはMySQL?そしてその理由は、MySQL DBで過去6か月間の1TBのデータを持っています。それらをインデックス化する必要があり、検索をできるだけ早く出す必要があります。私のクローラーが速く動作しているため、10ペタバイなどのより多くのデータを保存します。読み取り/書き込み操作を速く取得する必要があります。PHPアプリに統合する必要があります
解決
それはあなたの要件の詳細に依存しますが、あなたの場合、HBaseが最良の選択肢だと思います。
HBaseをWeb-Crawlerデータベースとして使用することは十分に文書化されており、Bigtable Whitepaperに記載されているHBaseの使用です。
所属していません StackOverflow