質問

データの保存に適したWebクローラーを開発していますか? CassandraまたはHadoop HiveまたはMySQL?そしてその理由は、MySQL DBで過去6か月間の1TBのデータを持っています。それらをインデックス化する必要があり、検索をできるだけ早く出す必要があります。私のクローラーが速く動作しているため、10ペタバイなどのより多くのデータを保存します。読み取り/書き込み操作を速く取得する必要があります。PHPアプリに統合する必要があります

役に立ちましたか?

解決

それはあなたの要件の詳細に依存しますが、あなたの場合、HBaseが最良の選択肢だと思います。
HBaseをWeb-Crawlerデータベースとして使用することは十分に文書化されており、Bigtable Whitepaperに記載されているHBaseの使用です。

他のヒント

コンテンツに基づいてドキュメントを見つけるためのものを探しています。反転インデックスに基づいている必要があります。最も自然なフィット感はあるだろうと思います ルーセン.

参照してください この記事 ドキュメントのテラバイトを照会するためのHadoop-luceneスタックについて。

要件に依存し、ストリーミングデータのリアルタイムの高速分析の場合にHBaseを使用します。 Cassandraは、hbaseと比較して読み取りが遅いため、高速書き込みシナリオに最適です。

ハイブも良い選択肢です。改善されたハイブ性能を使用するためにインパラ。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top