巨大なデータセットの正確性を収集、維持、確保するためのベストプラクティスは何ですか？

https://stackoverflow.com/questions/4505502

12-10-2019
|

質問

私は、システムの設計方法に関する実用的なアドバイスを探してこの質問を提案しています。

Amazon.comやPandoraなどのサイトには、コアビジネスを実行するための巨大なデータセットがあります。たとえば、Amazon（および他のすべての主要なeコマースサイト）には、販売用の数百万の製品、それらの製品の画像、価格設定、仕様などがあります。

サードパーティの売り手からのデータを無視し、ユーザーはコンテンツを生成し、「スタッフ」がどこかから来なければならず、誰かによって維持されています。また、非常に詳細で正確です。どのように？どうやってやっているの？データエントリーの書記官の軍隊はありますか、それともうなり声を処理するシステムを考案しましたか？

私の会社も同様の状況にあります。私たちは、自動車部品とそれらが収まる車の巨大な（100万人の記録）カタログを維持しています。私たちはしばらくの間それに取り組んでおり、カタログを成長させ、正確に保つための多くのプログラムとプロセスを考え出しました。ただし、カタログを成長させるようですバツチームを成長させるために必要なアイテム y.

データチームの効率を高める方法をいくつか把握する必要があります。どんな提案にも感謝されていますが、もっと深刻な時間を読むことができるコンテンツへのリンクです。

解決

訪問者を使用します。

アイテムごとに1人がいる場合でも、間違った記録と顧客があります意思それを見つける。したがって、アイテムを「Inpropiate」としてマークし、短いコメントをします。しかし、忘れないでください、彼らはあなたの従業員ではありません、彼らにあまり尋ねないでください。 Facebookの「いいね」ボタンを参照してください。使いやすく、ユーザーからのエネルギーはあまり必要ありません。良いパフォーマンス/価格。 Facebookに「なぜあなたはそれが好きなのか」と尋ねる必須フィールドがある場合、誰もその機能を使用すべきではありません。
また、訪問者はInfliciteの方法を支援します。アイテムページにアクセスし、検索機能を使用します（Googleのような内部検索エンジンと外部の両方のエンジンの両方を意味します）。訪問者のアクティビティから情報を得ることができます。たとえば、最も訪問されたアイテムの順序を設定してから、リストの一番上に人間の力を集中させ、「ロングテール」のためには少なくする必要があります。

他のヒント

これは、実装よりもチーム/コード/データの管理に関するものであり、Amazonに言及したので、これは便利だと思います。 http://highscalability.com/amazon-architecture.

特に、Werner Vogelsのインタビューへのリンクをクリックします。

そもそも正しく構築します。必要に応じて、使用しているデータベースで利用可能なすべての整合性チェック方法を使用してください。悪いデータが静かに導入されるよりも、アップロードが失敗する方が良いでしょう。

次に、あなた自身の整合性チェックに関してあなたが何をするかを理解します。 DB整合性チェックは良いスタートですが、必要なのはめったにありません。それはまた、最初から、どのタイプのデータを使用しているか、どのように保存する必要があるか、悪いデータを認識してフラグを立てたり拒否したりする方法について考えるように強制されます。

ゴミデータでいっぱいの古いシステムを作り直しようとすることで見た痛みの量をあなたに伝えることはできません。それを正しく行い、前もって徹底的にテストすることは痛みのように思えるかもしれませんが、それはそうかもしれませんが、報酬は、ほとんどの場合、介入をほとんど、またはまったく必要としないシステムを持っていることです。

リンクに関しては、スケーラビリティのために考えて設計しなければならない人がいる場合、それはGoogleです。あなたはこの有益なものを見つけるかもしれません、それは心に留めておくべきいくつかの良いことを持っています： http://highscalability.com/google-architecture

マスターデータ管理提案されているもののもう1つの選択肢です。ここ Microsoftの記事「What、Why、およびMaster Data Managementの方法」です。データスチュワード企業のデータの正確性を維持する権利/責任が与えられます。

規模を拡大する主な能力は、情報を管理できる人だけではないように、テクノロジーをビジネスに合わせることです。ツールとプロセス/手順により、ビジネスオーナーはエンタープライズデータの管理を支援できます。

サプライヤーと日付を共有します。その後、データは一度入力されます。

それが重要であれば、一度行う必要があります。

私はデータマイニングに多額の投資をします。販売しようとしている製品について、できるだけ多くのフィードを取得します。ベンダーから、およびMitchellやHaynesなどの自動車修理会社から車両の直接の飼料を入手してください。

必要な部品がわかったら、それらの部品番号をインターネットで利用可能な部品番号と相互に相関させます。また、これらの部品番号を画像、レビュー、記事と相互に相関させます。 1つのページでできるだけ多くの情報を集約し、最終的にそのページをGoogleによってインデックスを作成することを試みます。

データ集約の結果に基づいて、各製品に一連の重みを割り当てます。重量の価値に基づいて、結果を従業員に渡し、サプライヤーと価格を交渉するか、ページを作成してソースへのリンク（手数料を受け取ると仮定）、または部品を売却しないでください。

1つの場所に十分な製品があると、ウェブサイトに追加の製品を追加したい他の人をサポートできます。 Amazonで利用可能なリソースの幅は、サードパーティの売り手をサポートし、それらの売り手がAmazonのWebサイトにリストできるようにするため、大部分があります。

特に自動車産業では、特定のコンポーネントを置き換えようとしている人々がGoogleが見つけられるだけでなく、論理的に見つけられる高品質のインデックス作成の大きな価値があると思います。また、購入に関心のあるコンポーネントに基づいて、IPジオロケーションを介してロケーション固有のサービスの販売/提供を検討することもできます。

Googleのようなサイトで管理されているデータの多くは、ユーザーからのものです。私は自分のデータを入力し、その正確性について責任を負います。サイトにはデータがあり、Webからキャプチャされます。検索データは検索からキャプチャされます。これは、あなたが試みていることとは大きく異なる可能性があります。 Googleスタッフがそれを行うためにはほとんど要件はありません。

メーカーの飼料と協力することで、あなたの努力が集中的ではなくなる可能性があります。トレードオフは、データ変換ソフトウェアに投資しています。各相互参照のソースをキャプチャすることができます。これにより、更新を取得するとリロードが容易になります。

私の経験から、あなたはまた、相互参照が一方向であるかもしれないという問題を抱えています。 AはBを交換できますが、BはAを置き換えることはできません。

手動入力がある限り、エラーが発生します。これらのエラーを検出するためにインターフェイスでできることはすべて、努力する価値があります。スタッフへの入力量は線形にスケーリングする必要があります。

注意サイクルに関する研究を確認して、入力および検証プロセスの品質を向上させるために何かをすることができるかどうかを判断します。セキュリティスキャンの最近の調査では、検証データに定期的なエラーを生成することができることが示されています。

他の人が指摘しているように、ユーザーがエラーのフラグを立てやすくすることをお勧めします。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow