潜在的セマンティックインデックス(LSI)は統計的分類アルゴリズムですか?
-
06-07-2019 - |
質問
潜在意味索引付け(LSI)は統計的分類アルゴリズムですか?なぜですか?
基本的に、統計分類のためのウィキペディアページがそうする理由を理解しようとしています。 LSIは言及しません。私はこのようなことを始めたばかりで、何かを分類するためのさまざまなアプローチが互いにどのように関連しているかを確認しようとしています。
解決
いいえ、まったく同じではありません。統計分類の目的は、アイテムをできる限りきれいにカテゴリに分類することです。たとえば、アイテムXがグループAまたはグループBのアイテムに似ているかどうかを明確に判断します。
LSIは、アイテムの類似度または相違度を示し、主に、指定されたアイテムとの類似度を示すアイテムを見つけます。これは類似ですが、まったく同じではありません。
他のヒント
LSI / LSAは、最終的には次元削減の手法であり、通常は最近傍アルゴリズムと組み合わせて分類システムにします。したがって、それ自体が、「インデックス付け」の唯一の方法です。 SVDを使用した低次元のデータ。
ウィキペディアのLSI について読みましたか?マトリックスの因数分解( SVD )を使用していると言われています。 / p>
機械学習の主な違いは、「教師あり」とおよび「監視なし」モデリング。
通常、「統計的分類」という言葉監視対象モデルを参照しますが、常にではありません。
教師ありメソッドでは、トレーニングセットには「グラウンドトゥルース」が含まれます。予測するモデルを作成するラベル。モデルを評価するときの目標は、評価時には得られない真のラベル(またはその確率分布)での最良の推測を予測することです。多くの場合、パフォーマンスメトリックがあり、正解と不正解の違いは明らかです。
教師なし分類法は、複雑な方法で変化しているように見える多数のデータポイントを、少数の「類似」にクラスタリングしようとします。カテゴリー。各カテゴリのデータは、何らかの「興味深い」または「深い」方法で類似している必要があります。 「グランドトゥルース」がないため、 「正しいか間違っているか」を評価することはできませんが、「もっと」対「より少ない」面白さまたは有用性を評価できます。
同様に評価時間は、潜在的なクラスターの1つに新しい例を配置するか(鮮明な分類)、「アーキタイプ」のように似ているか異なる外観を定量化する何らかの種類の重みを与えることができます。クラスターの。
したがって、いくつかの点で、教師ありモデルと教師なしモデルは、クラス/クラスターラベルの予測である「予測」であるものを生成できますが、本質的に異なります。
多くの場合、教師なしモデルの目標は、後続の教師付きモデルに、よりインテリジェントで強力にコンパクトな入力を提供することです。