テストデータから新しいクラスを作成する方法

https://datascience.stackexchange.com/questions/8784

16-10-2019
|

質問

データセットとしてアカウントのリストがあり、多くの機能を使用して同じユーザーを参照するアカウントをグループ化する必要があります。

トレーニングデータセットの各アカウントのグループを知っているため、機械学習を使用することを考えています（ただし、このドメインは新しいです）。
トレーニングデータの元：

account-id   Feature1    Feature2    class(Group)
1            T1          P4          Gr1
2            T2          P4          Gr1
3            T3          P2          Gr2

問題は、データのテストと、トレーニングセットで以前に学習しなかった新しいグループの新しいアカウントが到着したときです。
テストデータのEX：

account-id   Feature1   Feature2
4             T5         P5
5             T6         P5
6             T3         P2

テストデータのグループは次のとおりである必要があります。

account-id   Feature1   Feature2   class(Group)
4             T5         P5         Gr3
5             T6         P5         Gr3
6             T3         P2         Gr2

アカウント4と5は、トレーニングデータで以前に学習されていない新しいグループ（GR3）にあります。

私の質問は、学習フェーズで以前に定義されていない新しいクラスの下に新しいデータをグループ化できる方法です。そして、この問題を解決するためにどのアルゴリズムを使用できますか？

解決

あなたは読む必要があると思いますオンライン学習, 、新しいデータが常に追加されていることを学習することを指します。これらの場合、新しいデータが到着するにつれて自分自身を更新できるアルゴリズムが必要です（つまり、ゼロから再計算する必要はありません）。言い換えると、 徐々に.

サポートベクターマシン（SVM）およびニューラルネットワーク用の増分バージョンがあります。また、ベイジアンネットワークを徐々に作業させることができます。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange