テストデータから新しいクラスを作成する方法
質問
データセットとしてアカウントのリストがあり、多くの機能を使用して同じユーザーを参照するアカウントをグループ化する必要があります。
トレーニングデータセットの各アカウントのグループを知っているため、機械学習を使用することを考えています(ただし、このドメインは新しいです)。
トレーニングデータの元:
account-id Feature1 Feature2 class(Group)
1 T1 P4 Gr1
2 T2 P4 Gr1
3 T3 P2 Gr2
問題は、データのテストと、トレーニングセットで以前に学習しなかった新しいグループの新しいアカウントが到着したときです。
テストデータのEX:
account-id Feature1 Feature2
4 T5 P5
5 T6 P5
6 T3 P2
テストデータのグループは次のとおりである必要があります。
account-id Feature1 Feature2 class(Group)
4 T5 P5 Gr3
5 T6 P5 Gr3
6 T3 P2 Gr2
アカウント4と5は、トレーニングデータで以前に学習されていない新しいグループ(GR3)にあります。
私の質問は、学習フェーズで以前に定義されていない新しいクラスの下に新しいデータをグループ化できる方法です。そして、この問題を解決するためにどのアルゴリズムを使用できますか?
解決
あなたは読む必要があると思います オンライン学習, 、新しいデータが常に追加されていることを学習することを指します。これらの場合、新しいデータが到着するにつれて自分自身を更新できるアルゴリズムが必要です(つまり、ゼロから再計算する必要はありません)。言い換えると、 徐々に.
サポートベクターマシン(SVM)およびニューラルネットワーク用の増分バージョンがあります。また、ベイジアンネットワークを徐々に作業させることができます。
所属していません datascience.stackexchange