Вопрос

У меня есть список учетных записей в качестве набора данных, и мне нужно группировать учетные записи, которые относятся к тому же пользователю, использующему множество функций.

Я думаю использовать машинное обучение (но я новичок в этом домене), потому что я знаю группу каждой учетной записи для набора данных обучения.
бывший обучающий данные:

account-id   Feature1    Feature2    class(Group)
1            T1          P4          Gr1
2            T2          P4          Gr1
3            T3          P2          Gr2

Проблема заключается в тестировании данных и когда новая учетная запись прибывает для новой группы, не изученной ранее в учебном наборе.
бывший тестирование данных:

account-id   Feature1   Feature2
4             T5         P5
5             T6         P5
6             T3         P2

Группы данных тестирования должны быть следующими:

account-id   Feature1   Feature2   class(Group)
4             T5         P5         Gr3
5             T6         P5         Gr3
6             T3         P2         Gr2

Учетные записи 4 и 5 находятся в новой группе (GR3), которая ранее не изучена в учебных данных.

У меня вопрос, как я мог сгруппировать новые данные под новым классом, который ранее не определен на этапе обучения? И какой алгоритм я могу использовать для решения этой проблемы?

Это было полезно?

Решение

Я думаю, тебе нужно прочитать о Онлайн обучение, Это относится к обучению, когда новые данные постоянно добавляются. В этих случаях вам нужен алгоритм, который может обновляться по мере появления новых данных (т.е. ему не нужно пересчитываться с нуля). Другими словами, постепенно.

Существуют постепенные версии для вспомогательных векторных машин (SVM) и для нейронных сетей. Кроме того, байесовские сети могут быть сделаны для работы постепенно.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top