Создание обязательных комбинаций переменных для рисования случайным лесом
-
16-10-2019 - |
Вопрос
Проблема
Для моей задачи машинного обучения я создаю набор предикторов. Предикторы приходят в «пучки» - многомерные измерения (3 или 4 - размерные в моем случае).
Отверстие «пакет» имеет смысл, только если оно было измерено, и взято все вместе.
Проблема в том, что различные «пакеты» предикторов могут быть измерены только для небольшой части образца, и эти части не необходимы для пересечения для различных «пачек».
Поскольку детали невелики, вменение приводит к значительному снижению точности (катастрофически быть более точным)
Возможные решения
Я мог бы создать фиктивные переменные, которые означали бы, имело ли измерение для каждой переменной. Проблема в том, что когда случайные леса рисует случайные переменные, это происходит индивидуально.
Таким образом, есть два основных способа решения этой проблемы: 1) объединить каждый «пакет» в одного предиктора. Это возможно, но кажется, что информация будет потеряна. 2) Сделайте случайные переменные рисования леса не индивидуально, а обязательными «пучками».
Проблема для случайного леса
Поскольку случайный лес рисует переменные случайным образом, он принимает функции, которые бесполезны (или гораздо менее полезны) без других из их «пакета». У меня такое чувство, которое приводит к потере точности.
Пример
Например, у меня есть переменные a
,a_measure
, b
,b_measure
Анкет Проблема в том, переменные a_measure
имеет смысл только в том случае, если переменная a
присутствует, то же самое для b
. Анкет Так что мне нужно комбинировать a
а также a_measure
в одну переменную, или сделать случайный лес нарисовать оба, в случае, если по крайней мере один из них вытянет.
Вопрос
Каковы наилучшие решения для проблем, когда различные наборы предикторов измеряются для небольших частей общей популяции, и эти наборы предикторов поставляются в обязательных «пакетах»?
Благодарю вас!
Решение
Возможно, вы захотите рассмотреть градиент, повышенные деревья, а не случайные леса. Они также метод на основе ансамблевого дерева, но, поскольку этот метод не выбирает размеры, он не будет выполняться в проблеме отсутствия полезного предиктора, доступного для разделения в любое конкретное время.
Различные реализации GBDT имеют разные способы обработки пропущенных значений, что будет иметь большое значение в вашем случае; Я считаю, что R делает тройные расколы, что может работать нормально.