Создание обязательных комбинаций переменных для рисования случайным лесом

https://datascience.stackexchange.com/questions/1094

16-10-2019
|

Вопрос

Проблема

Для моей задачи машинного обучения я создаю набор предикторов. Предикторы приходят в «пучки» - многомерные измерения (3 или 4 - размерные в моем случае).

Отверстие «пакет» имеет смысл, только если оно было измерено, и взято все вместе.

Проблема в том, что различные «пакеты» предикторов могут быть измерены только для небольшой части образца, и эти части не необходимы для пересечения для различных «пачек».

Поскольку детали невелики, вменение приводит к значительному снижению точности (катастрофически быть более точным)

Возможные решения

Я мог бы создать фиктивные переменные, которые означали бы, имело ли измерение для каждой переменной. Проблема в том, что когда случайные леса рисует случайные переменные, это происходит индивидуально.

Таким образом, есть два основных способа решения этой проблемы: 1) объединить каждый «пакет» в одного предиктора. Это возможно, но кажется, что информация будет потеряна. 2) Сделайте случайные переменные рисования леса не индивидуально, а обязательными «пучками».

Проблема для случайного леса

Поскольку случайный лес рисует переменные случайным образом, он принимает функции, которые бесполезны (или гораздо менее полезны) без других из их «пакета». У меня такое чувство, которое приводит к потере точности.

Пример

Например, у меня есть переменные a,a_measure, b,b_measureАнкет Проблема в том, переменные a_measure имеет смысл только в том случае, если переменная a присутствует, то же самое для b. Анкет Так что мне нужно комбинировать aа также a_measure в одну переменную, или сделать случайный лес нарисовать оба, в случае, если по крайней мере один из них вытянет.

Вопрос

Каковы наилучшие решения для проблем, когда различные наборы предикторов измеряются для небольших частей общей популяции, и эти наборы предикторов поставляются в обязательных «пакетах»?

Благодарю вас!

Решение

Возможно, вы захотите рассмотреть градиент, повышенные деревья, а не случайные леса. Они также метод на основе ансамблевого дерева, но, поскольку этот метод не выбирает размеры, он не будет выполняться в проблеме отсутствия полезного предиктора, доступного для разделения в любое конкретное время.

Различные реализации GBDT имеют разные способы обработки пропущенных значений, что будет иметь большое значение в вашем случае; Я считаю, что R делает тройные расколы, что может работать нормально.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange