Вопрос

Я столкнулся с ситуацией, когда количество положительных и отрицательных примеров в наборе данных несбалансировано.

Мой вопрос заключается в том, существуют ли какие-либо практические правила, которые подсказывают нам, когда нам следует проводить подвыборку большой категории, чтобы обеспечить некоторую балансировку в наборе данных.

Примеры:

  • Если количество положительных примеров составляет 1000, а количество отрицательных примеров — 10 000, следует ли мне обучать свой классификатор на полном наборе данных или мне следует отбирать отрицательные примеры подвыборку?
  • Тот же вопрос для 1000 положительных примеров и 100 000 отрицательных.
  • Тот же вопрос для 10 000 положительных и 1000 отрицательных.
  • и т. д...
Это было полезно?

Решение

Я думаю, что субдискретизация (даунсемплинг) — популярный метод контроля дисбаланса классов на базовом уровне, то есть он устраняет корень проблемы.Таким образом, для всех ваших примеров каждый раз случайный выбор 1000 из большинства классов будет работать.Вы даже можете поиграть с созданием 10 моделей (10 раз: 1000 большинства против 1000 меньшинства), чтобы использовать весь свой набор данных.Вы можете использовать этот метод, но, опять же, вы как бы выбрасываете 9000 сэмплов, если не попробуете некоторые ансамблевые методы.Легко исправить, но сложно получить оптимальную модель на основе ваших данных.

Степень, в которой вам необходимо контролировать классовый дисбаланс, во многом зависит от вашей цели.Если вас интересует чистая классификация, то дисбаланс повлияет на вероятность отсечения 50% для большинства методов, поэтому я бы рассмотрел возможность понижения выборки.Если вас интересует только порядок классификаций (желаете, чтобы положительные значения обычно были выше отрицательных) и вы используете такой показатель, как AUC, дисбаланс классов только искажает ваши вероятности, но относительный порядок должен быть достаточно стабильным для большинства методов.

Логистическая регрессия хороша для устранения дисбаланса классов, потому что, пока у вас есть >500 представителей класса меньшинства, оценки параметров будут достаточно точными, и единственное влияние будет на перехват, который можно исправить, если это то, что вы могли бы хотеть.Логистическая регрессия моделирует вероятности, а не только классы, поэтому вы можете вносить дополнительные корректировки вручную в соответствии с вашими потребностями.

Многие методы классификации также имеют аргумент веса класса, который поможет вам больше сосредоточиться на классе меньшинства.Это будет наказывать за неправильную классификацию истинного класса меньшинства, поэтому ваша общая точность немного пострадает, но вы начнете видеть больше классов меньшинств, которые правильно классифицированы.

Другие советы

Дисбаланс не определяется формально, но соотношение от 1 до 10 обычно достаточно дисбалансировано, чтобы извлечь выгоду из использования техники балансировки.

Есть два типа дисбаланса, относительный и абсолютный. В относительном отношении соотношения между большинством и уроками меньшинства дисбалансированы. В абсолютном случае у вас также есть небольшое количество образцов меньшинства. Чем выше коэффициент дисбаланса, тем больше вероятность того, что вы достигнете абсолютного дисбаланса.

Обратите внимание, что прямолинейная подчиненная дискретизация не является оптимальным способом справиться с несбалансированным набором данных. Это потому, что вы должны создать классификатор, который будет хорошо работать в вашем исходном наборе данных. Для техники создания классификаторов на дисбалансированных наборах данных см. здесьАнкет Для оценки вашего классификатора см. здесь.

Проблема дисбаланса данных ?? Теоретически, речь идет только о числах. Даже если разница в 1 образец, это дисбаланс данных

На практике, говоря, что это проблема дисбаланса данных, контролируется тремя вещами: 1. Число и распределение выборок, которые у вас есть 2. Изменение в одном и том же классе 3. Сходства между различными классами

Последние два момента меняют то, как мы рассматриваем нашу проблему.

Чтобы объяснить это, позвольте мне привести пример: класс A = 100 образцов класс B = 10 000

Если изменение в классе B очень низкое, отбиратеть отбора проб, не существует проблемы дисбаланса данных

Если вариация очень высока в пределах класса B, то выборка вниз может привести к потере информации, и опасно применять отбор проб.

Еще один момент: наличие множества образцов (в основном для класса меньшинств), ослабит проблему дисбаланса данных и облегчит дело

Например, 10: 100. против 1000: 10 000

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top