Нормализующие колонки Weka
-
20-09-2019 - |
Вопрос
У меня есть файл ARFF, содержащий 14 числовых столбцов.Я хочу выполнить нормализацию для каждого столбца отдельно, то есть изменить значения из каждого столбца на (actual_value - min(this_column)) / (max(this_column) - min(this_column)
).Следовательно, все значения из столбца будут находиться в диапазоне [0, 1]
.Минимальные и максимальные значения одного столбца могут отличаться от значений другого столбца.
Как я могу сделать это с фильтрами Weka?
Спасибо
Решение
Это можно сделать с помощью
weka.filters.unsupervised.attribute.Normalize
После применения этого фильтра все значения в каждом столбце будут находиться в диапазоне [0, 1]
Другие советы
Это верно.Просто хотел напомнить о разнице «нормализации» и «стандартизации».В вопросе упоминается «стандартизация», тогда как «нормализация» предполагает гауссово распределение и нормализует среднее и стандартное изменение каждого атрибута.Если в ваших данных есть выбросы, фильтр стандартизации может повредить распределению данных, поскольку минимум или максимум могут находиться намного дальше, чем другие экземпляры.
Вот рабочий пример нормализации с помощью K-Means в JAVA.
final SimpleKMeans kmeans = new SimpleKMeans();
final String[] options = weka.core.Utils
.splitOptions("-init 0 -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t2 -1.0 -N 10 -A \"weka.core.EuclideanDistance -R first-last\" -I 500 -num-slots 1 -S 50");
kmeans.setOptions(options);
kmeans.setSeed(10);
kmeans.setPreserveInstancesOrder(true);
kmeans.setNumClusters(25);
kmeans.setMaxIterations(1000);
final BufferedReader datafile = new BufferedReader(new FileReader("/Users/data.arff");
Instances data = new Instances(datafile);
//normalize
final Normalize normalizeFilter = new Normalize();
normalizeFilter.setInputFormat(data);
data = Filter.useFilter(data, normalizeFilter);
//remove class column[0] from cluster
data.setClassIndex(0);
final Remove removeFilter = new Remove();
removeFilter.setAttributeIndices("" + (data.classIndex() + 1));
removeFilter.setInputFormat(data);
data = Filter.useFilter(data, removeFilter);
kmeans.buildClusterer(data);
System.out.println(kmeans.toString());
// evaluate clusterer
final ClusterEvaluation eval = new ClusterEvaluation();
eval.setClusterer(kmeans);
eval.evaluateClusterer(data);
System.out.println(eval.clusterResultsToString());
Если у вас есть файл CSV, замените строку BufferedReader выше на указанный ниже источник данных:
final DataSource source = new DataSource("/Users/data.csv");
final Instances data = source.getDataSet();