选择正确的分类算法。线性还是非线性？[关闭]

https://stackoverflow.com/questions/2414030

19-09-2019
|

题

我觉得这个问题有点棘手。也许有人知道回答这个问题的方法。想象一下，您有一个数据集（训练数据），但您不知道它的含义。您会查看训练数据的哪些特征，以便推断分类算法来对这些数据进行分类？我们能说一下我们应该使用非线性还是线性分类算法吗？

顺便说一下，我正在使用WEKA来分析数据。

有什么建议么？谢谢。

解决方案

哇，让你有一些训练数据，你不知道你是否正在寻找一个文件，或者在细胞在杰尼斯的话代表的功能和需要调整的分类。好吧，既然你没有任何语义信息，你将不得不通过查看数据集的统计特性，要做到这一点索利。

首先，配制问题，这是不仅仅是线性与非直链的。如果你真的希望将这些数据进行分类，你真正需要做的是选择可以是直此外，每个内核函数可以采取分类，或非线性（高斯，多项式，双曲线等内核函数这将需要进行设置。确定最优核函数及参数设置为给定的分类问题的一个或多个参数是不是一个真正的解决问题，只有有用的启发，如果你谷歌选择内核函数“或“选择内核功能”，你将被视为许多研究论文建议和测试的各种方法。虽然有很多方法，最基础和游历是做对parameters--梯度下降基本上你尝试内核的方法之一，一参数设置，火车一半的数据点，怎么看你，然后你尝试不同的参数设置，看你怎么做，你在移动中准确度最好的改进方向的参数，直到你得到satisfac托里的结果。

如果你并不需要去通过所有这些复杂性，以找到一个很好的内核函数，只是想回答的线性或非线性的。那么问题主要归结为两点：非线性分类将有过度拟合（undergeneralizing）的风险较高，因为他们有自由的多维度。他们可以遭受分类仅仅是记忆套好点的数据，而不是想出一个很好的概括。在另一方面线性分类具有更少的自由，以适应，并在数据的情况下，是不是线性可分，将无法找到一个很好的决定作用，并从高错误率受到影响。

不幸的是，我不知道更好的数学解来回答这个问题：“是这样的数据线性可分”，而不是只是尝试分类本身，看看它是如何执行等。对于您将需要比我更聪明的答案。

编辑：此研究论文描述了一种算法，它看起来像它应该能够确定给定数据集的接近谈到作为线性可分

。

http://www2.ift.ulaval.ca/~mmarchand/出版物/ wcnn93aa.pdf

其他提示

这其实是二问题合二为一；-)

特征选择
线性或非线性

加上“算法选择”，你可能会遇到分类器设计的三个最基本的问题。

作为旁注，这是一个 好东西 您不具备任何领域专业知识，无法指导特征的选择和/或断言特征空间的线性。这就是数据挖掘的乐趣：在没有先验专业知识的情况下推断此类信息。（顺便说一句，虽然领域专业知识有助于仔细检查分类器的结果，但过多的先验洞察可能会让您错过良好的挖掘机会）。如果没有任何此类先验知识，您就被迫建立合理的方法并对结果进行仔细审查。

很难提供 具体的 指导，部分原因是问题中遗漏了许多细节，也因为我在这方面有点胡言乱语;-)。尽管如此，我希望以下一般性建议会对您有所帮助

对于您尝试的每个算法（或更准确地说，对于给定算法的每组参数），您将需要 运行许多测试. 。理论可能非常有帮助，但仍会存在很多“试验和错误”。你会找到 交叉验证 一项有价值的技术。
简而言之，[并且根据可用训练数据的大小]，您将训练数据随机分成几个部分，并在其中一个[或几个]部分上训练分类器，然后评估分类器在另一部分上的性能[或几个]部分。对于每次这样的运行，您测量各种性能指标，例如错误分类错误（MCE），除了告诉您分类器如何执行之外，这些指标，或者更确切地说，它们的可变性将提供有关所选特征和/或特征的相关性的提示它们缺乏规模或线性。
独立于线性假设，有用的是 标准化值 的数字特征。这有助于处理具有奇数范围等的特征。
在每个维度内，在中位数两侧建立一个范围，例如 2.5 个标准差，并在此范围的基础上将特征值转换为百分比。
将名义属性转换为二进制属性, ，创建尽可能多的维度，名义属性有不同的值。（我想很多算法优化器都会为你做这件事）
一旦您确定了一个或几个具有相对不错的性能（例如 33% MCE）的分类器，请通过一次仅修改一个参数来使用这样的分类器执行相同的测试系列。例如，删除一些特征，然后查看所得的较低维度分类器是否有所改善或退化。
这 损耗因子是一个非常敏感的参数. 。尝试并坚持使用一个“合理”但对于大部分测试来说可能不是最佳的值，最后微调损失。
学习利用 SVM 优化器提供的“转储”信息。这些结果提供了关于优化器“想法”的非常有价值的信息
请记住，对于给定域中的给定数据集效果很好的方法可能对于来自另一个域的数据表现很差......
咖啡很好喝，不要太多。当一切都失败时，就选择爱尔兰语;-)

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow