GLM是统计还是机器学习模型？

https://datascience.stackexchange.com/questions/488

16-10-2019
|

题

我认为广义线性模型（GLM）将被视为统计模型，但是一位朋友告诉我，有些论文将其归类为机器学习技术。哪一个是正确的（或更精确）？任何解释都将不胜感激。

解决方案

GLM绝对是统计模型，但是统计模型和机器学习技术并非相互排斥。通常，统计数据更关心推断参数，而在机器学习中，预测是最终目标。

其他提示

关于预测，统计学和机器学习科学开始从不同的角度解决相同的问题。

基本上，统计数据假设数据是由给定随机模型产生的。因此，从统计的角度来看，假定模型并给定各种假设，对错误进行处理，并推断出模型参数和其他问题。

机器学习来自计算机科学的角度。这些模型是算法的，对于数据，通常需要很少的假设。我们与假设空间和学习偏见一起工作。我发现的机器学习的最佳说明包含在汤姆·米切尔（Tom Mitchell）的书中机器学习.

有关两种文化的更详尽和完整的想法，您可以阅读Leo Breiman论文统计建模：两种文化

但是，必须添加的内容是，即使这两种科学从不同的角度开始，现在两者现在都拥有相当多的常识和技术。为什么，因为问题是相同的，但是工具是不同的。因此，现在的机器学习主要是从统计角度来处理的（检查Hastie，Tibshirani，Friedman Book 统计学习的要素从具有统计处理的机器学习角度，也许是凯文·P·墨菲（Kevin P. Murphy）的书机器学习：概率的观点, ，仅举几本最好的书籍）。

即使是该领域发展的历史也显示了这种观点合并的好处。我将描述两个事件。

首先是由布雷曼（Breiman）创建的，它具有坚实的统计背景。大约在同一时间，Quinlan开发了ID3，C45，SEE5等，等等，具有更多计算机科学背景的决策树套件。现在，这群树木的家族和包装和森林等合奏方法变得非常相似。

第二个故事是关于提升的。最初，当他们发现Adaboost时，它们是由Freund和Shapire开发的。设计adaboost的选择主要是从计算角度完成的。甚至作者也不太了解它为什么起作用。仅5年后，布雷曼（Breiman）（再次！）从统计的角度描述了Adaboost模型，并解释了为什么有效。从那时起，具有两种背景类型的各种著名科学家进一步发展了这些想法，导致了促进算法的质量，例如logistic促进，梯度增强，柔和的增强ANS。现在很难在没有坚实的统计背景的情况下进行思考。

广义线性模型是统计开发。但是，新的贝叶斯治疗方法将该算法也放在机器学习操场上。因此，我相信这两种说法都是正确的，因为对其运作方式的解释和处理可能有所不同。

除了Ben的答案外，统计模型和机器学习模型之间的微妙区别是，在统计模型中，您可以在构建模型之前明确决定输出方程结构。该模型的构建是为了计算参数/系数。

以线性模型或GLM为例，例如

y = a1x1 + a2x2 + a3x3

您的自变量是X1，X2，X3，要确定的系数为A1，A2，A3。您在构建模型之前以这种方式定义方程结构并计算A1，A2，A3。如果您认为Y以非线性方式与X2相关，则可以尝试这样的尝试。

y = a1x1 + a2(x2)^2 + a3x3.

因此，您对输出结构提出了限制。固有的统计模型是线性模型，除非您明确应用诸如Sigmoid或bernel之类的转换以使其非线性（GLM和SVM）。

在机器学习模型的情况下，您很少指定输出结构，而决策树（决策树）本质上是非线性和有效工作的算法。

与Ben指出的相反，机器学习模型不仅涉及预测，它们进行分类，回归等，可用于做出预测，这些预测也可以由各种统计模型完成。

GLM绝对是一个统计模型，而随着机器学习，越来越多的统计方法已应用于工业生产技巧。在当今，我阅读最多的荟萃分析是统计领域的一个很好的例子。

使用GLM的完美工业应用可以解释为什么您的朋友告诉您GLM被视为机器学习技术。您可以参考源文件 http://www.kdd.org/kdd2016/papers/files/adf0562-zhanga.pdf 关于那个。

我实施了一个简化的，该简化被视为几周前生产方案中推荐系统的主要框架。如果您给我一些提示，您会非常感谢，并且可以检查源代码： https://github.com/paynejoe/algo-sensetime/blob/master/src/src/main/scala/glmm.scala

希望这对您有帮助，美好的一天！

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange