我认为广义线性模型(GLM)将被视为统计模型,但是一位朋友告诉我,有些论文将其归类为机器学习技术。哪一个是正确的(或更精确)?任何解释都将不胜感激。

有帮助吗?

解决方案

GLM绝对是统计模型,但是统计模型和机器学习技术并非相互排斥。通常,统计数据更关心推断参数,而在机器学习中,预测是最终目标。

其他提示

关于预测,统计学和机器学习科学开始从不同的角度解决相同的问题。

基本上,统计数据假设数据是由给定随机模型产生的。因此,从统计的角度来看,假定模型并给定各种假设,对错误进行处理,并推断出模型参数和其他问题。

机器学习来自计算机科学的角度。这些模型是算法的,对于数据,通常需要很少的假设。我们与假设空间和学习偏见一起工作。我发现的机器学习的最佳说明包含在汤姆·米切尔(Tom Mitchell)的书中 机器学习.

有关两种文化的更详尽和完整的想法,您可以阅读Leo Breiman论文 统计建模:两种文化

但是,必须添加的内容是,即使这两种科学从不同的角度开始,现在两者现在都拥有相当多的常识和技术。为什么,因为问题是相同的,但是工具是不同的。因此,现在的机器学习主要是从统计角度来处理的(检查Hastie,Tibshirani,Friedman Book 统计学习的要素 从具有统计处理的机器学习角度,也许是凯文·P·墨菲(Kevin P. Murphy)的书 机器学习:概率的观点, ,仅举几本最好的书籍)。

即使是该领域发展的历史也显示了这种观点合并的好处。我将描述两个事件。

首先是由布雷曼(Breiman)创建的,它具有坚实的统计背景。大约在同一时间,Quinlan开发了ID3,C45,SEE5等,等等,具有更多计算机科学背景的决策树套件。现在,这群树木的家族和包装和森林等合奏方法变得非常相似。

第二个故事是关于提升的。最初,当他们发现Adaboost时,它们是由Freund和Shapire开发的。设计adaboost的选择主要是从计算角度完成的。甚至作者也不太了解它为什么起作用。仅5年后,布雷曼(Breiman)(再次!)从统计的角度描述了Adaboost模型,并解释了为什么有效。从那时起,具有两种背景类型的各种著名科学家进一步发展了这些想法,导致了促进算法的质量,例如logistic促进,梯度增强,柔和的增强ANS。现在很难在没有坚实的统计背景的情况下进行思考。

广义线性模型是统计开发。但是,新的贝叶斯治疗方法将该算法也放在机器学习操场上。因此,我相信这两种说法都是正确的,因为对其运作方式的解释和处理可能有所不同。

除了Ben的答案外,统计模型和机器学习模型之间的微妙区别是,在统计模型中,您可以在构建模型之前明确决定输出方程结构。该模型的构建是为了计算参数/系数。

以线性模型或GLM为例,例如

y = a1x1 + a2x2 + a3x3

您的自变量是X1,X2,X3,要确定的系数为A1,A2,A3。您在构建模型之前以这种方式定义方程结构并计算A1,A2,A3。如果您认为Y以非线性方式与X2相关,则可以尝试这样的尝试。

y = a1x1 + a2(x2)^2 + a3x3.

因此,您对输出结构提出了限制。固有的统计模型是线性模型,除非您明确应用诸如Sigmoid或bernel之类的转换以使其非线性(GLM和SVM)。

在机器学习模型的情况下,您很少指定输出结构,而决策树(决策树)本质上是非线性和有效工作的算法。

与Ben指出的相反,机器学习模型不仅涉及预测,它们进行分类,回归等,可用于做出预测,这些预测也可以由各种统计模型完成。

GLM绝对是一个统计模型,而随着机器学习,越来越多的统计方法已应用于工业生产 技巧 。在当今,我阅读最多的荟萃分析是统计领域的一个很好的例子。

使用GLM的完美工业应用可以解释为什么您的朋友告诉您GLM被视为机器学习 技术 。您可以参考源文件 http://www.kdd.org/kdd2016/papers/files/adf0562-zhanga.pdf 关于那个 。

我实施了一个简化的,该简化被视为几周前生产方案中推荐系统的主要框架。如果您给我一些提示,您会非常感谢,并且可以检查源代码: https://github.com/paynejoe/algo-sensetime/blob/master/src/src/main/scala/glmm.scala

希望这对您有帮助,美好的一天!

许可以下: CC-BY-SA归因
scroll top