GLMは統計的または機械学習モデルですか？

https://datascience.stackexchange.com/questions/488

16-10-2019
|

質問

一般化された線形モデル（GLM）は統計モデルと見なされると思いましたが、友人はいくつかの論文がそれを機械学習技術として分類すると私に言った。どちらが本当ですか（それともより正確です）？どんな説明も感謝しています。

解決

GLMは絶対に統計モデルですが、統計モデルと機械学習技術は相互に排他的ではありません。一般に、統計はパラメーターの推測に関心がありますが、機械学習では予測が究極の目標です。

他のヒント

予測に関して、統計と機械学習科学は、異なる視点からほとんど同じ問題を解決し始めました。

基本的に、統計では、データが特定の確率モデルによって生成されたと想定しています。したがって、統計的な観点から、モデルが想定され、さまざまな仮定が与えられ、エラーが処理され、モデルパラメーターやその他の質問が推測されます。

機械学習は、コンピューターサイエンスの観点から来ています。モデルはアルゴリズムであり、通常、データに関して必要な仮定はほとんどありません。仮説の空間と学習バイアスを使用しています。私が見つけた機械学習の最高の説明は、トム・ミッチェルの本に含まれています機械学習.

2つの文化に関するより徹底的で完全なアイデアのために、あなたはレオ・ブライマンの論文を読むことができます統計モデリング：2つの文化

しかし、追加する必要があるのは、2つの科学が異なる視点で始まったとしても、現在、かなりの量の共通知識とテクニックを共有していることです。なぜ、問題は同じだったが、ツールは異なっていたからです。だから今、機械学習は主に統計的な観点から扱われます（Hastie、Tibshirani、Friedman Bookをチェックしてください統計学習の要素統計的治療を伴う機械学習の観点から、そしておそらくケビンP.マーフィーの本から機械学習：確率的視点, 、今日入手可能な最高の本のほんの一部に名前を付けます）。

この分野の発展の歴史でさえ、この視点の合併の利点を示しています。 2つのイベントについて説明します。

1つ目は、固体統計的背景を持つブライマンによって作成されたカートツリーの作成です。ほぼ同時に、QuinlanはID3、C45、See5などを開発しました。現在、この木々の家族と、袋詰めや森のようなアンサンブル方法の両方が非常に似ています。

2番目のストーリーは、ブーストに関するものです。当初、彼らはアダボーストを発見したときにフロイントとシェイピアによって開発されました。 Adaboostを設計するための選択は、主に計算の観点から行われました。著者でさえ、なぜそれが機能するのかよく理解していませんでした。わずか5年後、ブレイマン（再び！）は統計的な観点から崇拝モデルを説明し、それがなぜ機能するのかを説明しました。それ以来、両方のタイプの背景を持つさまざまな著名な科学者は、ロジスティックブースト、グラデーションブースト、穏やかなブーストANSなど、ブーストアルゴリズムのプレアドにつながるこれらのアイデアをさらに開発しました。確かな統計的背景なしでブーストを考えるのは今では難しいです。

一般化された線形モデルは統計的発達です。しかし、新しいベイジアン治療は、このアルゴリズムを機械学習の遊び場にも置きます。ですから、その仕組みの解釈と扱いは異なる可能性があるため、両方の主張が正しい可能性があると思います。

ベンの答えに加えて、統計モデルと機械学習モデルの微妙な区別は、統計モデルでは、モデルを構築する前に出力方程式構造を明示的に決定することです。このモデルは、パラメーター/係数を計算するために構築されています。

たとえば、線形モデルまたはGLMを取ります。

y = a1x1 + a2x2 + a3x3

独立変数はx1、x2、x3であり、決定する係数はA1、A2、A3です。モデルを構築する前に、この方法で方程式構造を定義し、A1、A2、A3を計算します。 Yが何らかの形で非線形の方法でX2と相関していると思われる場合は、このようなことを試すことができます。

y = a1x1 + a2(x2)^2 + a3x3.

したがって、出力構造の観点から制限を設けます。本質的に統計モデルは、シグモイドやカーネルなどの変換を明示的に適用して非線形（GLMおよびSVM）にしない限り、線形モデルです。

機械学習モデルの場合、出力構造を指定することはめったになく、決定ツリーのようなアルゴリズムは本質的に非線形で効率的に機能します。

ベンが指摘したこととは反対に、機械学習モデルは予測だけでなく、分類、回帰などを行い、さまざまな統計モデルによっても行われる予測を行うために使用できます。

GLMは絶対に統計的モデルですが、機械学習として工業生産にますます統計的方法が適用されています トリック 。私が最近最も読んだメタ分析は、統計分野の良い例です。

GLMを使用した完璧な産業用アプリケーションは、あなたの友人がGLMが機械学習と見なされているとあなたに言った理由を説明できます技術。ソースペーパーを参照できます http://www.kdd.org/kdd2016/papers/files/adf0562-zhanga.pdf そのことについて。

数週間前に生産シナリオで推奨システムの主なフレームワークとして扱われた簡略化されたものを実装しました。あなたが私にいくつかのヒントを与えてくれて、あなたがソースコードをチェックすることができるならば、大いに感謝されています： https://github.com/paynejoe/algo-sensetime/blob/master/src/main/scala/glmm.scala

これがあなたに役立つことを願っています、良い一日！

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange