Anpassungsgüte-Funktionen in R

https://stackoverflow.com/questions/1181025

19-09-2019
|

Frage

Welche Funktionen haben Sie in R verwenden, um eine Kurve, um Ihre Daten und Test, wie gut die Kurve paßt zu passen? Welche Ergebnisse sind als gut?

Lösung

Nur der erste Teil dieser Frage kann ganze Bücher füllen. Nur ein paar schnelle Entscheidungen:

lm() für Standard-lineare Modelle
glm() für verallgemeinerte lineare Modelle (zB für die logistische Regression)
rlm() von Paket MASS für robuste lineare Modelle
lmrob() von Paket robust für robuste lineare Modelle
loess() für nichtlineare / nicht-parametrische Modelle

Dann gibt es domänenspezifische Modelle wie z.B. Zeitreihe, Mikro-Ökonometrie, Mixed-Effekte und vieles mehr. Mehrere der Task-Ansichten wie z.B. Ökonometrie diese im Detail diskutieren. Was Güte der Anpassung, die auch die Diskussion leicht etwas, das man ein ganzes Buch verbringen.

Andere Tipps

Die Arbeitspferde kanonischer Kurvenanpassung in R sind lm(), glm() und nls(). Für mich, die Güte der Anpassung ist ein Teilproblem im größeren Problem der Modellauswahl. Infact, mit Güte der Anpassung falsch (beispielsweise über schrittweise Regression) kann zu ernst falsch angegeben Modell geben (siehe Harrell Buch über „Regression Modellierung Strategies“). Anstatt das Problem von Grund auf neu zu diskutieren, empfehle ich Buch Harrell für lm und glm. Venables und Ripleys Bibel ist knapp, aber dennoch lohnt sich ein Lesen. „Die Erweiterung des linearen Modells mit R“ von Faraway ist umfassend und gut lesbar. nls ist in diesen Quellen nicht abgedeckt, sondern "nichtlineare Regression mit R" von Ritz & Streibig füllt die Lücke und ist sehr hands-on.

Die nls() Funktion ( http://sekhon.berkeley.edu/stats/html/ nls.html ) ist ziemlich Standard für nichtlineare Kleinste-Quadrate-Kurvenanpassung. Chi-Quadrat (die Summe der quadrierten Residuen) ist die Metrik, die in diesem Fall optimiert ist, aber es ist nicht normalisiert, so dass Sie es nicht ohne weiteres bestimmen können, wie gut die Passform ist. Die Hauptsache Sie sollten sicherstellen, dass Ihre Residuen normal verteilt sind. Leider bin ich nicht sicher, ob eine automatisierte Art und Weise, das zu tun.

Der Quick R Standort verfügt über eine vernünftige gute Zusammenfassung der grundlegenden Funktionen für die Modelle passend und die Passungen Prüfung, zusammen mit der Probe R-Code:

http://www.statmethods.net/stats/regression.html

Die Hauptsache Sie sicherstellen sollten, ist dass Ihre Reste sind in der Regel verteilt. Leider bin ich nicht sicher einen automatisierten Weg, dies zu tun.

qqnorm() wahrscheinlich geändert werden, um die Korrelation zwischen der Probe Quantile und dem theoretischen Quantile zu finden. Im Wesentlichen würde dies nur eine numerische Interpretation der normalen Quantils Handlung sein. Vielleicht bietet Koeffizient mehrere Werte der Korrelation für verschiedene Bereiche von quantiles nützlich sein könnte. Zum Beispiel, in der Nähe, wenn der Korrelationskoeffizient für das mittlere 97% der Daten und viel niedriger an den Schwänzen 1 ist, sagen wir das die Verteilung der Residuen annähernd normal ist, mit einigen funniness los in den Schwänzen.

Best einfach zu halten, und sehen, ob lineare Methoden funktionieren „gut Enuff“. Sie können Ihre Güte der Anpassung ALLGEMEINEN, indem man die R quadriert und F-Statistik zusammen, nie trennen beurteilen. Hinzufügen von Variablen zu Ihrem Modell, das keinen Einfluss auf die abhängige Variable haben kann R2 erhöhen, so müssen Sie auch F-Statistik betrachten.

Sie sollten auch Ihr Modell auf andere verschachtelte oder mehr einfacher, Modelle vergleichen. Tun Sie dies mit log liklihood Verhältnistest, so lange als abhängige Variablen sind die gleichen.

Jarque-Bera-Test ist gut für die Prüfung der Normalität der Restverteilung.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow