¿Es la regresión logística en realidad un algoritmo de regresión?

https://datascience.stackexchange.com/questions/473

16-10-2019
|

Pregunta

La definición habitual de regresión (que yo sepa) es Predicción de una variable de salida continua de un conjunto dado de variables de entrada.

La regresión logística es un algoritmo de clasificación binaria, por lo que produce una salida categórica.

¿Es realmente un algoritmo de regresión? Si es así, ¿por qué?

Solución

La regresión logística es la regresión, ante todo. Se convierte en un clasificador agregando una regla de decisión. Daré un ejemplo que retrocede. Es decir, en lugar de tomar datos y ajustar un modelo, voy a comenzar con el modelo para mostrar cómo este es realmente un problema de regresión.

En la regresión logística, estamos modelando las probabilidades de registro, o logit, que ocurre un evento, que es una cantidad continua. Si la probabilidad de que ocurra $ A $ es $ P (a) $, las probabilidades son:

$$ frac {p (a)} {1 - p (a)} $$

Las probabilidades de registro, entonces, son:

$$ log left ( frac {p (a)} {1 - p (a)} right) $$

Como en la regresión lineal, modelamos esto con una combinación lineal de coeficientes y predictores:

$$ operatorname {logit} = b_0 + b_1x_1 + b_2x_2 + cdots $$

Imagine que se nos da un modelo de si una persona tiene el pelo gris. Nuestro modelo utiliza la edad como el único predictor. Aquí, nuestro evento a = una persona tiene el pelo gris:

Registro de cabello gris = -10 + 0.25 * edad

...¡Regresión! Aquí hay un código de python y una trama:

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

x = np.linspace(0, 100, 100)

def log_odds(x):
    return -10 + .25 * x

plt.plot(x, log_odds(x))
plt.xlabel("age")
plt.ylabel("log odds of gray hair")

plot of the log odds for our toy example

Ahora, hagámoslo un clasificador. Primero, necesitamos transformar las probabilidades de registro para obtener nuestra probabilidad $ P (a) $. Podemos usar la función sigmoide:

$$ p (a) = frac1 {1 + exp (- text {log odds}))} $$

Aquí está el código:

plt.plot(x, 1 / (1 + np.exp(-log_odds(x))))
plt.xlabel("age")
plt.ylabel("probability of gray hair")

plot of the probability of gray hair for our toy example

Lo último que necesitamos para hacer de esto un clasificador es agregar una regla de decisión. Una regla muy común es clasificar un éxito cada vez que $ P (a)> 0.5 $. Adoptaremos esa regla, lo que implica que nuestro clasificador predecirá el cabello gris siempre que una persona sea mayor de 40 años y predecirá el cabello no gris cuando una persona tenga menos de 40 años.

La regresión logística funciona muy bien como un clasificador en ejemplos más realistas también, pero antes de que pueda ser un clasificador, ¡debe ser una técnica de regresión!

Otros consejos

Respuesta corta

Sí, la regresión logística es un algoritmo de regresión y predice un resultado continuo: la probabilidad de un evento. Que lo usamos como clasificador binario se debe a la interpretación del resultado.

Detalle

La regresión logística es un tipo de modelo de regresión lineal generalizar.

En un modelo de regresión lineal ordinaria, un resultado continuo, y, se modela como la suma del producto de los predictores y su efecto:

y = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

dónde e es el error.

Los modelos lineales generalizados no modelan y directamente. En cambio, usan transformaciones para expandir el dominio de y a todos los números reales. Esta transformación se llama función de enlace. Para la regresión logística, la función de enlace es la función logit (generalmente, consulte la nota a continuación).

La función logit se define como

ln(y/(1 + y))

Por lo tanto, la forma de regresión logística es:

ln(y/(1 + y)) = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

dónde y es la probabilidad de un evento.

El hecho de que lo usemos como clasificador binario se debe a la interpretación del resultado.

Nota: Probit es otra función de enlace utilizada para la regresión logística, pero logit es la más utilizada.

Al discutir la definición de regresión es predecir una variable continua. Regresión logística es un clasificador binario. La regresión logística es la aplicación de una función logit en la salida de un enfoque de regresión habitual. La función logit gira (-inf,+inf) a [0,1]. Creo que es solo por razones históricas lo que mantiene ese nombre.

Decir algo como "Hice alguna regresión para clasificar las imágenes. En particular, usé la regresión logística". Está Mal.

Para decirlo simplemente cualquier función hipotética $ f $ Hace el algoritmo de regresión si $ f: x rectarrow mathbb {r} $. Así la función logística que es $ P (y = 1 | lambda, x) = dfrac {1} {1+e^{- lambda^tx}} in [0,1] $ Hace un algoritmo de regresión. Aquí $ lambda $ se encuentra coeficiente o hiperplano en conjuntos de datos capacitados y $ x $ es un punto de datos. Aquí, $ signo (p (y = 1 | lambda, x)) $ se toma como clase.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange