MSE (Mean Squared Error)

El Error Cuadrático Medio (MSE) es probablemente la métrica más utilizada en machine learning. Su prevalencia se debe a sus convenientes propiedades matemáticas, especialmente en optimización.

Definición

Sea un conjunto de nn observaciones con valores reales y1,y2,,yny_1, y_2, \ldots, y_n y valores predichos y^1,y^2,,y^n\hat{y}_1, \hat{y}_2, \ldots, \hat{y}_n.

El MSE se define como:

MSE=1ni=1n(yiy^i)2\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

Desglose de la fórmula

SímboloNombreSignificado
nnTamaño muestralNúmero total de observaciones
yiy_iValor realEl valor verdadero de la observación ii
y^i\hat{y}_iValor predichoEl valor que el modelo predijo para ii
(yiy^i)(y_i - \hat{y}_i)ErrorDiferencia entre real y predicho
(yiy^i)2(y_i - \hat{y}_i)^2Error cuadráticoError elevado al cuadrado

Propiedades matemáticas

Propiedad 1: No negatividad

El MSE siempre es mayor o igual a cero:

MSE0\text{MSE} \geq 0

Demostración: El cuadrado de cualquier número real es no negativo: x20x^2 \geq 0 para todo xRx \in \mathbb{R}. La suma de cuadrados es no negativa. Dividir por n>0n > 0 preserva la no negatividad.

Propiedad 2: Diferenciabilidad

A diferencia del MAE, el MSE es diferenciable en todo su dominio. Esto es crucial para algoritmos de optimización.

El gradiente respecto a las predicciones es:

MSEy^i=2n(yiy^i)\frac{\partial \text{MSE}}{\partial \hat{y}_i} = -\frac{2}{n}(y_i - \hat{y}_i)

Esta propiedad hace que el MSE sea la métrica preferida para entrenar modelos con descenso de gradiente.

Propiedad 3: Unidades cuadráticas

El MSE tiene unidades al cuadrado de la variable objetivo:

[MSE]=[y]2[\text{MSE}] = [y]^2

Si yy está en dólares, el MSE está en dólares². Esto dificulta la interpretación directa.

Propiedad 4: Sensibilidad a outliers

El MSE es altamente sensible a valores atípicos debido a la función cuadrática.

Análisis: Si un error se duplica, su contribución al MSE se cuadruplica:

Error eError 2e    Contribucioˊe24e2\text{Error } e \to \text{Error } 2e \implies \text{Contribución } e^2 \to 4e^2

Descomposición sesgo-varianza

Una propiedad fundamental del MSE es su descomposición en tres componentes:

E[MSE]=Sesgo2+Varianza+Ruido irreducible\mathbb{E}[\text{MSE}] = \text{Sesgo}^2 + \text{Varianza} + \text{Ruido irreducible}

Donde:

  • Sesgo: Error sistemático del modelo
  • Varianza: Sensibilidad del modelo a fluctuaciones en los datos de entrenamiento
  • Ruido irreducible: Variabilidad inherente en los datos

Esta descomposición es fundamental para entender el balance entre underfitting y overfitting.

Relación con la varianza muestral

El MSE tiene una conexión directa con la varianza estadística. Si el modelo predice la media (y^i=yˉ\hat{y}_i = \bar{y} para todo ii):

MSEbaseline=1ni=1n(yiyˉ)2=Var(y)\text{MSE}_{\text{baseline}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2 = \text{Var}(y)

Esta es exactamente la varianza muestral de yy. Por eso R² se define como 1MSEVar(y)1 - \frac{\text{MSE}}{\text{Var}(y)}.

Interpretación geométrica

El MSE puede interpretarse como el cuadrado de la distancia euclidiana (o norma L2L^2) promedio.

Si definimos y=(y1,,yn)\vec{y} = (y_1, \ldots, y_n) y y^=(y^1,,y^n)\hat{\vec{y}} = (\hat{y}_1, \ldots, \hat{y}_n):

MSE=1nyy^22\text{MSE} = \frac{1}{n} \|\vec{y} - \hat{\vec{y}}\|_2^2

donde 2\|\cdot\|_2 es la norma euclidiana.

Relación con la media

Si buscamos un valor constante cc que minimice el error cuadrático total:

minci=1n(yic)2\min_c \sum_{i=1}^{n} (y_i - c)^2

La solución es c=yˉ=1ni=1nyic = \bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i (la media aritmética).

Demostración: Derivando e igualando a cero:

ddc(yic)2=2(yic)=0\frac{d}{dc} \sum (y_i - c)^2 = -2\sum (y_i - c) = 0 yinc=0    c=yin=yˉ\sum y_i - nc = 0 \implies c = \frac{\sum y_i}{n} = \bar{y}

Ejemplo numérico

Usando los mismos datos del ejemplo de MAE:

CasaError (eie_i)Error² (ei2e_i^2)
1525
2-10100
3525
420400

Cálculo:

MSE=25+100+25+4004=5504=137.5\text{MSE} = \frac{25 + 100 + 25 + 400}{4} = \frac{550}{4} = 137.5

Interpretación: El error cuadrático promedio es 137.5 miles de dólares². Nota cómo el outlier (error de 20) domina la métrica.

Implementación

Example.java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
import com.minerva.core.primitives.Vector;
import com.minerva.metrics.RegressionMetrics.RegressionMetrics;
public class MSEExample {
public static void main(String[] args) {
Vector actual = new Vector(new double[] {250, 300, 180, 420});
Vector predicted = new Vector(new double[] {245, 310, 175, 400});
RegressionMetrics metrics = new RegressionMetrics();
double mse = metrics.MSE(actual, predicted);
System.out.println("MSE: " + mse);
}
}
java MSEExample
MSE: 137.5

Ver también

  • MAE — Alternativa robusta a outliers
  • RMSE — MSE en unidades originales
  • — Proporción de varianza explicada

Bonus: Fundamentos teóricos del MSE

Advertencia

Esta sección requiere conocimientos de cálculo multivariable, álgebra lineal y teoría de probabilidad. Puedes saltarla sin perder continuidad.

MSE como estimador de máxima verosimilitud

Bajo el supuesto de errores gaussianos, minimizar el MSE es equivalente a maximizar la verosimilitud.

Modelo: yi=f(xi;θ)+ϵiy_i = f(x_i; \theta) + \epsilon_i donde ϵiN(0,σ2)\epsilon_i \sim \mathcal{N}(0, \sigma^2)

Función de verosimilitud:

L(θ)=i=1n12πσ2exp((yif(xi;θ))22σ2)L(\theta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y_i - f(x_i; \theta))^2}{2\sigma^2} \right)

Log-verosimilitud:

(θ)=n2log(2πσ2)12σ2i=1n(yif(xi;θ))2\ell(\theta) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (y_i - f(x_i; \theta))^2

Maximizar (θ)\ell(\theta) equivale a minimizar (yif(xi;θ))2\sum (y_i - f(x_i; \theta))^2, que es el MSE (sin el factor 1/n1/n).

Demostración rigurosa de la descomposición sesgo-varianza

Para un estimador f^\hat{f} del verdadero ff:

E[(yf^(x))2]=(E[f^(x)]f(x))2Sesgo2+E[(f^(x)E[f^(x)])2]Varianza+σϵ2Ruido\mathbb{E}[(y - \hat{f}(x))^2] = \underbrace{(\mathbb{E}[\hat{f}(x)] - f(x))^2}_{\text{Sesgo}^2} + \underbrace{\mathbb{E}[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2]}_{\text{Varianza}} + \underbrace{\sigma^2_\epsilon}_{\text{Ruido}}

Demostración:

Sea y^=f^(x)\hat{y} = \hat{f}(x) y y=f(x)+ϵy = f(x) + \epsilon.

E[(yy^)2]=E[(f+ϵy^)2]\mathbb{E}[(y - \hat{y})^2] = \mathbb{E}[(f + \epsilon - \hat{y})^2]

Expandiendo:

=E[(fy^)2]+2E[(fy^)ϵ]+E[ϵ2]= \mathbb{E}[(f - \hat{y})^2] + 2\mathbb{E}[(f - \hat{y})\epsilon] + \mathbb{E}[\epsilon^2]

Como ϵ\epsilon es independiente de y^\hat{y} y E[ϵ]=0\mathbb{E}[\epsilon] = 0:

=E[(fy^)2]+σϵ2= \mathbb{E}[(f - \hat{y})^2] + \sigma^2_\epsilon

Ahora descomponemos el primer término. Sea μ=E[y^]\mu = \mathbb{E}[\hat{y}]:

E[(fy^)2]=E[(fμ+μy^)2]\mathbb{E}[(f - \hat{y})^2] = \mathbb{E}[(f - \mu + \mu - \hat{y})^2] =(fμ)2+2(fμ)E[μy^]+E[(μy^)2]= (f - \mu)^2 + 2(f - \mu)\mathbb{E}[\mu - \hat{y}] + \mathbb{E}[(\mu - \hat{y})^2]

Como E[μy^]=0\mathbb{E}[\mu - \hat{y}] = 0:

=(fμ)2+Var(y^)= (f - \mu)^2 + \text{Var}(\hat{y}) =Sesgo2+Varianza= \text{Sesgo}^2 + \text{Varianza}

Matriz Hessiana del MSE

Para regresión lineal y=Xβ+ϵy = X\beta + \epsilon, el MSE como función de β\beta es:

MSE(β)=1n(yXβ)T(yXβ)\text{MSE}(\beta) = \frac{1}{n}(y - X\beta)^T(y - X\beta)

Gradiente:

βMSE=2nXT(yXβ)\nabla_\beta \text{MSE} = -\frac{2}{n}X^T(y - X\beta)

Hessiana:

H=β2MSE=2nXTXH = \nabla^2_\beta \text{MSE} = \frac{2}{n}X^TX

Como XTXX^TX es semidefinida positiva, el MSE es convexo en β\beta, garantizando un único mínimo global.

Condiciones de optimalidad (ecuaciones normales)

Igualando el gradiente a cero:

XT(yXβ^)=0X^T(y - X\hat{\beta}) = 0 XTXβ^=XTyX^TX\hat{\beta} = X^Ty

Si XTXX^TX es invertible:

β^=(XTX)1XTy\hat{\beta} = (X^TX)^{-1}X^Ty

Este es el estimador de mínimos cuadrados ordinarios (OLS).

Propiedades del estimador OLS

Bajo el modelo y=Xβ+ϵy = X\beta + \epsilon con ϵN(0,σ2I)\epsilon \sim \mathcal{N}(0, \sigma^2 I):

PropiedadExpresión
InsesgadezE[β^]=β\mathbb{E}[\hat{\beta}] = \beta
VarianzaVar(β^)=σ2(XTX)1\text{Var}(\hat{\beta}) = \sigma^2(X^TX)^{-1}
Distribuciónβ^N(β,σ2(XTX)1)\hat{\beta} \sim \mathcal{N}(\beta, \sigma^2(X^TX)^{-1})
EficienciaBLUE (Best Linear Unbiased Estimator) por Gauss-Markov

Regularización: Ridge y Lasso

El MSE puede extenderse con términos de penalización:

Ridge (L2):

minβ1nyXβ22+λβ22\min_\beta \frac{1}{n}\|y - X\beta\|_2^2 + \lambda\|\beta\|_2^2

Solución: β^ridge=(XTX+λI)1XTy\hat{\beta}_{ridge} = (X^TX + \lambda I)^{-1}X^Ty

Lasso (L1):

minβ1nyXβ22+λβ1\min_\beta \frac{1}{n}\|y - X\beta\|_2^2 + \lambda\|\beta\|_1

No tiene solución cerrada (requiere optimización iterativa), pero produce coeficientes exactamente cero (selección de variables).