MSE (Mean Squared Error)

El Error Cuadrático Medio (MSE) es probablemente la métrica más utilizada en machine learning. Su prevalencia se debe a sus convenientes propiedades matemáticas, especialmente en optimización.

Definición

Sea un conjunto de $n$ observaciones con valores reales $y_1, y_2, \ldots, y_n$ y valores predichos $\hat{y}_1, \hat{y}_2, \ldots, \hat{y}_n$ .

El MSE se define como:

\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

Desglose de la fórmula

Símbolo	Nombre	Significado
$n$	Tamaño muestral	Número total de observaciones
$y_i$	Valor real	El valor verdadero de la observación $i$
$\hat{y}_i$	Valor predicho	El valor que el modelo predijo para $i$
$(y_i - \hat{y}_i)$	Error	Diferencia entre real y predicho
$(y_i - \hat{y}_i)^2$	Error cuadrático	Error elevado al cuadrado

Propiedades matemáticas

Propiedad 1: No negatividad

El MSE siempre es mayor o igual a cero:

\text{MSE} \geq 0

Demostración: El cuadrado de cualquier número real es no negativo: $x^2 \geq 0$ para todo $x \in \mathbb{R}$ . La suma de cuadrados es no negativa. Dividir por $n > 0$ preserva la no negatividad.

Propiedad 2: Diferenciabilidad

A diferencia del MAE, el MSE es diferenciable en todo su dominio. Esto es crucial para algoritmos de optimización.

El gradiente respecto a las predicciones es:

\frac{\partial \text{MSE}}{\partial \hat{y}_i} = -\frac{2}{n}(y_i - \hat{y}_i)

Esta propiedad hace que el MSE sea la métrica preferida para entrenar modelos con descenso de gradiente.

Propiedad 3: Unidades cuadráticas

El MSE tiene unidades al cuadrado de la variable objetivo:

[\text{MSE}] = [y]^2

Si $y$ está en dólares, el MSE está en dólares². Esto dificulta la interpretación directa.

Propiedad 4: Sensibilidad a outliers

El MSE es altamente sensible a valores atípicos debido a la función cuadrática.

Análisis: Si un error se duplica, su contribución al MSE se cuadruplica:

\text{Error } e \to \text{Error } 2e \implies \text{Contribución } e^2 \to 4e^2

Descomposición sesgo-varianza

Una propiedad fundamental del MSE es su descomposición en tres componentes:

\mathbb{E}[\text{MSE}] = \text{Sesgo}^2 + \text{Varianza} + \text{Ruido irreducible}

Donde:

Sesgo: Error sistemático del modelo
Varianza: Sensibilidad del modelo a fluctuaciones en los datos de entrenamiento
Ruido irreducible: Variabilidad inherente en los datos

Esta descomposición es fundamental para entender el balance entre underfitting y overfitting.

Relación con la varianza muestral

El MSE tiene una conexión directa con la varianza estadística. Si el modelo predice la media ( $\hat{y}_i = \bar{y}$ para todo $i$ ):

\text{MSE}_{\text{baseline}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2 = \text{Var}(y)

Esta es exactamente la varianza muestral de $y$ . Por eso R² se define como $1 - \frac{\text{MSE}}{\text{Var}(y)}$ .

Interpretación geométrica

El MSE puede interpretarse como el cuadrado de la distancia euclidiana (o norma $L^2$ ) promedio.

Si definimos $\vec{y} = (y_1, \ldots, y_n)$ y $\hat{\vec{y}} = (\hat{y}_1, \ldots, \hat{y}_n)$ :

\text{MSE} = \frac{1}{n} \|\vec{y} - \hat{\vec{y}}\|_2^2

donde $\|\cdot\|_2$ es la norma euclidiana.

Relación con la media

Si buscamos un valor constante $c$ que minimice el error cuadrático total:

\min_c \sum_{i=1}^{n} (y_i - c)^2

La solución es $c = \bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$ (la media aritmética).

Demostración: Derivando e igualando a cero:

\frac{d}{dc} \sum (y_i - c)^2 = -2\sum (y_i - c) = 0

\sum y_i - nc = 0 \implies c = \frac{\sum y_i}{n} = \bar{y}

Ejemplo numérico

Usando los mismos datos del ejemplo de MAE:

Casa	Error ( $e_i$ )	Error² ( $e_i^2$ )
1	5	25
2	-10	100
3	5	25
4	20	400

Cálculo:

\text{MSE} = \frac{25 + 100 + 25 + 400}{4} = \frac{550}{4} = 137.5

Interpretación: El error cuadrático promedio es 137.5 miles de dólares². Nota cómo el outlier (error de 20) domina la métrica.

Implementación

Example.java

import com.minerva.core.primitives.Vector;
import com.minerva.metrics.RegressionMetrics.RegressionMetrics;
 
public class MSEExample {
    public static void main(String[] args) {
        Vector actual = new Vector(new double[] {250, 300, 180, 420});
        Vector predicted = new Vector(new double[] {245, 310, 175, 400});
        
        RegressionMetrics metrics = new RegressionMetrics();
        double mse = metrics.MSE(actual, predicted);
        
        System.out.println("MSE: " + mse);
    }
}

java MSEExample

MSE: 137.5

Ver también

MAE — Alternativa robusta a outliers
RMSE — MSE en unidades originales
R² — Proporción de varianza explicada

Bonus: Fundamentos teóricos del MSE

Advertencia

Esta sección requiere conocimientos de cálculo multivariable, álgebra lineal y teoría de probabilidad. Puedes saltarla sin perder continuidad.

MSE como estimador de máxima verosimilitud

Bajo el supuesto de errores gaussianos, minimizar el MSE es equivalente a maximizar la verosimilitud.

Modelo: $y_i = f(x_i; \theta) + \epsilon_i$ donde $\epsilon_i \sim \mathcal{N}(0, \sigma^2)$

Función de verosimilitud:

L(\theta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y_i - f(x_i; \theta))^2}{2\sigma^2} \right)

Log-verosimilitud:

\ell(\theta) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (y_i - f(x_i; \theta))^2

Maximizar $\ell(\theta)$ equivale a minimizar $\sum (y_i - f(x_i; \theta))^2$ , que es el MSE (sin el factor $1/n$ ).

Demostración rigurosa de la descomposición sesgo-varianza

Para un estimador $\hat{f}$ del verdadero $f$ :

\mathbb{E}[(y - \hat{f}(x))^2] = \underbrace{(\mathbb{E}[\hat{f}(x)] - f(x))^2}_{\text{Sesgo}^2} + \underbrace{\mathbb{E}[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2]}_{\text{Varianza}} + \underbrace{\sigma^2_\epsilon}_{\text{Ruido}}

Demostración:

Sea $\hat{y} = \hat{f}(x)$ y $y = f(x) + \epsilon$ .

\mathbb{E}[(y - \hat{y})^2] = \mathbb{E}[(f + \epsilon - \hat{y})^2]

Expandiendo:

= \mathbb{E}[(f - \hat{y})^2] + 2\mathbb{E}[(f - \hat{y})\epsilon] + \mathbb{E}[\epsilon^2]

Como $\epsilon$ es independiente de $\hat{y}$ y $\mathbb{E}[\epsilon] = 0$ :

= \mathbb{E}[(f - \hat{y})^2] + \sigma^2_\epsilon

Ahora descomponemos el primer término. Sea $\mu = \mathbb{E}[\hat{y}]$ :

\mathbb{E}[(f - \hat{y})^2] = \mathbb{E}[(f - \mu + \mu - \hat{y})^2]

= (f - \mu)^2 + 2(f - \mu)\mathbb{E}[\mu - \hat{y}] + \mathbb{E}[(\mu - \hat{y})^2]

Como $\mathbb{E}[\mu - \hat{y}] = 0$ :

= (f - \mu)^2 + \text{Var}(\hat{y})

= \text{Sesgo}^2 + \text{Varianza}

Matriz Hessiana del MSE

Para regresión lineal $y = X\beta + \epsilon$ , el MSE como función de $\beta$ es:

\text{MSE}(\beta) = \frac{1}{n}(y - X\beta)^T(y - X\beta)

Gradiente:

\nabla_\beta \text{MSE} = -\frac{2}{n}X^T(y - X\beta)

Hessiana:

H = \nabla^2_\beta \text{MSE} = \frac{2}{n}X^TX

Como $X^TX$ es semidefinida positiva, el MSE es convexo en $\beta$ , garantizando un único mínimo global.

Condiciones de optimalidad (ecuaciones normales)

Igualando el gradiente a cero:

X^T(y - X\hat{\beta}) = 0

X^TX\hat{\beta} = X^Ty

Si $X^TX$ es invertible:

\hat{\beta} = (X^TX)^{-1}X^Ty

Este es el estimador de mínimos cuadrados ordinarios (OLS).

Propiedades del estimador OLS

Bajo el modelo $y = X\beta + \epsilon$ con $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$ :

Propiedad	Expresión
Insesgadez	$\mathbb{E}[\hat{\beta}] = \beta$
Varianza	$\text{Var}(\hat{\beta}) = \sigma^2(X^TX)^{-1}$
Distribución	$\hat{\beta} \sim \mathcal{N}(\beta, \sigma^2(X^TX)^{-1})$
Eficiencia	BLUE (Best Linear Unbiased Estimator) por Gauss-Markov

Regularización: Ridge y Lasso

El MSE puede extenderse con términos de penalización:

Ridge (L2):

\min_\beta \frac{1}{n}\|y - X\beta\|_2^2 + \lambda\|\beta\|_2^2

Solución: $\hat{\beta}_{ridge} = (X^TX + \lambda I)^{-1}X^Ty$

Lasso (L1):

\min_\beta \frac{1}{n}\|y - X\beta\|_2^2 + \lambda\|\beta\|_1

No tiene solución cerrada (requiere optimización iterativa), pero produce coeficientes exactamente cero (selección de variables).