El Error Cuadrático Medio (MSE) es probablemente la métrica más utilizada en machine learning. Su prevalencia se debe a sus convenientes propiedades matemáticas, especialmente en optimización.
Definición
Sea un conjunto de n observaciones con valores reales y1,y2,…,yn y valores predichos y^1,y^2,…,y^n.
El MSE se define como:
MSE=n1i=1∑n(yi−y^i)2
Desglose de la fórmula
Símbolo
Nombre
Significado
n
Tamaño muestral
Número total de observaciones
yi
Valor real
El valor verdadero de la observación i
y^i
Valor predicho
El valor que el modelo predijo para i
(yi−y^i)
Error
Diferencia entre real y predicho
(yi−y^i)2
Error cuadrático
Error elevado al cuadrado
Propiedades matemáticas
Propiedad 1: No negatividad
El MSE siempre es mayor o igual a cero:
MSE≥0
Demostración: El cuadrado de cualquier número real es no negativo: x2≥0 para todo x∈R. La suma de cuadrados es no negativa. Dividir por n>0 preserva la no negatividad.
Propiedad 2: Diferenciabilidad
A diferencia del MAE, el MSE es diferenciable en todo su dominio. Esto es crucial para algoritmos de optimización.
El gradiente respecto a las predicciones es:
∂y^i∂MSE=−n2(yi−y^i)
Esta propiedad hace que el MSE sea la métrica preferida para entrenar modelos con descenso de gradiente.
Propiedad 3: Unidades cuadráticas
El MSE tiene unidades al cuadrado de la variable objetivo:
[MSE]=[y]2
Si y está en dólares, el MSE está en dólares². Esto dificulta la interpretación directa.
Propiedad 4: Sensibilidad a outliers
El MSE es altamente sensible a valores atípicos debido a la función cuadrática.
Análisis: Si un error se duplica, su contribución al MSE se cuadruplica:
Error e→Error 2e⟹Contribucioˊn e2→4e2
Descomposición sesgo-varianza
Una propiedad fundamental del MSE es su descomposición en tres componentes:
E[MSE]=Sesgo2+Varianza+Ruido irreducible
Donde:
Sesgo: Error sistemático del modelo
Varianza: Sensibilidad del modelo a fluctuaciones en los datos de entrenamiento
Ruido irreducible: Variabilidad inherente en los datos
Esta descomposición es fundamental para entender el balance entre underfitting y overfitting.
Relación con la varianza muestral
El MSE tiene una conexión directa con la varianza estadística. Si el modelo predice la media (y^i=yˉ para todo i):
MSEbaseline=n1i=1∑n(yi−yˉ)2=Var(y)
Esta es exactamente la varianza muestral de y. Por eso R² se define como 1−Var(y)MSE.
Interpretación geométrica
El MSE puede interpretarse como el cuadrado de la distancia euclidiana (o norma L2) promedio.
Si definimos y=(y1,…,yn) y y^=(y^1,…,y^n):
MSE=n1∥y−y^∥22
donde ∥⋅∥2 es la norma euclidiana.
Relación con la media
Si buscamos un valor constante c que minimice el error cuadrático total:
cmini=1∑n(yi−c)2
La solución es c=yˉ=n1∑i=1nyi (la media aritmética).