MAE (Mean Absolute Error)
El Error Absoluto Medio (MAE, por sus siglas en inglés) es una de las métricas más fundamentales para evaluar modelos de regresión. Su definición es directa y su interpretación intuitiva.
Definición
Sea un conjunto de observaciones con valores reales y valores predichos .
El MAE se define como:
Desglose de la fórmula
Analicemos cada componente:
| Símbolo | Nombre | Significado |
|---|---|---|
| Tamaño muestral | Número total de observaciones | |
| Valor real | El valor verdadero de la observación | |
| Valor predicho | El valor que el modelo predijo para | |
| Error | Diferencia entre real y predicho | |
| Error absoluto | Valor absoluto del error | |
| Sumatoria | Suma sobre todas las observaciones | |
| Factor de promedio | Divide para obtener el promedio |
Propiedades matemáticas
Propiedad 1: No negatividad
El MAE siempre es mayor o igual a cero:
Demostración: El valor absoluto siempre es no negativo ( para todo ). La suma de valores no negativos es no negativa. Dividir por preserva el signo.
Propiedad 2: Identidad
El MAE es cero si y solo si todas las predicciones son perfectas:
Demostración:
Si MAE = 0, entonces . Como cada término es no negativo, todos deben ser cero: .
Si para todo , entonces para todo , y la suma es 0.
Propiedad 3: Unidades
El MAE tiene las mismas unidades que la variable objetivo :
Esto hace que el MAE sea directamente interpretable. Si está en dólares, el MAE también está en dólares.
Propiedad 4: Robustez ante outliers
El MAE es menos sensible a valores atípicos que el MSE porque usa el valor absoluto (función lineal) en lugar del cuadrado (función cuadrática).
Ejemplo: Sean los errores :
El MSE amplifica desproporcionadamente el outlier de 100.
Interpretación geométrica
El MAE puede interpretarse como la distancia Manhattan (o norma ) promedio entre los vectores de valores reales y predichos.
Si definimos y :
donde es la norma (suma de valores absolutos).
Relación con la mediana
El MAE está íntimamente relacionado con la mediana. Si buscamos un valor constante que minimice el error absoluto total:
La solución es .
Esto contrasta con el MSE, donde el valor óptimo es la media.
Ejemplo numérico
Supongamos que tenemos un modelo que predice precios de casas (en miles de dólares):
| Casa | Precio real () | Precio predicho () | Error | Error absoluto |
|---|---|---|---|---|
| 1 | 250 | 245 | 5 | 5 |
| 2 | 300 | 310 | -10 | 10 |
| 3 | 180 | 175 | 5 | 5 |
| 4 | 420 | 400 | 20 | 20 |
Cálculo paso a paso:
Interpretación: El modelo se equivoca, en promedio, por $10,000 en sus predicciones de precio.
Implementación
import com.minerva.core.primitives.Vector;import com.minerva.metrics.RegressionMetrics.RegressionMetrics; public class MAEExample { public static void main(String[] args) { Vector actual = new Vector(new double[] {250, 300, 180, 420}); Vector predicted = new Vector(new double[] {245, 310, 175, 400}); RegressionMetrics metrics = new RegressionMetrics(); double mae = metrics.MAE(actual, predicted); System.out.println("MAE: " + mae); }}MAE: 10.0
Limitaciones
-
No diferenciable en cero: La función valor absoluto no es diferenciable en , lo que puede causar problemas en algoritmos de optimización basados en gradiente.
-
No penaliza errores grandes: La relación lineal puede ser no deseada cuando errores grandes son particularmente costosos.
-
Sensible a la escala: El MAE depende de las unidades de , lo que dificulta comparar modelos de diferentes dominios.
Ver también
Bonus: Análisis avanzado del MAE
Advertencia
Esta sección requiere conocimientos de cálculo, análisis convexo y teoría de estimación. Puedes saltarla sin perder continuidad.
El problema de no diferenciabilidad
La función valor absoluto no es diferenciable en :
Los límites laterales no coinciden, por lo que la derivada no existe en el origen.
Subgradiente
Para manejar esta no diferenciabilidad, usamos el concepto de subgradiente del análisis convexo.
El subgradiente de es:
Para el MAE como función de las predicciones :
donde cuando .
Demostración: La mediana minimiza el MAE
Teorema: Sea . Entonces es la mediana de .
Demostración:
Definimos .
El subgradiente de respecto a es:
Para un mínimo, necesitamos , es decir:
Esto ocurre cuando hay tantos como , lo cual es precisamente la definición de la mediana.
Función de pérdida Huber
Para combinar las ventajas del MAE (robustez) y MSE (diferenciabilidad), se usa la pérdida de Huber:
Esta función es:
- Cuadrática para errores pequeños (): comportamiento tipo MSE
- Lineal para errores grandes (): comportamiento tipo MAE
- Diferenciable en todo el dominio
Su derivada es:
Regresión de cuantiles
El MAE es un caso especial de la regresión de cuantiles con .
La función de pérdida de cuantil (pinball loss) es:
Para :
Minimizar produce el cuantil condicional, y para obtenemos la mediana condicional.
Análisis de sensibilidad: Función de influencia
La función de influencia mide cómo un punto atípico afecta a un estimador.
Para la media (minimizador de MSE):
Esta función no está acotada: un outlier puede mover la media arbitrariamente.
Para la mediana (minimizador de MAE):
Esta función está acotada en : un outlier tiene influencia limitada.
Esto demuestra formalmente por qué el MAE es más robusto que el MSE.
Conexión con normas
El MAE y MSE son casos especiales de la familia de métricas :
| Métrica | Optimizador | |
|---|---|---|
| 1 | MAE | Mediana |
| 2 | RMSE | Media |
| Error máximo | Punto medio del rango |
A medida que aumenta, la métrica se vuelve más sensible a los errores grandes.