R² Ajustado
El R² Ajustado es una modificación del R² que penaliza la inclusión de variables irrelevantes en el modelo. Resuelve el problema de que el R² siempre aumenta al agregar más predictores.
Motivación
Como vimos en R², agregar variables siempre mejora (o mantiene) el ajuste:
Esto puede llevar a sobreajuste: un modelo con muchas variables tendrá R² alto en los datos de entrenamiento, pero predecirá mal en datos nuevos.
El R² Ajustado introduce una penalización que crece con el número de variables.
Definición
Sea el número de observaciones y el número de predictores (sin contar el intercepto).
Alternativamente, en términos de sumas de cuadrados:
Desglose de la fórmula
| Símbolo | Nombre | Significado |
|---|---|---|
| R² ordinario | Proporción de varianza explicada | |
| Observaciones | Número de datos | |
| Predictores | Número de variables independientes | |
| Grados de libertad residuales | GL para estimar la varianza del error | |
| Grados de libertad totales | GL para estimar la varianza de |
Propiedades matemáticas
Propiedad 1: Factor de penalización
El término es siempre y crece cuando:
- aumenta (más variables)
- disminuye (menos datos)
Propiedad 2: Puede ser negativo
A diferencia del R² en regresión lineal, el R² ajustado puede ser negativo:
Esto ocurre cuando el modelo explica menos varianza de la que se "pierde" por la penalización.
Propiedad 3: Relación con R²
La igualdad se da solo cuando (modelo sin predictores).
Propiedad 4: Selección de modelos
Al agregar una variable , el R² ajustado aumenta solo si:
donde es el estadístico F para la significancia de la nueva variable.
En otras palabras, la variable debe contribuir significativamente.
Interpretación de grados de libertad
La fórmula puede reescribirse como:
Donde:
- es la varianza estimada del error
- es la varianza muestral de
Los denominadores y son los grados de libertad correctos para estimadores insesgados de varianza.
Ejemplo numérico
Usando los datos de R²:
- (observaciones)
- (predictores, asumiendo dos features)
Cálculo:
Interpretación: Después de ajustar por el número de predictores, el modelo explica aproximadamente el 94.6% de la variabilidad.
Nota cómo el R² ajustado (0.946) es menor que el R² (0.982), reflejando la penalización por usar 2 predictores con solo 4 observaciones.
Comparación de modelos
| Modelo | |||
|---|---|---|---|
| A | 2 | 0.85 | 0.84 |
| B | 10 | 0.87 | 0.75 |
| C | 50 | 0.92 | 0.40 |
Aunque el modelo C tiene el R² más alto, su R² ajustado es el más bajo, indicando sobreajuste.
Limitaciones
-
Requiere : Si , el denominador es cero o negativo.
-
Asume linealidad: La fórmula está diseñada para regresión lineal.
-
No es definitivo: Un R² ajustado alto no garantiza un buen modelo; deben usarse otras técnicas de validación.
Implementación
import com.minerva.core.primitives.Matrix;import com.minerva.core.primitives.Vector;import com.minerva.metrics.RegressionMetrics.RegressionMetrics; public class R2AdjExample { public static void main(String[] args) { Vector actual = new Vector(new double[] {250, 300, 180, 420}); Vector predicted = new Vector(new double[] {245, 310, 175, 400}); int numFeatures = 2; RegressionMetrics metrics = new RegressionMetrics(); double r2adj = metrics.R2adj(actual, predicted, numFeatures); System.out.printf("R² Ajustado: %.4f%n", r2adj); }}R² Ajustado: 0.9463
Ver también
Bonus: Fundamentos teóricos del R² Ajustado
Advertencia
Esta sección requiere conocimientos de teoría de estimación y selección de modelos. Puedes saltarla sin perder continuidad.
Derivación del factor de ajuste
El R² ajustado se obtiene al usar estimadores insesgados de varianza.
El estimador insesgado de es:
El estimador insesgado de es:
Por lo tanto:
Estadístico Cp de Mallows
El Cp de Mallows es una alternativa al R² ajustado para selección de modelos:
donde es la varianza estimada del modelo completo.
Interpretación: Para un modelo bien especificado, .
Modelos con o son preferibles.
Relación con otros criterios
| Criterio | Fórmula simplificada | Penalización efectiva |
|---|---|---|
| R² adj | ||
| AIC | ||
| BIC | ||
| Mallows Cp |
Condición para que R² adj aumente
Al agregar variable :
donde:
Interpretación: La nueva variable debe reducir lo suficiente como para compensar la pérdida de un grado de libertad.
Shrinkage estimators
El R² ajustado puede verse como un caso de estimador encogido (shrinkage):
Otros estimadores propuestos:
Olkin-Pratt:
donde es la función hipergeométrica.
Ezekiel:
(idéntico al R² ajustado estándar)
Perspectiva bayesiana
Desde un enfoque bayesiano, la selección de modelos usa el factor de Bayes:
Bajo priors apropiados, esto se relaciona con BIC:
El R² ajustado no tiene interpretación bayesiana directa, pero los criterios de información sí aproximan el factor de Bayes.