R² Ajustado

El R² Ajustado es una modificación del R² que penaliza la inclusión de variables irrelevantes en el modelo. Resuelve el problema de que el R² siempre aumenta al agregar más predictores.

Motivación

Como vimos en R², agregar variables siempre mejora (o mantiene) el ajuste:

R^2_{p+1} \geq R^2_p

Esto puede llevar a sobreajuste: un modelo con muchas variables tendrá R² alto en los datos de entrenamiento, pero predecirá mal en datos nuevos.

El R² Ajustado introduce una penalización que crece con el número de variables.

Definición

Sea $n$ el número de observaciones y $p$ el número de predictores (sin contar el intercepto).

R^2_{adj} = 1 - (1 - R^2) \cdot \frac{n - 1}{n - p - 1}

Alternativamente, en términos de sumas de cuadrados:

R^2_{adj} = 1 - \frac{SS_{res} / (n - p - 1)}{SS_{tot} / (n - 1)}

Desglose de la fórmula

Símbolo	Nombre	Significado
$R^2$	R² ordinario	Proporción de varianza explicada
$n$	Observaciones	Número de datos
$p$	Predictores	Número de variables independientes
$n - p - 1$	Grados de libertad residuales	GL para estimar la varianza del error
$n - 1$	Grados de libertad totales	GL para estimar la varianza de $y$

Propiedades matemáticas

Propiedad 1: Factor de penalización

El término $\frac{n - 1}{n - p - 1}$ es siempre $\geq 1$ y crece cuando:

$p$ aumenta (más variables)
$n$ disminuye (menos datos)

\frac{n - 1}{n - p - 1} = 1 + \frac{p}{n - p - 1}

Propiedad 2: Puede ser negativo

A diferencia del R² en regresión lineal, el R² ajustado puede ser negativo:

R^2_{adj} < 0 \text{ cuando } R^2 < \frac{p}{n - 1}

Esto ocurre cuando el modelo explica menos varianza de la que se "pierde" por la penalización.

Propiedad 3: Relación con R²

R^2_{adj} \leq R^2

La igualdad se da solo cuando $p = 0$ (modelo sin predictores).

Propiedad 4: Selección de modelos

Al agregar una variable $x_{p+1}$ , el R² ajustado aumenta solo si:

F_{p+1} > 1

donde $F_{p+1}$ es el estadístico F para la significancia de la nueva variable.

En otras palabras, la variable debe contribuir significativamente.

Interpretación de grados de libertad

La fórmula puede reescribirse como:

R^2_{adj} = 1 - \frac{\hat{\sigma}^2_{\epsilon}}{\hat{\sigma}^2_y}

Donde:

$\hat{\sigma}^2_{\epsilon} = \frac{SS_{res}}{n - p - 1}$ es la varianza estimada del error
$\hat{\sigma}^2_y = \frac{SS_{tot}}{n - 1}$ es la varianza muestral de $y$

Los denominadores $n - p - 1$ y $n - 1$ son los grados de libertad correctos para estimadores insesgados de varianza.

Ejemplo numérico

Usando los datos de R²:

$n = 4$ (observaciones)
$p = 2$ (predictores, asumiendo dos features)
$R^2 = 0.9821$

Cálculo:

R^2_{adj} = 1 - (1 - 0.9821) \cdot \frac{4 - 1}{4 - 2 - 1}

= 1 - 0.0179 \cdot \frac{3}{1}

= 1 - 0.0537

= 0.9463

Interpretación: Después de ajustar por el número de predictores, el modelo explica aproximadamente el 94.6% de la variabilidad.

Nota cómo el R² ajustado (0.946) es menor que el R² (0.982), reflejando la penalización por usar 2 predictores con solo 4 observaciones.

Comparación de modelos

Modelo	$p$	$R^2$	$R^2_{adj}$
A	2	0.85	0.84
B	10	0.87	0.75
C	50	0.92	0.40

Aunque el modelo C tiene el R² más alto, su R² ajustado es el más bajo, indicando sobreajuste.

Limitaciones

Requiere $n > p + 1$ : Si $n \leq p + 1$ , el denominador es cero o negativo.
Asume linealidad: La fórmula está diseñada para regresión lineal.
No es definitivo: Un R² ajustado alto no garantiza un buen modelo; deben usarse otras técnicas de validación.

Implementación

Example.java

import com.minerva.core.primitives.Matrix;
import com.minerva.core.primitives.Vector;
import com.minerva.metrics.RegressionMetrics.RegressionMetrics;
 
public class R2AdjExample {
    public static void main(String[] args) {
        Vector actual = new Vector(new double[] {250, 300, 180, 420});
        Vector predicted = new Vector(new double[] {245, 310, 175, 400});
        int numFeatures = 2;
        
        RegressionMetrics metrics = new RegressionMetrics();
        double r2adj = metrics.R2adj(actual, predicted, numFeatures);
        
        System.out.printf("R² Ajustado: %.4f%n", r2adj);
    }
}

java R2AdjExample

R² Ajustado: 0.9463

Ver también

R² — Versión sin penalización
MSE — Base del cálculo

Bonus: Fundamentos teóricos del R² Ajustado

Advertencia

Esta sección requiere conocimientos de teoría de estimación y selección de modelos. Puedes saltarla sin perder continuidad.

Derivación del factor de ajuste

El R² ajustado se obtiene al usar estimadores insesgados de varianza.

El estimador insesgado de $\sigma^2_\epsilon$ es:

\hat{\sigma}^2_\epsilon = \frac{SS_{res}}{n - p - 1}

El estimador insesgado de $\sigma^2_y$ es:

\hat{\sigma}^2_y = \frac{SS_{tot}}{n - 1}

Por lo tanto:

R^2_{adj} = 1 - \frac{\hat{\sigma}^2_\epsilon}{\hat{\sigma}^2_y} = 1 - \frac{SS_{res}/(n-p-1)}{SS_{tot}/(n-1)}

= 1 - \frac{n-1}{n-p-1} \cdot \frac{SS_{res}}{SS_{tot}} = 1 - (1 - R^2) \cdot \frac{n-1}{n-p-1}

Estadístico Cp de Mallows

El Cp de Mallows es una alternativa al R² ajustado para selección de modelos:

C_p = \frac{SS_{res}}{\hat{\sigma}^2} - n + 2(p + 1)

donde $\hat{\sigma}^2$ es la varianza estimada del modelo completo.

Interpretación: Para un modelo bien especificado, $\mathbb{E}[C_p] \approx p + 1$ .

Modelos con $C_p < p + 1$ o $C_p \approx p + 1$ son preferibles.

Relación con otros criterios

Criterio	Fórmula simplificada	Penalización efectiva
R² adj	$1 - (1-R^2)\frac{n-1}{n-p-1}$	$\frac{p}{n-p-1}(1-R^2)$
AIC	$n\ln(\text{MSE}) + 2p$	$2p$
BIC	$n\ln(\text{MSE}) + p\ln(n)$	$p\ln(n)$
Mallows Cp	$\frac{SS_{res}}{\hat{\sigma}^2} + 2p - n$	$2p$

Condición para que R² adj aumente

Al agregar variable $x_{p+1}$ :

R^2_{adj,p+1} > R^2_{adj,p} \iff F_{parcial} > 1

donde:

F_{parcial} = \frac{(SS_{res,p} - SS_{res,p+1})/1}{SS_{res,p+1}/(n-p-2)}

Interpretación: La nueva variable debe reducir $SS_{res}$ lo suficiente como para compensar la pérdida de un grado de libertad.

Shrinkage estimators

El R² ajustado puede verse como un caso de estimador encogido (shrinkage):

\hat{\rho}^2_{shrink} = \max\left(0, 1 - \frac{(1-R^2)(n-1)}{n-p-1}\right)

Otros estimadores propuestos:

Olkin-Pratt:

\hat{\rho}^2_{OP} = 1 - \frac{n-3}{n-p-1}(1-R^2) \cdot {}_2F_1\left(1, 1; \frac{n-p+1}{2}; 1-R^2\right)

donde ${}_2F_1$ es la función hipergeométrica.

Ezekiel:

\hat{\rho}^2_E = 1 - \frac{(n-1)(1-R^2)}{n-p-1}

(idéntico al R² ajustado estándar)

Perspectiva bayesiana

Desde un enfoque bayesiano, la selección de modelos usa el factor de Bayes:

BF_{01} = \frac{P(D|M_0)}{P(D|M_1)}

Bajo priors apropiados, esto se relaciona con BIC:

\ln(BF_{01}) \approx \frac{1}{2}(\text{BIC}_1 - \text{BIC}_0)

El R² ajustado no tiene interpretación bayesiana directa, pero los criterios de información sí aproximan el factor de Bayes.