PISA 2022 — Resumen del Proyecto

Problema

Los datos PISA ofrecen información rica sobre contexto socioeconómico y rendimiento académico, pero existe escasa evidencia sobre qué variables permiten predecir el alto rendimiento sin usar puntajes previos. El desbalance de clases (72.6% / 27.4%) y la heterogeneidad entre países complejizan la tarea.

Objetivo

Aprender una función f: X → {0,1} donde y = 1 ⟺ PISA_AVG ≥ 500, maximizando ROC-AUC sobre un conjunto de test estratificado. Incorporar análisis de calibración de probabilidades y optimización del umbral de decisión.

Decisiones Técnicas

Variable objetivo binaria: High_Performer (PISA_AVG ≥ 500)
Enriquecimiento con 4 variables macroeconómicas a nivel país (HDI, GDP PPP, Education Index, Internet)
Imputación por media para valores faltantes (ICTRES: 26.9%)
Manejo de desbalance con class_weight='balanced'
Umbral de decisión optimizado por F1 (no default 0.5)
Post-calibración isotónica para comunicar probabilidades

Metodología

EDA: distribución por país, correlaciones, desbalance de clases
Modelos: Regresión Logística · Random Forest · Gradient Boosting
Validación: train/test estratificado; ROC-AUC, AP, F1, Brier Score
Extensiones: curvas Precision-Recall, análisis de umbral óptimo, calibración isotónica
Importancia: ESCS ~23% individual; variables macro ~52% en conjunto

Resultados Principales

0.853

ROC-AUC (GB)

0.670

Avg. Precision

≈ 0.64–0.65

F1 con umbral opt.

0.133

Brier Score (GB)

Los tres modelos convergen en F1≈0.64–0.65 con umbrales optimizados. El umbral óptimo de GB es 0.31 (no 0.5). La calibración isotónica mejora el Brier Score en todos los modelos.

Tecnologías Utilizadas

Python 3.12 scikit-learn 1.4 pandas numpy matplotlib seaborn Gradient Boosting Random Forest Logistic Regression CalibratedClassifierCV

Conclusión

El contexto socioeconómico y macroeconómico predice el alto rendimiento académico con ROC-AUC = 0.853 sin usar puntajes previos. Las variables macro dominan (~52%), lo que evidencia que intervenciones exclusivamente escolares tienen alcance limitado frente a condiciones estructurales.

Predicción del Alto Rendimiento Académico en PISA 2022Clasificación Supervisada Multivariable

Predicción del Alto Rendimiento Académico en PISA 2022
Clasificación Supervisada Multivariable