Problema
Los datos PISA ofrecen información rica sobre contexto socioeconómico y rendimiento académico, pero existe escasa evidencia sobre qué variables permiten predecir el alto rendimiento sin usar puntajes previos. El desbalance de clases (72.6% / 27.4%) y la heterogeneidad entre países complejizan la tarea.
Objetivo
Aprender una función f: X → {0,1} donde y = 1 ⟺ PISA_AVG ≥ 500, maximizando ROC-AUC sobre un conjunto de test estratificado. Incorporar análisis de calibración de probabilidades y optimización del umbral de decisión.
Decisiones Técnicas
- Variable objetivo binaria: High_Performer (PISA_AVG ≥ 500)
- Enriquecimiento con 4 variables macroeconómicas a nivel país (HDI, GDP PPP, Education Index, Internet)
- Imputación por media para valores faltantes (ICTRES: 26.9%)
- Manejo de desbalance con class_weight='balanced'
- Umbral de decisión optimizado por F1 (no default 0.5)
- Post-calibración isotónica para comunicar probabilidades
Metodología
- EDA: distribución por país, correlaciones, desbalance de clases
- Modelos: Regresión Logística · Random Forest · Gradient Boosting
- Validación: train/test estratificado; ROC-AUC, AP, F1, Brier Score
- Extensiones: curvas Precision-Recall, análisis de umbral óptimo, calibración isotónica
- Importancia: ESCS ~23% individual; variables macro ~52% en conjunto
Resultados Principales
≈ 0.64–0.65
F1 con umbral opt.
Los tres modelos convergen en F1≈0.64–0.65 con umbrales optimizados. El umbral óptimo de GB es 0.31 (no 0.5). La calibración isotónica mejora el Brier Score en todos los modelos.
Tecnologías Utilizadas
Python 3.12
scikit-learn 1.4
pandas
numpy
matplotlib
seaborn
Gradient Boosting
Random Forest
Logistic Regression
CalibratedClassifierCV
Conclusión
El contexto socioeconómico y macroeconómico predice el alto rendimiento académico con ROC-AUC = 0.853 sin usar puntajes previos. Las variables macro dominan (~52%), lo que evidencia que intervenciones exclusivamente escolares tienen alcance limitado frente a condiciones estructurales.