UTEC · Especialización en Ciencia de Datos e IA · Aprendizaje Automático · 2026

Predicción del Alto Rendimiento Académico en PISA 2022
Clasificación Supervisada Multivariable

Yuri Martín Biardo  ·  Versión extendida: Curvas PR + Calibración de probabilidades
ROC-AUC = 0.853
N = 59,552 estudiantes
12 países · OCDE PISA 2022
PISA 2022
OECD · Programme for International Student Assessment 2022
Problema

Los datos PISA ofrecen información rica sobre contexto socioeconómico y rendimiento académico, pero existe escasa evidencia sobre qué variables permiten predecir el alto rendimiento sin usar puntajes previos. El desbalance de clases (72.6% / 27.4%) y la heterogeneidad entre países complejizan la tarea.

Objetivo

Aprender una función f: X → {0,1} donde y = 1 ⟺ PISA_AVG ≥ 500, maximizando ROC-AUC sobre un conjunto de test estratificado. Incorporar análisis de calibración de probabilidades y optimización del umbral de decisión.

Decisiones Técnicas
  • Variable objetivo binaria: High_Performer (PISA_AVG ≥ 500)
  • Enriquecimiento con 4 variables macroeconómicas a nivel país (HDI, GDP PPP, Education Index, Internet)
  • Imputación por media para valores faltantes (ICTRES: 26.9%)
  • Manejo de desbalance con class_weight='balanced'
  • Umbral de decisión optimizado por F1 (no default 0.5)
  • Post-calibración isotónica para comunicar probabilidades
Metodología
  • EDA: distribución por país, correlaciones, desbalance de clases
  • Modelos: Regresión Logística · Random Forest · Gradient Boosting
  • Validación: train/test estratificado; ROC-AUC, AP, F1, Brier Score
  • Extensiones: curvas Precision-Recall, análisis de umbral óptimo, calibración isotónica
  • Importancia: ESCS ~23% individual; variables macro ~52% en conjunto
Resultados Principales
0.853
ROC-AUC (GB)
0.670
Avg. Precision
≈ 0.64–0.65
F1 con umbral opt.
0.133
Brier Score (GB)

Los tres modelos convergen en F1≈0.64–0.65 con umbrales optimizados. El umbral óptimo de GB es 0.31 (no 0.5). La calibración isotónica mejora el Brier Score en todos los modelos.

Tecnologías Utilizadas
Python 3.12 scikit-learn 1.4 pandas numpy matplotlib seaborn Gradient Boosting Random Forest Logistic Regression CalibratedClassifierCV
Conclusión

El contexto socioeconómico y macroeconómico predice el alto rendimiento académico con ROC-AUC = 0.853 sin usar puntajes previos. Las variables macro dominan (~52%), lo que evidencia que intervenciones exclusivamente escolares tienen alcance limitado frente a condiciones estructurales.