Proyecto de Ciencia de Datos

Análisis de Factores de
Éxito Profesional en Estudiantes

Dataset sintético · 5 000 registros · Análisis exploratorio y estadístico inferencial

Ver proyecto completo | Ver dataset

Problema

¿Qué factores académicos, sociales e institucionales influyen en el éxito profesional temprano de los estudiantes universitarios? El fenómeno es multifactorial y no está bien explicado por análisis univariados tradicionales.

Objetivo

Caracterizar la relación entre variables como GPA, ranking universitario, habilidades blandas, networking y género con indicadores de éxito: salario inicial, empleabilidad y satisfacción profesional.

Decisiones Técnicas
  • Dataset sintético de 5 000 estudiantes para garantizar privacidad y control
  • Análisis descriptivo antes de cualquier inferencia estadística
  • Tests no paramétricos ante rechazo de normalidad (Shapiro-Wilk, K-S)
  • Chi-cuadrado para variables categóricas (género × categoría salarial)
  • Correlación de Pearson para relaciones lineales entre variables numéricas
  • Visualizaciones segmentadas por campo de estudio, género y nivel universitario
Metodología
  • EDA — distribuciones, outliers, valores nulos, varianzas
  • Estadística descriptiva — medias, medianas, IQR por grupo
  • Tests de normalidad — Shapiro-Wilk · Kolmogorov-Smirnov
  • Inferencia — Chi-cuadrado · Pearson r
  • Visualización — histogramas, boxplots, heatmaps, KDE
Resultados Principales
r<0.1
Correlaciones de Pearson entre variables individuales y salario — sin predictor lineal dominante
3 áreas
Medicine, Engineering y Law concentran los salarios más altos y mayor n.° de ofertas
Brecha ♂
Leve pero consistente en todas las comparaciones de género, incluso controlando por disciplina
≠ dims
Satisfacción profesional es independiente del salario: éxito es multidimensional
Hallazgos Adicionales
  • Networking muestra tendencia positiva débil con salario promedio — no determinante
  • University_Ranking presenta la mayor varianza del conjunto de datos
  • Tests de normalidad rechazan H₀ en todos los casos (n=5 000, alta sensibilidad)
  • Ningún predictor individual es suficiente; la explicación es multivariante
Tecnologías Utilizadas
Python 3 pandas NumPy matplotlib seaborn scipy.stats Jupyter Notebook Google Colab
Limitaciones
  • Dataset sintético — validez externa limitada
  • Sin variables temporales ni trayectorias de carrera
  • Ausencia de sector económico, región y tipo de empresa
  • Análisis descriptivo-correlacional; no se establecen relaciones causales
💡

El proyecto demuestra que el éxito profesional temprano es inherentemente multifactorial: ningún indicador individual lo determina, y su análisis requiere el ciclo completo de la ciencia de datos — desde la limpieza y exploración hasta la inferencia estadística — para caracterizar fenómenos sociales complejos de forma rigurosa y honesta.