🧠 Python EDA Toolkit
Framework reusable en Python diseñado para automatizar workflows de análisis exploratorio de datos, recomendaciones de preprocessing y benchmarking inicial de Machine Learning.
El proyecto nace de una necesidad muy común en Data Science:
tener acceso a datos no significa necesariamente saber cómo interpretarlos, prepararlos o convertirlos en decisiones útiles.
Python EDA Toolkit ayuda a transformar datasets crudos en insights accionables desde el primer momento mediante un flujo automatizado y escalable.
✨ ¿Qué hace el toolkit?
• Analiza automáticamente la estructura del dataset.
• Detecta problemas de calidad y riesgos analíticos.
• Identifica columnas conflictivas y valores atípicos.
• Genera recomendaciones inteligentes de preprocessing.
• Sugiere modelos baseline para comenzar experimentación ML.
• Crea diagnósticos visuales adaptativos sin saturar el reporte.
• Exporta reportes HTML reutilizables y ligeros.
📊 Funcionalidades principales
✅ Data Readiness Scoring
Evaluación automática del nivel de madurez del dataset para workflows de Machine Learning.
✅ Smart Analytical Insights
Observaciones automáticas sobre relaciones entre variables, skewness, correlaciones y señales relevantes.
✅ Data Quality Risk Detection
Detección de duplicados, missing values, outliers y columnas potencialmente problemáticas.
✅ Adaptive Visual Diagnostics
Visualizaciones optimizadas según tamaño del dataset y complejidad estructural.
✅ Baseline ML Recommendations
Sugerencias automáticas de modelos candidatos como Ridge Regression, Random Forest o HistGradientBoosting.
✅ Reusable HTML Reports
Generación de informes modernos y reutilizables preparados para compartir.
⚙️ Tecnologías utilizadas
Python · Pandas · NumPy · Scikit-learn · Matplotlib · Seaborn · SciPy
🎯 Objetivo del proyecto
Más allá de generar gráficos, el objetivo es ayudar a razonar sobre los datos:
entender su estructura, detectar riesgos y acelerar decisiones antes incluso de entrenar un modelo.