Python · Wine dataset · Minería de datos
Análisis de datos Wine: preparación, EDA, PCA y clasificación
Este post convierte el notebook original en un flujo práctico de análisis de datos: cargar el dataset Wine, inspeccionar variables, escalar los datos, reducir dimensionalidad y validar un clasificador con partición train/test.
Qué problema resuelve este análisis
El dataset Wine contiene medidas químicas de distintos tipos de vino. El objetivo es entender qué variables separan las clases y comprobar si un modelo supervisado puede clasificar el origen de un vino a partir de esas medidas.
1. Carga y validación
Revisar filas, columnas, nombres de variables, clases objetivo y valores ausentes antes de modelar.
2. Exploración
Usar estadística descriptiva y gráficos para detectar escalas distintas, outliers y separación entre clases.
3. Reducir dimensiones
Comparar PCA y t-SNE como vistas complementarias: PCA explica varianza y t-SNE ayuda a ver estructura local.
4. Entrenar y evaluar
Separar train/test y usar métricas como accuracy y matriz de confusión para no evaluar el modelo por intuición.
Conclusión práctica
La lección importante no es solo el clasificador final. El valor está en la secuencia completa: entender los datos, transformarlos cuando hace falta, visualizarlos desde varias perspectivas y después entrenar el modelo.