Fase de Preparación de los Datos en CRISP-DM: Limpieza, Transformación y Construcción del Dataset Final
Fase de Preparación de los Datos en CRISP-DM: limpieza, transformación y construcción del dataset final
Esta fase transforma datos crudos y heterogéneos en un conjunto fiable y coherente listo para el modelado. Es la etapa más intensiva en tiempo y esfuerzo, y donde se materializa gran parte del éxito o fracaso del proyecto.
Accesos rápidos
Qué es esta fase
Es la etapa en la que se construye el dataset final que será utilizado en el modelado. A diferencia de la fase anterior, aquí los datos sí se modifican, combinan y transforman de forma explícita. Las decisiones técnicas tomadas aquí determinan la calidad del resultado final.
flowchart LR A[Datos crudos] --> B[Preparación] B --> C[Dataset final] C --> D[Listo para modelar]
Qué se busca conseguir
El objetivo es crear un conjunto de datos consistente, que represente correctamente el fenómeno estudiado, minimice errores y ruido, y facilite el aprendizaje del modelo, manteniendo siempre la alineación con los objetivos definidos previamente.
flowchart TD A[Consistencia] --> D[Dataset útil] B[Representatividad] --> D C[Bajo ruido] --> D
Actividades clave
Selección de datos
Se decide qué datos se usarán realmente: se eliminan variables irrelevantes, se seleccionan registros útiles y se excluyen datos redundantes o no fiables. Esta selección reduce complejidad y mejora la interpretabilidad.
flowchart TD A[Datos disponibles] --> B[Filtrar] B --> C[Datos relevantes]
Limpieza de datos
Se corrigen problemas detectados previamente: valores nulos, duplicados, errores de codificación y valores atípicos. La limpieza no busca embellecer los datos, sino hacerlos utilizables.
flowchart TD A[Nulos] --> E[Limpieza] B[Duplicados] --> E C[Errores] --> E D[Atípicos] --> E
Construcción de variables
Se crean nuevas variables a partir de las existentes mediante agregaciones, transformaciones matemáticas, codificación de categorías y escalado. Esta etapa puede marcar la diferencia entre un modelo mediocre y uno eficaz.
flowchart LR A[Variables base] --> B[Transformar] B --> C[Nuevas señales]
Integración de datos
Se combinan múltiples fuentes, como bases distintas, registros históricos y actuales, o fuentes internas y externas. Una integración incorrecta puede introducir sesgos graves.
flowchart TD A[Fuente 1] --> C[Integrar] B[Fuente 2] --> C C --> D[Vista unificada]
Formateo final del dataset
Se ajustan tipos de datos, estructura tabular y se separan conjuntos de entrenamiento y prueba. El resultado es el dataset final validado.
flowchart LR A[Datos preparados] --> B[Formatear] B --> C[Train/Test]
Resultados esperados
Al finalizar esta fase se obtiene un conjunto de datos limpio y coherente, variables relevantes bien definidas, documentación de las decisiones tomadas y una base sólida para el modelado. Este dataset se convierte en la referencia durante el resto del proyecto.
flowchart TD A[Dataset final] --> B[Modelado fiable] B --> C[Resultados estables]
Errores comunes
- Eliminar información relevante por exceso de limpieza.
- Introducir sesgos sin detectarlos.
- Crear variables sin sentido de negocio.
- No documentar transformaciones.
- Preparar datos distintos para entrenamiento y producción.
flowchart TD A[Malas decisiones] --> B[Producción] B --> C[Fallos]
Relación con el modelado
Esta fase condiciona el tipo de modelos posibles, influye directamente en la precisión, afecta a la interpretabilidad y determina la estabilidad del resultado. En CRISP-DM, el modelado depende completamente de la preparación.
flowchart LR A[Preparación] --> B[Modelado] B --> C[Rendimiento]
Para ver cómo se aprovecha este trabajo: Selección y ajuste de modelos
Importancia estratégica
CRISP-DM reconoce esta fase como crítica porque aquí se concentra la mayor parte del esfuerzo real, los errores son caros de corregir después y es donde se materializa la comprensión del problema.
flowchart TD A[Preparación sólida] --> B[Menos riesgos] A --> C[Mejor calidad] A --> D[Mayor estabilidad]
Conclusión
Esta fase es el núcleo técnico del proyecto. Preparar bien los datos no garantiza el éxito, pero una preparación deficiente casi asegura el fracaso. Preparar los datos es preparar el éxito del modelo.
flowchart TD A[Datos bien preparados] --> B[Modelo eficaz]
Lecturas relacionadas:
Visión completa del proceso
Comprender datos
Siguiente paso: modelado
Comentarios
Publicar un comentario