Fase de Preparación de los Datos en CRISP-DM: Limpieza, Transformación y Construcción del Dataset Final

Fase de Preparación de los Datos en CRISP-DM: limpieza, transformación y construcción del dataset final

Fase de Preparación de los Datos en CRISP-DM: limpieza, transformación y construcción del dataset final

Esta fase transforma datos crudos y heterogéneos en un conjunto fiable y coherente listo para el modelado. Es la etapa más intensiva en tiempo y esfuerzo, y donde se materializa gran parte del éxito o fracaso del proyecto.

Qué es esta fase

Es la etapa en la que se construye el dataset final que será utilizado en el modelado. A diferencia de la fase anterior, aquí los datos sí se modifican, combinan y transforman de forma explícita. Las decisiones técnicas tomadas aquí determinan la calidad del resultado final.

flowchart LR
A[Datos crudos] --> B[Preparación]
B --> C[Dataset final]
C --> D[Listo para modelar]

Qué se busca conseguir

El objetivo es crear un conjunto de datos consistente, que represente correctamente el fenómeno estudiado, minimice errores y ruido, y facilite el aprendizaje del modelo, manteniendo siempre la alineación con los objetivos definidos previamente.

flowchart TD
A[Consistencia] --> D[Dataset útil]
B[Representatividad] --> D
C[Bajo ruido] --> D

Actividades clave

Selección de datos

Se decide qué datos se usarán realmente: se eliminan variables irrelevantes, se seleccionan registros útiles y se excluyen datos redundantes o no fiables. Esta selección reduce complejidad y mejora la interpretabilidad.

flowchart TD
A[Datos disponibles] --> B[Filtrar]
B --> C[Datos relevantes]

Limpieza de datos

Se corrigen problemas detectados previamente: valores nulos, duplicados, errores de codificación y valores atípicos. La limpieza no busca embellecer los datos, sino hacerlos utilizables.

flowchart TD
A[Nulos] --> E[Limpieza]
B[Duplicados] --> E
C[Errores] --> E
D[Atípicos] --> E

Construcción de variables

Se crean nuevas variables a partir de las existentes mediante agregaciones, transformaciones matemáticas, codificación de categorías y escalado. Esta etapa puede marcar la diferencia entre un modelo mediocre y uno eficaz.

flowchart LR
A[Variables base] --> B[Transformar]
B --> C[Nuevas señales]

Integración de datos

Se combinan múltiples fuentes, como bases distintas, registros históricos y actuales, o fuentes internas y externas. Una integración incorrecta puede introducir sesgos graves.

flowchart TD
A[Fuente 1] --> C[Integrar]
B[Fuente 2] --> C
C --> D[Vista unificada]

Formateo final del dataset

Se ajustan tipos de datos, estructura tabular y se separan conjuntos de entrenamiento y prueba. El resultado es el dataset final validado.

flowchart LR
A[Datos preparados] --> B[Formatear]
B --> C[Train/Test]

Resultados esperados

Al finalizar esta fase se obtiene un conjunto de datos limpio y coherente, variables relevantes bien definidas, documentación de las decisiones tomadas y una base sólida para el modelado. Este dataset se convierte en la referencia durante el resto del proyecto.

flowchart TD
A[Dataset final] --> B[Modelado fiable]
B --> C[Resultados estables]

Errores comunes

  • Eliminar información relevante por exceso de limpieza.
  • Introducir sesgos sin detectarlos.
  • Crear variables sin sentido de negocio.
  • No documentar transformaciones.
  • Preparar datos distintos para entrenamiento y producción.
flowchart TD
A[Malas decisiones] --> B[Producción]
B --> C[Fallos]

Relación con el modelado

Esta fase condiciona el tipo de modelos posibles, influye directamente en la precisión, afecta a la interpretabilidad y determina la estabilidad del resultado. En CRISP-DM, el modelado depende completamente de la preparación.

flowchart LR
A[Preparación] --> B[Modelado]
B --> C[Rendimiento]

Para ver cómo se aprovecha este trabajo: Selección y ajuste de modelos

Importancia estratégica

CRISP-DM reconoce esta fase como crítica porque aquí se concentra la mayor parte del esfuerzo real, los errores son caros de corregir después y es donde se materializa la comprensión del problema.

flowchart TD
A[Preparación sólida] --> B[Menos riesgos]
A --> C[Mejor calidad]
A --> D[Mayor estabilidad]

Conclusión

Esta fase es el núcleo técnico del proyecto. Preparar bien los datos no garantiza el éxito, pero una preparación deficiente casi asegura el fracaso. Preparar los datos es preparar el éxito del modelo.

flowchart TD
A[Datos bien preparados] --> B[Modelo eficaz]

Lecturas relacionadas:
Visión completa del proceso Comprender datos Siguiente paso: modelado

Comentarios

Entradas populares de este blog

Gestión del trabajo y del flujo: fundamentos prácticos para equipos y organizaciones