Fase de Comprensión de los Datos en CRISP-DM: Análisis Exploratorio y Evaluación de la Calidad del Dato
Fase de Comprensión de los Datos en CRISP-DM: análisis exploratorio, calidad del dato y limitaciones
Esta fase sirve para conocer en profundidad los datos antes de transformarlos o modelarlos. Reduce riesgos, detecta problemas tempranos y permite ajustar el planteamiento definido previamente. Aquí el proyecto pasa de la teoría a la realidad del dato.
Accesos rápidos
Qué es esta fase
Es la etapa en la que se recopilan los datos iniciales, se exploran sus características, se evalúa su calidad y se identifican limitaciones y oportunidades analíticas. La intención no es arreglar nada todavía, sino entender qué representan los datos y qué tan confiables son.
flowchart LR A[Recolectar] --> B[Describir] B --> C[Explorar] C --> D[Evaluar calidad] D --> E[Decidir próximos pasos]
Qué se busca conseguir
El objetivo es responder con precisión qué datos existen realmente, si son suficientes para el objetivo planteado, qué problemas presentan y qué patrones iniciales aparecen. Las respuestas pueden confirmar el enfoque inicial o forzar ajustes antes de invertir en limpieza, variables y modelos.
flowchart TD A[Qué datos hay] --> B[Suficiencia] B --> C[Problemas] C --> D[Patrones iniciales]
Si no se responde bien aquí, es fácil construir después modelos fiables sobre datos que no lo son.
Actividades principales
Recolección inicial de los datos
Se identifican y acceden a las fuentes disponibles, como bases internas, registros históricos, sensores o fuentes externas. Se documenta el origen, el formato y el alcance de cada conjunto de datos, porque ese contexto explica tanto sus posibilidades como sus límites.
flowchart TD A[Fuentes] --> B[Acceso] B --> C[Extracción] C --> D[Documentar]
Descripción de los datos
Se realiza un análisis descriptivo inicial: volumen de registros, tipos de variables, distribuciones básicas y rangos de valores. Es la primera fotografía del dataset y suele revelar rápidamente incongruencias o campos poco útiles.
flowchart TD A[Volumen] --> D[Foto inicial] B[Tipos] --> D C[Rangos] --> D
Exploración de los datos (EDA)
Se aplican técnicas de análisis exploratorio: visualización de distribuciones, correlaciones, detección de valores atípicos y patrones preliminares. Aquí aparecen hipótesis que más adelante se contrastarán con pruebas y validación adecuada.
flowchart TD A[Distribuciones] --> D[Hipótesis] B[Correlaciones] --> D C[Atípicos] --> D
Evaluación de la calidad de los datos
Se analizan problemas frecuentes: valores faltantes, errores de codificación, duplicados, inconsistencias lógicas y sesgos de muestra. La calidad del dato condiciona directamente la fiabilidad del resultado final, incluso con algoritmos sofisticados.
flowchart TD A[Nulos] --> F[Calidad] B[Codificación] --> F C[Duplicados] --> F D[Inconsistencias] --> F E[Sesgos] --> F
Resultados esperados
Al finalizar esta fase se obtiene un conocimiento realista del dataset, la identificación de limitaciones técnicas, decisiones informadas sobre cómo se prepararán los datos y, si hace falta, ajustes en los objetivos analíticos. En muchos proyectos, este punto obliga a volver a replantear el encaje del objetivo con lo que los datos permiten.
flowchart TD A[Entender dataset] --> D[Decisiones] B[Detectar límites] --> D C[Ajustar enfoque] --> D
Si se detecta una brecha fuerte entre objetivo y datos, conviene revisar la definición del problema: Definir decisión y éxito
Errores comunes
- Asumir que los datos son correctos sin comprobar.
- No explorar visualmente y perder patrones evidentes.
- Ignorar sesgos que distorsionan el resultado.
- Confiar solo en estadísticas básicas y no en el contexto.
- Subestimar la complejidad del dato y sus excepciones.
flowchart TD A[Suposiciones] --> C[Datos defectuosos] B[Sin EDA] --> C C --> D[Modelo poco fiable]
Relación con la preparación
Esta fase no modifica el dataset, no crea variables nuevas y no entrena modelos. Su función es informar y guiar el trabajo posterior: qué limpiar, qué transformar, qué integrar y qué señales construir. Una buena comprensión reduce retrabajo y evita “arreglar a ciegas”.
flowchart LR A[Hallazgos] --> B[Decisiones] B --> C[Preparación] C --> D[Dataset final]
Para ver cómo se materializa este paso, consulta: Preparar el dataset final
Importancia estratégica
Esta fase evita modelos construidos sobre datos defectuosos, decisiones basadas en información incompleta y pérdida de tiempo en enfoques inviables. Es un control temprano que protege el proyecto y hace que el esfuerzo de preparación y modelado esté bien dirigido.
flowchart TD A[Comprender] --> B[Reducir riesgos] A --> C[Ahorrar tiempo] A --> D[Mejor fiabilidad]
Conclusión
Este es el momento de confrontar expectativas con realidad. Un análisis honesto y riguroso aquí ahorra errores, costes y frustración en fases posteriores. Comprender los datos es una condición previa para extraer conocimiento fiable.
flowchart TD A[Expectativas] --> B[Realidad del dato] B --> C[Decisiones informadas]
Lecturas relacionadas:
Visión completa del proceso
Definir problema y éxito
Siguiente paso: preparar datos
Comentarios
Publicar un comentario