Fase de Comprensión de los Datos en CRISP-DM: Análisis Exploratorio y Evaluación de la Calidad del Dato

Fase de Comprensión de los Datos en CRISP-DM: análisis exploratorio, calidad del dato y limitaciones

Fase de Comprensión de los Datos en CRISP-DM: análisis exploratorio, calidad del dato y limitaciones

Esta fase sirve para conocer en profundidad los datos antes de transformarlos o modelarlos. Reduce riesgos, detecta problemas tempranos y permite ajustar el planteamiento definido previamente. Aquí el proyecto pasa de la teoría a la realidad del dato.

Qué es esta fase

Es la etapa en la que se recopilan los datos iniciales, se exploran sus características, se evalúa su calidad y se identifican limitaciones y oportunidades analíticas. La intención no es arreglar nada todavía, sino entender qué representan los datos y qué tan confiables son.

flowchart LR
A[Recolectar] --> B[Describir]
B --> C[Explorar]
C --> D[Evaluar calidad]
D --> E[Decidir próximos pasos]

Qué se busca conseguir

El objetivo es responder con precisión qué datos existen realmente, si son suficientes para el objetivo planteado, qué problemas presentan y qué patrones iniciales aparecen. Las respuestas pueden confirmar el enfoque inicial o forzar ajustes antes de invertir en limpieza, variables y modelos.

flowchart TD
A[Qué datos hay] --> B[Suficiencia]
B --> C[Problemas]
C --> D[Patrones iniciales]

Si no se responde bien aquí, es fácil construir después modelos fiables sobre datos que no lo son.


Actividades principales

Recolección inicial de los datos

Se identifican y acceden a las fuentes disponibles, como bases internas, registros históricos, sensores o fuentes externas. Se documenta el origen, el formato y el alcance de cada conjunto de datos, porque ese contexto explica tanto sus posibilidades como sus límites.

flowchart TD
A[Fuentes] --> B[Acceso]
B --> C[Extracción]
C --> D[Documentar]

Descripción de los datos

Se realiza un análisis descriptivo inicial: volumen de registros, tipos de variables, distribuciones básicas y rangos de valores. Es la primera fotografía del dataset y suele revelar rápidamente incongruencias o campos poco útiles.

flowchart TD
A[Volumen] --> D[Foto inicial]
B[Tipos] --> D
C[Rangos] --> D

Exploración de los datos (EDA)

Se aplican técnicas de análisis exploratorio: visualización de distribuciones, correlaciones, detección de valores atípicos y patrones preliminares. Aquí aparecen hipótesis que más adelante se contrastarán con pruebas y validación adecuada.

flowchart TD
A[Distribuciones] --> D[Hipótesis]
B[Correlaciones] --> D
C[Atípicos] --> D

Evaluación de la calidad de los datos

Se analizan problemas frecuentes: valores faltantes, errores de codificación, duplicados, inconsistencias lógicas y sesgos de muestra. La calidad del dato condiciona directamente la fiabilidad del resultado final, incluso con algoritmos sofisticados.

flowchart TD
A[Nulos] --> F[Calidad]
B[Codificación] --> F
C[Duplicados] --> F
D[Inconsistencias] --> F
E[Sesgos] --> F

Resultados esperados

Al finalizar esta fase se obtiene un conocimiento realista del dataset, la identificación de limitaciones técnicas, decisiones informadas sobre cómo se prepararán los datos y, si hace falta, ajustes en los objetivos analíticos. En muchos proyectos, este punto obliga a volver a replantear el encaje del objetivo con lo que los datos permiten.

flowchart TD
A[Entender dataset] --> D[Decisiones]
B[Detectar límites] --> D
C[Ajustar enfoque] --> D

Si se detecta una brecha fuerte entre objetivo y datos, conviene revisar la definición del problema: Definir decisión y éxito

Errores comunes

  • Asumir que los datos son correctos sin comprobar.
  • No explorar visualmente y perder patrones evidentes.
  • Ignorar sesgos que distorsionan el resultado.
  • Confiar solo en estadísticas básicas y no en el contexto.
  • Subestimar la complejidad del dato y sus excepciones.
flowchart TD
A[Suposiciones] --> C[Datos defectuosos]
B[Sin EDA] --> C
C --> D[Modelo poco fiable]

Relación con la preparación

Esta fase no modifica el dataset, no crea variables nuevas y no entrena modelos. Su función es informar y guiar el trabajo posterior: qué limpiar, qué transformar, qué integrar y qué señales construir. Una buena comprensión reduce retrabajo y evita “arreglar a ciegas”.

flowchart LR
A[Hallazgos] --> B[Decisiones]
B --> C[Preparación]
C --> D[Dataset final]

Para ver cómo se materializa este paso, consulta: Preparar el dataset final

Importancia estratégica

Esta fase evita modelos construidos sobre datos defectuosos, decisiones basadas en información incompleta y pérdida de tiempo en enfoques inviables. Es un control temprano que protege el proyecto y hace que el esfuerzo de preparación y modelado esté bien dirigido.

flowchart TD
A[Comprender] --> B[Reducir riesgos]
A --> C[Ahorrar tiempo]
A --> D[Mejor fiabilidad]

Conclusión

Este es el momento de confrontar expectativas con realidad. Un análisis honesto y riguroso aquí ahorra errores, costes y frustración en fases posteriores. Comprender los datos es una condición previa para extraer conocimiento fiable.

flowchart TD
A[Expectativas] --> B[Realidad del dato]
B --> C[Decisiones informadas]

Lecturas relacionadas:
Visión completa del proceso Definir problema y éxito Siguiente paso: preparar datos

Comentarios

Entradas populares de este blog

Gestión del trabajo y del flujo: fundamentos prácticos para equipos y organizaciones