Fase de Modelado en CRISP-DM: Selección de Algoritmos, Entrenamiento y Ajuste de Modelos

Fase de Modelado en CRISP-DM: selección de algoritmos, entrenamiento y ajuste de modelos

Aquí el conocimiento latente en los datos se convierte en modelos predictivos o descriptivos. El éxito depende de lo anterior: modelar no es probar algoritmos al azar, sino tomar decisiones técnicas informadas y comparar resultados de forma controlada.

Ver la guía completa del proceso

Cómo preparar datos para modelar

Cómo decidir si el modelo sirve

Accesos rápidos

Qué es esta fase Qué se busca conseguir Actividades clave Resultados esperados Errores comunes Relación con la evaluación Importancia estratégica Conclusión

Qué es esta fase

Es la etapa en la que se seleccionan técnicas de modelado, se entrenan uno o varios modelos, se ajustan parámetros y se comparan resultados. Se asume que no existe un único modelo óptimo a priori, por lo que se fomenta la experimentación controlada y documentada.

flowchart LR
A[Elegir técnica] --> B[Entrenar]
B --> C[Ajustar]
C --> D[Comparar]
D --> A

Qué se busca conseguir

El objetivo es construir modelos que respondan al objetivo analítico definido, sean técnicamente sólidos, interpretables en el contexto del negocio y evaluables de forma objetiva. Un modelo muy preciso pero incomprensible puede ser rechazado si no se puede usar con confianza.

flowchart TD
A[Útil para la decisión] --> D[Modelo válido]
B[Sólido técnicamente] --> D
C[Comprensible] --> D

Actividades clave

Selección de técnicas de modelado

Se eligen algoritmos según el tipo de problema (clasificación, regresión, clustering), el volumen y tipo de datos, requisitos de interpretabilidad y limitaciones computacionales. Ejemplos habituales son regresión logística, árboles de decisión, Random Forest, redes neuronales o K-means.

flowchart TD
A[Tipo de problema] --> E[Elegir técnica]
B[Datos] --> E
C[Interpretabilidad] --> E
D[Coste computacional] --> E

Diseño del experimento

Se define cómo se probarán los modelos: conjuntos de entrenamiento y validación, estrategia de validación cruzada, métricas de evaluación y escenarios comparativos. Un buen diseño evita conclusiones erróneas y comparaciones injustas.

flowchart LR
A[Train] --> C[Entrenar]
B[Validación] --> D[Medir]
C --> D

Entrenamiento del modelo

Se ajustan los modelos a los datos para aprender patrones, optimizar parámetros y controlar el sobreajuste. Este proceso se repite en ciclos, comparando resultados y ajustando decisiones previas si es necesario.

flowchart TD
A[Patrones] --> C[Entrenamiento]
B[Regularización] --> C
C --> D[Generalización]

Ajuste de parámetros

Se optimizan hiperparámetros mediante búsqueda en rejilla, búsqueda aleatoria o métodos bayesianos. El objetivo es mejorar rendimiento sin sacrificar la capacidad de generalizar a datos nuevos.

flowchart LR
A[Hiperparámetros] --> B[Buscar]
B --> C[Mejor combinación]

Resultados esperados

Al finalizar esta fase se dispone de uno o varios modelos candidatos, resultados cuantificados mediante métricas, comparativas entre enfoques y documentación técnica del proceso. Estos resultados pasan al filtro de decisión de la siguiente fase.

flowchart LR
A[Modelos candidatos] --> B[Métricas]
B --> C[Comparativa]
C --> D[Evaluación]

Errores comunes

Optimizar solo métricas técnicas sin pensar en utilidad real.
Ignorar el sobreajuste y celebrar resultados engañosos.
Usar modelos complejos sin justificación.
No documentar decisiones, datos y cambios.
Ajustar modelos sobre datos mal preparados.

flowchart TD
A[Datos débiles] --> C[Modelo frágil]
B[Sobreajuste] --> C
C --> D[Sorpresa en validación]

Si el problema viene de la base, conviene revisar la preparación: Preparación del dataset

Relación con la evaluación

CRISP-DM separa claramente construir modelos de decidir si sirven. En esta fase se generan candidatos y evidencia cuantificada. En la evaluación se decide si el resultado es aceptable desde el punto de vista técnico y práctico. Esta separación reduce sesgos y evita decisiones precipitadas.

flowchart LR
A[Construir] --> B[Modelos]
B --> C[Decidir]
C --> D[Uso o iteración]

Para ver el filtro completo: Evaluación y criterio de decisión

Importancia estratégica

El modelado en CRISP-DM se plantea como un proceso iterativo, controlado y justificado, alineado con el negocio. No busca “el algoritmo más moderno”, sino un equilibrio entre rendimiento, comprensión y viabilidad de uso.

flowchart TD
A[Iterar] --> D[Modelo útil]
B[Controlar] --> D
C[Justificar] --> D

Conclusión

Esta fase consiste en construir modelos adecuados, evaluables y alineados con un propósito real. Un buen modelo es el que puede ser utilizado, entendido y mantenido, no solo el que maximiza una métrica en un entorno controlado.

flowchart TD
A[Modelo] --> B[Comprensión]
B --> C[Uso real]

Lecturas relacionadas:
Visión completa del proceso Preparación del dataset Siguiente paso: evaluación

Buscar este blog

Claves del aprendizaje