Fase de Modelado en CRISP-DM: Selección de Algoritmos, Entrenamiento y Ajuste de Modelos

Fase de Modelado en CRISP-DM: selección de algoritmos, entrenamiento y ajuste de modelos

Fase de Modelado en CRISP-DM: selección de algoritmos, entrenamiento y ajuste de modelos

Aquí el conocimiento latente en los datos se convierte en modelos predictivos o descriptivos. El éxito depende de lo anterior: modelar no es probar algoritmos al azar, sino tomar decisiones técnicas informadas y comparar resultados de forma controlada.

Qué es esta fase

Es la etapa en la que se seleccionan técnicas de modelado, se entrenan uno o varios modelos, se ajustan parámetros y se comparan resultados. Se asume que no existe un único modelo óptimo a priori, por lo que se fomenta la experimentación controlada y documentada.

flowchart LR
A[Elegir técnica] --> B[Entrenar]
B --> C[Ajustar]
C --> D[Comparar]
D --> A

Qué se busca conseguir

El objetivo es construir modelos que respondan al objetivo analítico definido, sean técnicamente sólidos, interpretables en el contexto del negocio y evaluables de forma objetiva. Un modelo muy preciso pero incomprensible puede ser rechazado si no se puede usar con confianza.

flowchart TD
A[Útil para la decisión] --> D[Modelo válido]
B[Sólido técnicamente] --> D
C[Comprensible] --> D

Actividades clave

Selección de técnicas de modelado

Se eligen algoritmos según el tipo de problema (clasificación, regresión, clustering), el volumen y tipo de datos, requisitos de interpretabilidad y limitaciones computacionales. Ejemplos habituales son regresión logística, árboles de decisión, Random Forest, redes neuronales o K-means.

flowchart TD
A[Tipo de problema] --> E[Elegir técnica]
B[Datos] --> E
C[Interpretabilidad] --> E
D[Coste computacional] --> E

Diseño del experimento

Se define cómo se probarán los modelos: conjuntos de entrenamiento y validación, estrategia de validación cruzada, métricas de evaluación y escenarios comparativos. Un buen diseño evita conclusiones erróneas y comparaciones injustas.

flowchart LR
A[Train] --> C[Entrenar]
B[Validación] --> D[Medir]
C --> D

Entrenamiento del modelo

Se ajustan los modelos a los datos para aprender patrones, optimizar parámetros y controlar el sobreajuste. Este proceso se repite en ciclos, comparando resultados y ajustando decisiones previas si es necesario.

flowchart TD
A[Patrones] --> C[Entrenamiento]
B[Regularización] --> C
C --> D[Generalización]

Ajuste de parámetros

Se optimizan hiperparámetros mediante búsqueda en rejilla, búsqueda aleatoria o métodos bayesianos. El objetivo es mejorar rendimiento sin sacrificar la capacidad de generalizar a datos nuevos.

flowchart LR
A[Hiperparámetros] --> B[Buscar]
B --> C[Mejor combinación]

Resultados esperados

Al finalizar esta fase se dispone de uno o varios modelos candidatos, resultados cuantificados mediante métricas, comparativas entre enfoques y documentación técnica del proceso. Estos resultados pasan al filtro de decisión de la siguiente fase.

flowchart LR
A[Modelos candidatos] --> B[Métricas]
B --> C[Comparativa]
C --> D[Evaluación]

Errores comunes

  • Optimizar solo métricas técnicas sin pensar en utilidad real.
  • Ignorar el sobreajuste y celebrar resultados engañosos.
  • Usar modelos complejos sin justificación.
  • No documentar decisiones, datos y cambios.
  • Ajustar modelos sobre datos mal preparados.
flowchart TD
A[Datos débiles] --> C[Modelo frágil]
B[Sobreajuste] --> C
C --> D[Sorpresa en validación]

Si el problema viene de la base, conviene revisar la preparación: Preparación del dataset

Relación con la evaluación

CRISP-DM separa claramente construir modelos de decidir si sirven. En esta fase se generan candidatos y evidencia cuantificada. En la evaluación se decide si el resultado es aceptable desde el punto de vista técnico y práctico. Esta separación reduce sesgos y evita decisiones precipitadas.

flowchart LR
A[Construir] --> B[Modelos]
B --> C[Decidir]
C --> D[Uso o iteración]

Para ver el filtro completo: Evaluación y criterio de decisión

Importancia estratégica

El modelado en CRISP-DM se plantea como un proceso iterativo, controlado y justificado, alineado con el negocio. No busca “el algoritmo más moderno”, sino un equilibrio entre rendimiento, comprensión y viabilidad de uso.

flowchart TD
A[Iterar] --> D[Modelo útil]
B[Controlar] --> D
C[Justificar] --> D

Conclusión

Esta fase consiste en construir modelos adecuados, evaluables y alineados con un propósito real. Un buen modelo es el que puede ser utilizado, entendido y mantenido, no solo el que maximiza una métrica en un entorno controlado.

flowchart TD
A[Modelo] --> B[Comprensión]
B --> C[Uso real]

Lecturas relacionadas:
Visión completa del proceso Preparación del dataset Siguiente paso: evaluación

Comentarios

Entradas populares de este blog

Gestión del trabajo y del flujo: fundamentos prácticos para equipos y organizaciones