Fase de Modelado en CRISP-DM: Selección de Algoritmos, Entrenamiento y Ajuste de Modelos
Fase de Modelado en CRISP-DM: selección de algoritmos, entrenamiento y ajuste de modelos
Aquí el conocimiento latente en los datos se convierte en modelos predictivos o descriptivos. El éxito depende de lo anterior: modelar no es probar algoritmos al azar, sino tomar decisiones técnicas informadas y comparar resultados de forma controlada.
Accesos rápidos
Qué es esta fase
Es la etapa en la que se seleccionan técnicas de modelado, se entrenan uno o varios modelos, se ajustan parámetros y se comparan resultados. Se asume que no existe un único modelo óptimo a priori, por lo que se fomenta la experimentación controlada y documentada.
flowchart LR A[Elegir técnica] --> B[Entrenar] B --> C[Ajustar] C --> D[Comparar] D --> A
Qué se busca conseguir
El objetivo es construir modelos que respondan al objetivo analítico definido, sean técnicamente sólidos, interpretables en el contexto del negocio y evaluables de forma objetiva. Un modelo muy preciso pero incomprensible puede ser rechazado si no se puede usar con confianza.
flowchart TD A[Útil para la decisión] --> D[Modelo válido] B[Sólido técnicamente] --> D C[Comprensible] --> D
Actividades clave
Selección de técnicas de modelado
Se eligen algoritmos según el tipo de problema (clasificación, regresión, clustering), el volumen y tipo de datos, requisitos de interpretabilidad y limitaciones computacionales. Ejemplos habituales son regresión logística, árboles de decisión, Random Forest, redes neuronales o K-means.
flowchart TD A[Tipo de problema] --> E[Elegir técnica] B[Datos] --> E C[Interpretabilidad] --> E D[Coste computacional] --> E
Diseño del experimento
Se define cómo se probarán los modelos: conjuntos de entrenamiento y validación, estrategia de validación cruzada, métricas de evaluación y escenarios comparativos. Un buen diseño evita conclusiones erróneas y comparaciones injustas.
flowchart LR A[Train] --> C[Entrenar] B[Validación] --> D[Medir] C --> D
Entrenamiento del modelo
Se ajustan los modelos a los datos para aprender patrones, optimizar parámetros y controlar el sobreajuste. Este proceso se repite en ciclos, comparando resultados y ajustando decisiones previas si es necesario.
flowchart TD A[Patrones] --> C[Entrenamiento] B[Regularización] --> C C --> D[Generalización]
Ajuste de parámetros
Se optimizan hiperparámetros mediante búsqueda en rejilla, búsqueda aleatoria o métodos bayesianos. El objetivo es mejorar rendimiento sin sacrificar la capacidad de generalizar a datos nuevos.
flowchart LR A[Hiperparámetros] --> B[Buscar] B --> C[Mejor combinación]
Resultados esperados
Al finalizar esta fase se dispone de uno o varios modelos candidatos, resultados cuantificados mediante métricas, comparativas entre enfoques y documentación técnica del proceso. Estos resultados pasan al filtro de decisión de la siguiente fase.
flowchart LR A[Modelos candidatos] --> B[Métricas] B --> C[Comparativa] C --> D[Evaluación]
Errores comunes
- Optimizar solo métricas técnicas sin pensar en utilidad real.
- Ignorar el sobreajuste y celebrar resultados engañosos.
- Usar modelos complejos sin justificación.
- No documentar decisiones, datos y cambios.
- Ajustar modelos sobre datos mal preparados.
flowchart TD A[Datos débiles] --> C[Modelo frágil] B[Sobreajuste] --> C C --> D[Sorpresa en validación]
Si el problema viene de la base, conviene revisar la preparación: Preparación del dataset
Relación con la evaluación
CRISP-DM separa claramente construir modelos de decidir si sirven. En esta fase se generan candidatos y evidencia cuantificada. En la evaluación se decide si el resultado es aceptable desde el punto de vista técnico y práctico. Esta separación reduce sesgos y evita decisiones precipitadas.
flowchart LR A[Construir] --> B[Modelos] B --> C[Decidir] C --> D[Uso o iteración]
Para ver el filtro completo: Evaluación y criterio de decisión
Importancia estratégica
El modelado en CRISP-DM se plantea como un proceso iterativo, controlado y justificado, alineado con el negocio. No busca “el algoritmo más moderno”, sino un equilibrio entre rendimiento, comprensión y viabilidad de uso.
flowchart TD A[Iterar] --> D[Modelo útil] B[Controlar] --> D C[Justificar] --> D
Conclusión
Esta fase consiste en construir modelos adecuados, evaluables y alineados con un propósito real. Un buen modelo es el que puede ser utilizado, entendido y mantenido, no solo el que maximiza una métrica en un entorno controlado.
flowchart TD A[Modelo] --> B[Comprensión] B --> C[Uso real]
Lecturas relacionadas:
Visión completa del proceso
Preparación del dataset
Siguiente paso: evaluación
Comentarios
Publicar un comentario