ML clásico: predicción, clasificación y detección sin necesidad de GPUs

ML, ML, ML… muchas veces lo repetimos y ni paramos a pensar qué significa exactamente. Machine Learning no es más que “enseñar a un sistema a aprender de datos para tomar decisiones o hacer predicciones, sin programar a mano todas las reglas”.

Cuando pensamos en inteligencia artificial hoy en día es fácil imaginar grandes modelos, GPUs y costes elevados. Pero una gran parte de los problemas reales en empresas se resuelve con algo mucho más sencillo: Machine Learning clásico. Modelos como regresión logística, árboles de decisión, random forests o SVM llevan años funcionando en producción y siguen siendo una pieza clave cuando lo que necesitas es predecir, clasificar o detectar anomalías de forma eficiente y explicable.

La gran ventaja: puedes obtener mucho valor solo con buenos datos, algo de limpieza y modelos “ligeros” que se entrenan en minutos en una máquina normal. Nada de clusters enormes, ni facturas astronómicas en GPU. Para muchos casos de uso en cloud e infraestructura, esto no solo es suficiente, sino que suele ser la opción más pragmática.


¿Qué entendemos por “ML clásico”?

Podemos llamar ML clásico al conjunto de modelos y técnicas que se usan desde hace años en ciencia de datos y análisis predictivo, mucho antes del boom de la IA generativa. Comparten varias características:

  • Trabajan con vectores de características (columnas de una tabla) y producen una predicción numérica o de clase.
  • Se entrenan rápido, incluso con CPU y equipos modestos.
  • Suelen ofrecer interpretabilidad razonable (puedes entender qué influye en la predicción).
  • Encajan muy bien en pipelines de datos ya existentes (ETL, data warehouse, logs, métricas…).

Algunos de los modelos más habituales:

  • Regresión logística: para problemas de “sí/no” (churn, impago, fallo, conversión).
  • Árboles de decisión: reglas tipo “si pasa esto y esto, entonces aquello”.
  • Random forests: muchos árboles combinados para ganar robustez y precisión.
  • SVM (Support Vector Machines): modelos potentes para clasificación con fronteras bien definidas entre clases.

No son modelos “de moda”, pero siguen siendo la caja de herramientas básica de cualquier equipo de datos serio.


Tareas típicas: predicción, clasificación y detección

El ML clásico brilla especialmente en tres tipos de problemas:

  • Predicción
    Cuando quieres estimar un valor futuro a partir de datos históricos.
    Ejemplos: probabilidad de que un cliente se dé de baja, coste esperado, demanda prevista.
  • Clasificación
    Cuando necesitas asignar una etiqueta a cada caso: “riesgo alto/bajo”, “fraude/no fraude”, “crítico/no crítico”.
  • Detección de anomalías
    Cuando lo importante no es predecir exactamente un valor, sino detectar comportamientos extraños respecto a lo normal.

En infraestructura y cloud, estos tres patrones aparecen constantemente, aunque a veces los llamemos de otra manera.


Ejemplos aterrizados al mundo de cloud e infraestructura

Veamos cómo se ven estos modelos aplicados a tu día a día:

1. Predicción de churn de VMs

Imagina que gestionas una plataforma con cientos o miles de máquinas virtuales:

  • Tienes métricas históricas de uso (CPU, RAM, disco, red), tags de proyecto, fechas de creación, propietario, etc.
  • Tu objetivo: predecir qué VMs tienen alta probabilidad de ser apagadas o eliminadas en los próximos meses.

Aplicación práctica con ML clásico:

  • Definición de churn: VMs que han sido apagadas/eliminadas en los últimos X meses.
  • Entrenas una regresión logística o un random forest para estimar la probabilidad de churn de cada VM.
  • Resultado: una puntuación por VM que puedes usar para:
    • Priorizar revisiones con los equipos.
    • Sugerir reservas o compromisos solo para aquellas con baja probabilidad de churn.
    • Identificar proyectos “fantasma” o recursos huérfanos.

Todo esto se puede entrenar y ejecutar en CPU, integrándose con tus informes de coste y gobernanza.

2. Optimización de costes en cloud

Más allá del “apaga lo que no usas”, el ML clásico ayuda a:

  • Detectar patrones de infra sobredimensionada:
    • Usando árboles de decisión o random forests, puedes encontrar combinaciones de métricas y configuraciones que casi siempre implican sobrecoste (por ejemplo, VMs con CPU infrautilizada + disco premium + sin autoescalado).
  • Recomendar tamaños o planes alternativos:
    • Dado el histórico de uso de una VM, un modelo puede sugerir un tamaño más ajustado o un cambio a un plan de ahorro.

Aquí no necesitas un modelo enorme, sino algo que aprenda de los datos históricos de consumo y resultados de ajustes pasados.

3. Detección de anomalías en logs y métricas

Los logs y métricas son el pan de cada día en infra, y también un terreno ideal para ML clásico:

  • Detección de patrones anómalos en logs:
    • A partir de conteos, códigos de error, rutas, tiempos de respuesta… un modelo de detección de anomalías puede señalar cuándo se sale de lo normal.
  • Alertas inteligentes:
    • En lugar de umbrales fijos (“CPU > 80%”), puedes usar modelos que entiendan el comportamiento normal de cada servicio y detecten desviaciones inusuales.

Técnicas como Isolation ForestOne-Class SVM o simples modelos basados en estadísticas y ventanas de tiempo encajan perfectamente aquí.


Ventajas prácticas frente a enfoques más complejos

¿Por qué seguir apostando por ML clásico en 2026 cuando tenemos modelos gigantes y IA generativa?

  • No necesitas GPUs
    • Entrenas y ejecutas en CPU sin problema.
    • Ideal para equipos pequeños o presupuestos ajustados.
  • Más simple de operar
    • Menos dependencias, menos infraestructura adicional, menos riesgo operacional.
    • Fácil integración con pipelines de datos ya existentes (Spark, SQL, Python, etc.).
  • Más fácil de explicar
    • A un responsable de negocio o a un equipo de compliance le puedes enseñar variables, umbrales, reglas y pesos.
    • Esto facilita la aceptación y la adopción interna.
  • Rendimiento suficiente
    • En muchos problemas de negocio, la diferencia entre un modelo clásico bien entrenado y uno “súper sofisticado” es marginal frente a la ganancia que ya obtienes por pasar de reglas manuales a modelos automáticos.

En resumen: el ML clásico es esa capa de inteligencia que puedes poner encima de tus datos sin desmontar toda tu arquitectura ni multiplicar tu complejidad.


Cómo empezar a aplicarlo en tu entorno

Si trabajas en cloud e infraestructura y quieres introducir ML clásico sin montar un “macroproyecto de IA”, un camino razonable podría ser:

  1. Elegir un problema concreto y acotado
    • Predicción de churn de VMs en un entorno concreto.
    • Detección de anomalías en logs de un servicio crítico.
    • Recomendaciones de ajuste de tamaño para un subconjunto de recursos.
  2. Definir bien las etiquetas y objetivos
    • ¿Qué significa churn en tu contexto?
    • ¿Qué consideras anomalía?
    • ¿Cuál es el objetivo de negocio (ahorro, disponibilidad, tiempo de reacción)?
  3. Construir un primer modelo simple
    • Regresión logística, un árbol de decisión o un random forest.
    • Validar resultados con datos históricos y con el equipo que conoce el sistema.
  4. Integrarlo en el día a día
    • Dashboards con probabilidades o alertas.
    • Revisiones periódicas con equipos de producto/infra.
    • Ciclo de mejora continua con nuevas variables y datos.

Lo importante no es tener el modelo perfecto desde el minuto uno, sino cerrar el círculo: datos → modelo → acción → feedback.