Predicción de bajas de clientes en un proveedor de internet
Un proveedor de internet ficticio (NetFlow) necesitaba entender qué clientes tienen mayor probabilidad de dar de baja el servicio, para poder anticiparse y actuar antes de perderlos. Se analizaron datos de clientes —antigüedad, ubicación geográfica y estado del servicio— para identificar patrones asociados al abandono.
Se construyó un modelo de machine learning (regresión logística) que logró un 81% de precisión general. El análisis reveló que la antigüedad del cliente y su ubicación geográfica son factores relevantes para anticipar el riesgo de baja, y que la base de clientes se concentra en un grupo reducido de ciudades clave para el negocio.
El modelo también evidenció una limitación importante y valiosa de comunicar: al haber muchos más clientes activos que clientes dados de baja en los datos, el modelo tiene dificultad para detectar los casos de baja real. Esto es un hallazgo típico en estos problemas y abre el camino a mejoras concretas, como incorporar más información sobre motivos de baja o ajustar el modelo para balancear mejor ambas clases.
Qué se logró
- Identificación de las variables más relevantes para explicar la baja de clientes (antigüedad, ubicación).
- Modelo predictivo con 81% de precisión general.
- Detección de una limitación real del modelo (desbalance de clases) y propuestas concretas de mejora.
- Recomendaciones aplicables: sistema de categorización de reclamos y seguimiento de cambios de plan, para enriquecer futuros modelos.
Para quien quiera ver el desarrollo completo
Proyecto desarrollado en Python (Google Colab). Incluye limpieza y tratamiento de nulos con criterio de negocio, feature engineering (variables antiguedad_dias y tiene_baja), selección de características, entrenamiento de un modelo de Regresión Logística con scikit-learn, y evaluación con matriz de confusión y curva ROC (AUC ~0.5). Herramientas: Pandas, NumPy, Matplotlib, Seaborn.