ESC

Escribe para buscar entre todos los artículos

Volver al archivo

Maximizando la eficacia del Threat Hunting: métricas de evaluación de ciencia de datos

Las 10 métricas clave de ciencia de datos aplicadas al threat hunting en ciberseguridad para mejorar la detección de amenazas.

El threat hunting representa un proceso analítico proactivo diseñado para identificar y mitigar amenazas sofisticadas que los sistemas de seguridad automatizados no logran detectar. Las métricas de evaluación de ciencia de datos juegan un papel fundamental al implementar modelos de machine learning y técnicas de análisis de datos para descubrir comportamientos anómalos y amenazas potenciales.

Las Top 10 Métricas de Evaluación

1. Exactitud (Accuracy)

La proporción de instancias correctamente predichas en relación con el total de instancias. Esta métrica puede ser engañosa cuando la distribución de clases está desequilibrada.

2. Precisión (Precision)

Mide la proporción de observaciones positivas correctamente predichas en relación con todas las predicciones positivas realizadas por el modelo.

3. Recuperación (Recall)

Representa la proporción de casos positivos correctamente identificados de todas las instancias positivas reales en el conjunto de datos.

4. Puntuación F1 (F1 Score)

Un promedio ponderado de precisión y recuperación que considera tanto los falsos positivos como los falsos negativos en el rendimiento del modelo.

5. Error Absoluto Medio (MAE)

Aplicado a modelos de regresión, esta métrica calcula la diferencia absoluta promedio entre los valores predichos y los valores reales.

6. Error Cuadrático Medio (MSE)

Otra métrica de regresión que representa el promedio de los errores cuadráticos entre las predicciones y los valores reales.

7. Raíz del Error Cuadrático Medio (RMSE)

La raíz cuadrada del MSE, interpretable en las mismas unidades que la variable objetivo para una comprensión más fácil.

8. Área Bajo la Curva ROC (AUC-ROC)

Utilizada en clasificación binaria para medir la capacidad de un modelo para distinguir entre diferentes clases.

9. Matriz de Confusión (Confusion Matrix)

Una visualización tabular que muestra verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos para la visualización del rendimiento del algoritmo.

10. R Cuadrado (R-squared)

En modelos de regresión, indica la proporción de la varianza de la variable dependiente explicable por las variables independientes.

11. Pérdida Logarítmica (Log Loss)

Aplicada en clasificación binaria, mide la desviación de las probabilidades predichas respecto a las etiquetas reales.

SV
Autor

Sebastián Vargas

CISO & Fundador de TTPSEC SpA. Más de 15 años en ciberseguridad, governance, riesgo y compliance. Escribiendo sobre seguridad de la información desde 2018.

¿Te sirve el contenido?

Recomendarme en LinkedIn
Volver al archivo