¿Por qué es eso anómalo? ¿Cómo es que la puntuación de anomalía no es más alta? La detección de anomalías es una función valiosa de aprendizaje automático que se usa en Elastic Security and Observability. Pero, vaya, esos números pueden parecer confusos. Si alguien pudiera explicarlos en un lenguaje claro. O, mejor aún, haz un dibujo.
En Elastic 8.6, se muestran los detalles adicionales para registros de anomalías. Estos detalles permiten mirar detrás de las cortinas del algoritmo de puntuación de anomalías.
Se ha escrito sobre puntuación de anomalías y normalización en este blog anteriormente. El algoritmo de detección de anomalías analiza series temporales de datos en línea. Identifica tendencias y patrones periódicos en diferentes escalas de tiempo, como un día, una semana, un mes o un año. Los datos del mundo real suelen ser una combinación de tendencias y patrones periódicos en diferentes escalas de tiempo. Además, lo que primero parece una anomalía puede convertirse en un patrón recurrente emergente.
El trabajo de detección de anomalías genera hipótesis que explican los datos. Sopesa y mezcla estas hipótesis utilizando la evidencia proporcionada. Todas las hipótesis son distribuciones de probabilidad. Por lo tanto, podemos dar un intervalo de confianza sobre qué tan "normales" son las observaciones. Las observaciones que caen fuera de este intervalo de confianza son anómalas.
Ahora, probablemente pienses: Bueno, esta teoría es sencilla. Pero una vez que vemos un comportamiento inesperado, ¿cómo cuantificamos qué tan fuera de lo común es?
Tres factores pueden constituir la puntuación de anomalía inicial que damos a los registros:
Como recordatorio, los trabajos de detección de anomalías dividen los datos de la serie temporal en intervalos de tiempo. Los datos dentro de un depósito se agregan mediante funciones . La detección de anomalías está ocurriendo en los valores del depósito. Lea esta publicación de blog para obtener más información sobre los cangilones y por qué es fundamental elegir el tramo de cangilón adecuado.
Primero, se observo la probabilidad del valor real en el balde, dada la combinación de hipótesis. Esta probabilidad depende de cuántos valores similares hayamos visto en el pasado. A menudo, se relaciona con la diferencia entre el valor real y el valor típico. El valor típico es el valor mediano de la distribución de probabilidad para el cubo. Esta probabilidad conduce al impacto de un solo cubo. Por lo general, domina la puntuación de anomalía inicial de un pico o caída breve.
Más información desde el blog de Elastic, clic para acceder a la nota.