Calcula qué tan rápido tu servicio está consumiendo su presupuesto de errores en relación con los objetivos SLO. Esencial para equipos de Ingeniería de Confiabilidad del Sitio (SRE) que implementan estrategias de alertas multi-ventana y multi-tasa basadas en prácticas de Google SRE.
También podrías encontrar útiles estas calculadoras
Calcula presupuestos de errores SRE a partir de objetivos SLO para ingeniería de confiabilidad
Calcula el tiempo de inactividad permitido desde el porcentaje de SLA y verifica el cumplimiento
Calcula costos de inactividad e impacto en ingresos
Convierte entre binario, decimal, hex y octal
La tasa de consumo (burn rate) es qué tan rápido tu servicio está consumiendo su presupuesto de errores en relación con tu SLO. Nuestra Calculadora de Tasa de Consumo SRE te ayuda a entender las tasas de consumo, configurar umbrales de alertas multi-ventana y determinar acciones de respuesta apropiadas basadas en las mejores prácticas de Ingeniería de Confiabilidad del Sitio de Google.
La tasa de consumo mide qué tan rápido estás consumiendo tu presupuesto de errores en relación con tu Objetivo de Nivel de Servicio (SLO). Una tasa de consumo de 1 significa que exactamente agotarás tu presupuesto al final del período SLO. Una tasa de consumo de 2 significa que estás consumiendo presupuesto el doble de rápido y lo agotarás en la mitad del tiempo. Tasas más altas indican problemas de confiabilidad más urgentes que requieren atención inmediata. Google SRE recomienda alertas multi-ventana y multi-tasa para equilibrar velocidad de detección con precisión de alertas.
Fórmula de Tasa de Consumo
Tasa de Consumo = Tasa de Error Actual / Tasa de Error PermitidaLas alertas de umbral simple se activan ante cualquier violación de SLO, incluso las breves. Las alertas de tasa de consumo combinan tasa de error con duración, asegurando que las alertas correspondan a consumo significativo de presupuesto. Una tasa de 14.4x sobre 1 hora significa 2% de presupuesto consumido—digno de una alerta urgente. Un pico momentáneo que se auto-corrige no alerta innecesariamente.
Al usar múltiples ventanas (1 hora, 6 horas, 3 días), las alertas de tasa de consumo capturan tanto consumos rápidos como lentos. Una interrupción del 100% activa alertas de 14.4x en ~4 minutos, mientras que la degradación gradual es capturada por ventanas más lentas antes de agotar completamente el presupuesto.
Diferentes tasas de consumo justifican diferentes respuestas. Consumos rápidos (14.4x) deben alertar inmediatamente. Consumos medios (6x) pueden alertar o crear tickets urgentes. Consumos lentos (1x-3x) crean tickets para investigación al día siguiente. Esto previene fatiga de alertas mientras asegura que los problemas se atiendan apropiadamente.
Las alertas multi-ventana usan ventanas cortas (5 min, 30 min) junto con ventanas largas. Cuando el problema se resuelve, la ventana corta se limpia rápidamente, reiniciando la alerta. Esto previene que las alertas se disparen por horas después de que un incidente se resuelve, reduciendo confusión durante y después de incidentes.
Usa la calculadora para determinar umbrales de tasa de consumo para tus reglas de alertas. Para un SLO de 99.9%, configura alertas cuando rate(errors[1h])/rate(total[1h]) exceda 14.4 * 0.001 (crítico) y 6 * 0.001 (alto) para enrutamiento de severidad apropiado.
Durante un incidente, calcula la tasa de consumo para entender la urgencia. Una tasa de error del 15% en un SLO de 99.9% (0.1% permitido) significa una tasa de consumo de 150x—extremadamente crítico, agotando el presupuesto en menos de una hora. Esto justifica respuesta de todo el equipo.
Después de un incidente, calcula cuánto presupuesto fue consumido. Si un incidente de 2 horas tuvo una tasa de consumo de 10x, consumió 10 × (2/720) = 2.8% del presupuesto mensual. Usa esto para decidir si el trabajo de confiabilidad debe tomar prioridad.
Prueba si tu SLO es apropiado analizando tasas de consumo históricas. Si consistentemente estás en tasa de consumo de 0.5x (50% de presupuesto restante), tu SLO puede ser demasiado conservador. Si regularmente excedes 1x, considera relajar el SLO o invertir en confiabilidad.
Google SRE recomienda: tasa de consumo de 14.4x (2% de presupuesto en 1 hora) debe alertar inmediatamente. Tasa de 6x (5% de presupuesto en 6 horas) también debe alertar. Tasa de 3x (10% de presupuesto en 24 horas) puede ser un ticket. Tasa de 1x (presupuesto agotándose según lo programado) es un ticket de baja prioridad. Ajusta según tu capacidad de guardia y criticidad del SLO.
Las alertas de tasa de consumo de ventana única tienen mal tiempo de reinicio. Una ventana de 1 hora continúa alertando por una hora después de que el incidente se resuelve. Las alertas multi-ventana agregan una ventana corta (ej. 5 minutos) que también debe exceder el umbral. Esto asegura que las alertas se reinicien rápidamente cuando el problema se resuelve mientras mantienen precisión de detección.
La tasa de error es absoluta (ej. 0.5% de solicitudes fallan). La tasa de consumo es relativa a tu SLO (ej. 0.5% de tasa de error con 0.1% permitido = tasa de consumo de 5x). La tasa de consumo normaliza entre diferentes SLOs—una tasa de 5x es igualmente urgente ya sea que tu SLO sea 99% o 99.99%.
Una tasa de consumo por debajo de 1x significa que estás consumiendo presupuesto más lento de lo permitido—tu servicio es más confiable de lo requerido. A 0.5x, tendrás 50% de presupuesto restante al final del período. ¡Esto es saludable! Considera usar el presupuesto sobrante para despliegues más rápidos o experimentos más riesgosos. Si es consistentemente muy bajo, tu SLO puede ser demasiado conservador.
calculators.sre-burn-rate-calculator.seo.faq.items.4.answer
La tasa de consumo basada en solicitudes (tasa de error como % de solicitudes) es más común y más fácil de medir para APIs. Basada en tiempo (% de tiempo no disponible) funciona mejor para disponibilidad binaria. La mayoría de servicios usan basada en solicitudes porque la degradación parcial es significativa—50% de errores es diferente de una interrupción del 100%.