Calcula la puntuación F1, puntuaciones F-beta y compara compensaciones precisión-recall. Comprende la media armónica vs aritmética y optimiza el umbral de tu modelo para diferentes casos de uso.
También podrías encontrar útiles estas calculadoras
Calcula métricas de clasificación ML desde matriz de confusión
Estima el tiempo y costo de entrenamiento de modelos de aprendizaje automático
Calcula pasos de entrenamiento, iteraciones y optimización de lotes
Calcula parámetros y memoria de modelos LLM/transformers
La puntuación F1 es la métrica preferida para evaluar modelos de clasificación cuando necesitas balancear precisión y recall. Esta calculadora te ayuda a entender no solo la puntuación F1, sino toda la familia de métricas F-beta - desde F0.5 enfocado en precisión hasta F2 enfocado en recall. Visualiza compensaciones y toma decisiones informadas sobre el umbral de tu modelo.
La puntuación F1 es la media armónica de precisión y recall, proporcionando una métrica única que balancea ambas preocupaciones. A diferencia de la media aritmética, la media armónica penaliza desequilibrios extremos - un modelo con 100% precisión pero 0% recall obtiene F1=0, no 50%. La generalización F-beta te permite ponderar precisión o recall más fuertemente: F0.5 enfatiza precisión (2:1), F2 enfatiza recall (2:1).
Fórmula de Puntuación F-beta
F_β = (1 + β²) × (Precisión × Recall) / (β² × Precisión + Recall)Cuando no puedes reportar tanto precisión como recall, F1 proporciona un número único que captura el balance entre ellos.
A diferencia de la exactitud, la puntuación F1 no se infla por una clase mayoritaria. Un modelo prediciendo todos negativos obtiene F1=0.
Compara múltiples modelos en una sola métrica que recompensa el balance en lugar de extremos en cualquier dirección.
Encuentra el umbral de clasificación óptimo maximizando la puntuación F1 en tu conjunto de validación.
F-beta te permite ajustar la compensación precisión-recall según tus necesidades de negocio específicas.
Tareas balanceadas donde falsos positivos y negativos son igualmente costosos. Recuperación de información, benchmarks de clasificación general.
Cuando los falsos positivos son más costosos. Filtros de spam (no perder correo legítimo), moderación de contenido (no censurar contenido válido).
Cuando los falsos negativos son más costosos. Detección de cáncer (no perder casos), amenazas de seguridad (detectar todos los ataques).
Cuando tu proporción de costos difiere de 1:1, 2:1 o 1:2. Calcula beta desde: β = sqrt(costo_FN / costo_FP).
Grafica puntuación F1 vs umbral de clasificación para encontrar el punto de operación óptimo para tu modelo.
Usa F1 como métrica de puntuación en validación cruzada para seleccionar modelos que balanceen precisión y recall.
La media armónica penaliza valores extremos. Con 90% precisión y 10% recall, la media aritmética da 50%, pero la media armónica (F1) da 18%. Esto refleja que tal modelo desequilibrado es realmente bastante pobre, no promedio.