Calcula los requisitos de VRAM de GPU para ejecutar modelos de lenguaje grandes. Estima la memoria para pesos del modelo, caché KV y activaciones. Encuentra qué GPUs pueden ejecutar tu modelo de IA con nuestra calculadora de memoria completa.
También podrías encontrar útiles estas calculadoras
Compara costos de GPU auto-hospedada vs APIs de inferencia
Analiza el uso de la ventana de contexto de LLM y planificación de capacidad
Estima el conteo de tokens para GPT-4, Claude, Gemini y otros LLMs
Convierte entre binario, decimal, hex y octal
Ejecutar modelos de IA localmente requiere conocer tus requisitos de memoria GPU. Nuestra Calculadora de Memoria GPU estima la VRAM necesaria para cualquier modelo de lenguaje grande basándose en el conteo de parámetros, precisión, tamaño de lote y longitud de contexto. Descubre si tu GPU puede ejecutar Llama, Mistral u otros modelos populares.
La memoria GPU (VRAM) es consumida por tres componentes principales: pesos del modelo (parámetros × bytes por parámetro), caché KV (escala con longitud de contexto × tamaño de lote), y memoria de activación (almacenamiento temporal de cálculo). El total determina qué GPU puede ejecutar tu modelo.
Fórmula de Cálculo de VRAM
VRAM = Pesos del Modelo + Caché KV + Activaciones + OverheadSabe exactamente si tu RTX 3090, A100 o GPU de consumidor puede ejecutar un modelo específico antes de comprar o alquilar.
Ve cómo la cuantización INT8 o INT4 reduce los requisitos de memoria, permitiendo modelos más grandes en GPUs más pequeñas.
El caché KV crece linealmente con el contexto. Calcula si puedes soportar ventanas de contexto de 4K, 8K o 32K.
Los lotes más grandes mejoran el rendimiento pero necesitan más memoria. Encuentra tu tamaño de lote óptimo para la VRAM disponible.
Un modelo de 7B necesita aproximadamente: 28GB en FP32, 14GB en FP16/BF16, 7GB en INT8, o 3.5GB en INT4. Añade 1-4GB para caché KV dependiendo de la longitud de contexto y tamaño de lote. En la práctica, una GPU de 16GB como RTX 4080 puede ejecutar modelos de 7B en FP16 con contexto de 4K.