Ollama en GPU de 24 GB (RTX 3090/4090)

24 GB es un umbral importante para el LLM local: suficiente para modelos más potentes y ventanas de contexto importantes mientras se utiliza una única GPU de consumo. Las mayores ganancias provienen del control explícito del contexto, sin dejar todos los modelos con el mismo valor predeterminado.

El salto cualitativo desde los 16 GB es que el contexto se convierte en una verdadera herramienta de trabajo, no sólo en un riesgo que hay que minimizar. Puede mantener un historial de chat más completo y paquetes de mensajes más grandes sin forzar la descarga inmediatamente.

Valores predeterminados del contexto de Ollama por nivel de VRAM

Nivel de VRAM detectado Contexto predeterminado
Menos de 24 GiB 4K
24 a 48 GiB 32K
48 GiB o más 256K

En tarjetas de 24 GB, el contexto predeterminado de 32 K es potente pero caro. Úselo cuando sea necesario, no por costumbre.

Muchos usuarios caen exactamente en esta trampa: cargan un modelo más grande, olvidan que el contexto predeterminado es 32K y luego se preguntan por qué aumenta el uso de la CPU. La solución suele ser reducir el contexto antes de cambiar la familia de modelos.

Selecciones de modelos que se asignan bien a 24 GB

Modelo Clase de tamaño Lo mejor para Perfil inicial
Llama 3.1 8B asistente general Q6 a Q8, 16K a 32K
gema 2 9B Chat y resumen Q6 a Q8, 16K a 32K
Mistral Nemo 12B Código equilibrado + razonamiento Q5 a Q6, 16K a 32K
Codificador Qwen2.5 14B Codificación Q5 a Q6, 16K a 32K
Qwen2.5 14B Formato largo multilingüe Q5 a Q6, 16K a 32K
DeepSeek-R1 14B Razonamiento Q5 a Q6, 16K a 32K
Llama 3.2 Visión visión 11B Visión + texto Q5 a Q6, 8K a 16K

Las cargas de trabajo de clase 32B pueden caber en 24 GB con una cuantificación más baja y un contexto más estricto, pero los modelos de clase 14B generalmente ofrecen una mejor capacidad de respuesta en el día a día, a menos que necesite explícitamente el comportamiento de salida del modelo más grande.

RTX 3090 frente a RTX 4090 para Ollama

Aspecto RTX 3090 RTX 4090 Efecto práctico
capacidad de VRAM 24GB 24GB Límites de ajuste de modelos similares
Aviso + velocidad de generación Bien Más alto 4090 generalmente se siente más receptivo
Perfil de valor Entrada rentable de 24 GB Máximo rendimiento con una sola GPU Elija por presupuesto versus objetivo de latencia

En la práctica, ambas tarjetas ejecutan conjuntos de modelos similares porque la capacidad es igual. El 4090 suele ganar en rendimiento y latencia, mientras que el 3090 suele ganar en valor.

Cómo la gente gasta accidentalmente 24 GB

Reglas de estabilidad de 24 GB

Referencias

Volver a todas las guías

Share This Page