Ollama en GPU de 24 GB (RTX 3090/4090)

24 GB es un umbral importante para el LLM local: suficiente para modelos más potentes y ventanas de contexto importantes mientras se utiliza una única GPU de consumo. Las mayores ganancias provienen del control explícito del contexto, sin dejar todos los modelos con el mismo valor predeterminado.

El salto cualitativo desde los 16 GB es que el contexto se convierte en una verdadera herramienta de trabajo, no sólo en un riesgo que hay que minimizar. Puede mantener un historial de chat más completo y paquetes de mensajes más grandes sin forzar la descarga inmediatamente.

Valores predeterminados del contexto de Ollama por nivel de VRAM

Nivel de VRAM detectado	Contexto predeterminado
Menos de 24 GiB	4K
24 a 48 GiB	32K
48 GiB o más	256K

En tarjetas de 24 GB, el contexto predeterminado de 32 K es potente pero caro. Úselo cuando sea necesario, no por costumbre.

Muchos usuarios caen exactamente en esta trampa: cargan un modelo más grande, olvidan que el contexto predeterminado es 32K y luego se preguntan por qué aumenta el uso de la CPU. La solución suele ser reducir el contexto antes de cambiar la familia de modelos.

Selecciones de modelos que se asignan bien a 24 GB

Modelo	Clase de tamaño	Lo mejor para	Perfil inicial
Llama 3.1	8B	asistente general	Q6 a Q8, 16K a 32K
gema 2	9B	Chat y resumen	Q6 a Q8, 16K a 32K
Mistral Nemo	12B	Código equilibrado + razonamiento	Q5 a Q6, 16K a 32K
Codificador Qwen2.5	14B	Codificación	Q5 a Q6, 16K a 32K
Qwen2.5	14B	Formato largo multilingüe	Q5 a Q6, 16K a 32K
DeepSeek-R1	14B	Razonamiento	Q5 a Q6, 16K a 32K
Llama 3.2 Visión	visión 11B	Visión + texto	Q5 a Q6, 8K a 16K

Las cargas de trabajo de clase 32B pueden caber en 24 GB con una cuantificación más baja y un contexto más estricto, pero los modelos de clase 14B generalmente ofrecen una mejor capacidad de respuesta en el día a día, a menos que necesite explícitamente el comportamiento de salida del modelo más grande.

RTX 3090 frente a RTX 4090 para Ollama

Aspecto	RTX 3090	RTX 4090	Efecto práctico
capacidad de VRAM	24GB	24GB	Límites de ajuste de modelos similares
Aviso + velocidad de generación	Bien	Más alto	4090 generalmente se siente más receptivo
Perfil de valor	Entrada rentable de 24 GB	Máximo rendimiento con una sola GPU	Elija por presupuesto versus objetivo de latencia

En la práctica, ambas tarjetas ejecutan conjuntos de modelos similares porque la capacidad es igual. El 4090 suele ganar en rendimiento y latencia, mientras que el 3090 suele ganar en valor.

Cómo la gente gasta accidentalmente 24 GB

Dejar habilitado el contexto predeterminado de 32 K para cada carga de trabajo.
Agregar solicitudes de API paralelas sin volver a verificar la asignación de contexto efectiva.
Ejecutar cargas de trabajo de escritorio pesadas mientras se comparan configuraciones de modelos cercanas al límite.
Saltar a niveles de modelo más grandes antes de validar la estabilidad de sesiones largas.

Reglas de estabilidad de 24 GB

Utilice de 8K a 16K para chat de baja latencia y codificación predeterminada.
Pase a 32K cuando un historial largo o muchos archivos realmente mejoren la calidad.
Para los modelos de clase 32B, baje primero el contexto para proteger el espacio libre de caché KV.
En modo servidor, trate las solicitudes paralelas como un multiplicador de memoria directo.

Referencias

Volver a todas las guías