Ollama en GPU de 24 GB (RTX 3090/4090)
24 GB es un umbral importante para el LLM local: suficiente para modelos más potentes y ventanas de contexto importantes mientras se utiliza una única GPU de consumo. Las mayores ganancias provienen del control explícito del contexto, sin dejar todos los modelos con el mismo valor predeterminado.
El salto cualitativo desde los 16 GB es que el contexto se convierte en una verdadera herramienta de trabajo, no sólo en un riesgo que hay que minimizar. Puede mantener un historial de chat más completo y paquetes de mensajes más grandes sin forzar la descarga inmediatamente.
Valores predeterminados del contexto de Ollama por nivel de VRAM
En tarjetas de 24 GB, el contexto predeterminado de 32 K es potente pero caro. Úselo cuando sea necesario, no por costumbre.
Muchos usuarios caen exactamente en esta trampa: cargan un modelo más grande, olvidan que el contexto predeterminado es 32K y luego se preguntan por qué aumenta el uso de la CPU. La solución suele ser reducir el contexto antes de cambiar la familia de modelos.
Selecciones de modelos que se asignan bien a 24 GB
Las cargas de trabajo de clase 32B pueden caber en 24 GB con una cuantificación más baja y un contexto más estricto, pero los modelos de clase 14B generalmente ofrecen una mejor capacidad de respuesta en el día a día, a menos que necesite explícitamente el comportamiento de salida del modelo más grande.
RTX 3090 frente a RTX 4090 para Ollama
En la práctica, ambas tarjetas ejecutan conjuntos de modelos similares porque la capacidad es igual. El 4090 suele ganar en rendimiento y latencia, mientras que el 3090 suele ganar en valor.
Cómo la gente gasta accidentalmente 24 GB
- Dejar habilitado el contexto predeterminado de 32 K para cada carga de trabajo.
- Agregar solicitudes de API paralelas sin volver a verificar la asignación de contexto efectiva.
- Ejecutar cargas de trabajo de escritorio pesadas mientras se comparan configuraciones de modelos cercanas al límite.
- Saltar a niveles de modelo más grandes antes de validar la estabilidad de sesiones largas.
Reglas de estabilidad de 24 GB
- Utilice de 8K a 16K para chat de baja latencia y codificación predeterminada.
- Pase a 32K cuando un historial largo o muchos archivos realmente mejoren la calidad.
- Para los modelos de clase 32B, baje primero el contexto para proteger el espacio libre de caché KV.
- En modo servidor, trate las solicitudes paralelas como un multiplicador de memoria directo.