Ollama en RTX 5090 (32GB)

RTX 5090 cambia la inferencia local principalmente a través de una capacidad de 32 GB: puede mantener modelos más grandes y un contexto más amplio en la GPU con más frecuencia que los sistemas de 24 GB. La velocidad bruta ayuda, pero permanecer completamente en la GPU sigue siendo el principal predictor del rendimiento percibido por el usuario.

La mentalidad central en 5090 sigue siendo la gestión del presupuesto: pesos + caché KV + gastos generales. La tarjeta es lo suficientemente rápida como para que cuando se desacelere, generalmente sea porque se perdió el ajuste, no porque la GPU sea débil.

Valores predeterminados de contexto y por qué son importantes

Nivel de VRAM	Contexto predeterminado
Menos de 24 GiB	4K
24 a 48 GiB	32K
48 GiB o más	256K

5090 se encuentra en el nivel de 24 a 48 GiB, por lo que el contexto predeterminado suele ser 32K. Trátelo como una capacidad, no como una configuración fija para cada modelo.

Para puntos de control muy grandes, comenzar en 16K y aumentar suele ser más seguro que comenzar en 32K e intentar depurar un derrame repentino.

Selecciones de modelos para cargas de trabajo de 32 GB

Modelo	Clase de tamaño	Lo mejor para	Cuantitativo inicial	Contexto inicial
Llama 3.3	clase 70B	Asistente general modelo grande	Q4	Comience 16K, luego pruebe 32K
Qwen2.5	clase 72B	Multilingüe y de formato largo	Q4	Comience 16K, luego pruebe 32K
Mixtral 8x22B	Ministerio de Educación 8x22B	Flujos de trabajo de contexto largo y de alta calidad	Q4	32K
Comando R+	clase 104B	Flujos de trabajo de herramientas con muchas instrucciones	Q3	8K a 16K
Qwen2.5 VL	72B visión-lenguaje	Tareas de documentos y visión.	Q4	8K a 16K

La ventaja de los 32 GB no es sólo el tamaño del modelo. Es la capacidad de mantener un contexto de trabajo más amplio y avisos estilo agente de varios pasos en la GPU sin un colapso inmediato.

Perfiles prácticos para RTX 5090

Perfil	banda modelo	Plan de contexto	Objetivo principal
R: Máxima capacidad de respuesta	14B a 32B	16K a 32K	Latencia más baja con mucho margen de herramientas
B: modelo grande de una sola GPU	70B a 72B	16K primero, luego 32K	Alta calidad mientras permanece en una GPU
C: Agentes de contexto largo	MoE o modelos potentes de tamaño medio	32K	Larga historia y recuperación sin descarga.

El perfil B es donde brilla el 5090: ejecuciones de modelos grandes con una sola GPU que son poco prácticas o frágiles en tarjetas más pequeñas. El perfil A suele ser mejor para flujos de trabajo de productos donde la coherencia de la latencia importa más que el tamaño del modelo del título.

Pros y contras en uso real

Ventajas	Contras
32 GB hacen que las ejecuciones de una sola GPU 70B/72B sean mucho más prácticas	Todavía no hay una tarjeta de clase de 48 GB para cada modelo gigante + combinación de contexto enorme
El nivel de contexto predeterminado de 32 K admite sesiones largas y flujos de trabajo de agentes	Un contexto predeterminado grande puede resultar contraproducente en modelos muy pesados
Más espacio para multitarea y chats paralelos	Alto costo, energía y calor en comparación con tarjetas más pequeñas

Donde las configuraciones 5090 aún fallan

Ejecutando modelos 70B+ con contexto de 32K y alto paralelismo al mismo tiempo.
Asumir que el contexto predeterminado siempre es óptimo para cada clase de modelo.
Tratar 32 GB como equivalente a 48 GB y comprometer excesivamente la caché KV.
Evaluación comparativa con condiciones inactivas y luego implementación con tráfico concurrente real.

Reglas de funcionamiento de 32 GB

Utilice de 8K a 16K para flujos de trabajo interactivos rápidos.
Pase a 32K cuando la memoria de trabajo más larga tenga un valor de tarea claro.
Cuando el rendimiento baja, baje el contexto antes de cambiar de familia de modelos.
En modo API, limite el paralelismo si la latencia empeora repentinamente.

Referencias

Volver a todas las guías