Ollama en RTX 4060 8GB

RTX 4060 tiene una computación potente, pero 8 GB de VRAM es el factor limitante para los LLM locales. El camino más confiable son los modelos más pequeños con un tamaño de contexto deliberado, no los modelos grandes con descarga oculta de CPU.

Punto óptimo práctico: 3B a 4B para una máxima capacidad de respuesta, o 7B a 8B en el cuarto trimestre con un contexto moderado.

En 8 GB, el rendimiento a menudo parece binario: ya sea completamente en la GPU y fluido, o parcialmente derramado y repentinamente lento. Generalmente no hay mucho término medio.

Lo que cabe cómodamente en 8 GB

Caso de uso	Modelo	Rango de tamaño típico	Por qué funciona en 8 GB
Ultraligero y rápido	Phi-3 Mini	3B a 4B	Baja presión de VRAM y espacio para un contexto más largo
asistente general	Llama 3.1	8B	Calidad base sólida en el cuarto trimestre con contexto moderado
Chat general/resúmenes	gema 2	2B a 9B	Las variantes más pequeñas son particularmente estables con 8GB
Codificación	Codificador Qwen2.5	7B	Buen resultado de codificación sin forzar la VRAM hasta 14B
Escritura multilingüe	Qwen2.5	7B	Útil calidad multilingüe si el contexto se mantiene controlado

A veces, 14B puede funcionar con 8 GB con compensaciones agresivas, pero generalmente es donde la latencia se vuelve inconsistente.

Si su objetivo es un rendimiento confiable, los modelos más pequeños con mayor estabilidad generalmente superan a los modelos más grandes con descarga en flujos de trabajo reales.

Estrategia de contexto para 8GB

En este nivel, el contexto suele ser el factor decisivo entre una inferencia fluida de la GPU y una desaceleración similar a un acantilado. Colocar num_ctx explícitamente en lugar de depender de cambios en los valores predeterminados.

Meta	sugerido `num_ctx`	Riesgo de derrame
Rápido y consistente	2048 a 4096	Bajo
Sesiones más largas	4096 a 8192	Medio
Documentos largos	8192 a 16384	Alto
Pruebas de contexto extremo	16384+	muy alto

Una trampa práctica: los valores predeterminados pueden cambiar entre versiones. Estableciendo explícitamente num_ctx mantiene su comportamiento estable en lugar de heredar valores predeterminados cambiantes.

La concurrencia es un modo de falla oculto

La asignación de contexto efectiva escala con solicitudes paralelas. Una configuración que es estable en un chat puede fallar al abrir varias sesiones.

Contexto por solicitud	Solicitudes paralelas	Asignación efectiva
4096	1	4096
4096	2	8192
4096	4	16384

Es por eso que una configuración que funcionó ayer puede fallar hoy cuando agrega pestañas, abre otro chat o expone un punto final API con solicitudes paralelas.

Tres perfiles que funcionan en la práctica

Perfil de chat general: Modelo 7B a 8B, Q4, num_ctx=4096, bajo paralelismo.
Perfil de codificación: Codificador Qwen2.5 7B o Phi-3 Mini, num_ctx=4096.
Perfil de documento largo: modelo más pequeño (2B a 4B), num_ctx=8192 a 16384.

Si necesita un contexto más largo sin derrames, reducir el tamaño del modelo suele ser una mejor opción que forzar modelos más grandes a una ejecución mixta de CPU/GPU.

Reglas operativas de 8 GB

Utilice el cuarto trimestre como primer objetivo cuantitativo para los modelos 7B a 8B.
Elimine el contexto antes de disminuir la calidad del modelo cuando la latencia aumente.
Mantenga cerradas las superposiciones, las pestañas del navegador y las aplicaciones con uso intensivo de GPU mientras realiza el servicio.
Considere 8 GB como un espacio útil inferior en condiciones de escritorio reales.

Referencias

Volver a todas las guías