Ollama en RTX 4060 8GB
RTX 4060 tiene una computación potente, pero 8 GB de VRAM es el factor limitante para los LLM locales. El camino más confiable son los modelos más pequeños con un tamaño de contexto deliberado, no los modelos grandes con descarga oculta de CPU.
Punto óptimo práctico: 3B a 4B para una máxima capacidad de respuesta, o 7B a 8B en el cuarto trimestre con un contexto moderado.
En 8 GB, el rendimiento a menudo parece binario: ya sea completamente en la GPU y fluido, o parcialmente derramado y repentinamente lento. Generalmente no hay mucho término medio.
Lo que cabe cómodamente en 8 GB
A veces, 14B puede funcionar con 8 GB con compensaciones agresivas, pero generalmente es donde la latencia se vuelve inconsistente.
Si su objetivo es un rendimiento confiable, los modelos más pequeños con mayor estabilidad generalmente superan a los modelos más grandes con descarga en flujos de trabajo reales.
Estrategia de contexto para 8GB
En este nivel, el contexto suele ser el factor decisivo entre una inferencia fluida de la GPU y una desaceleración similar a un acantilado. Colocar
num_ctx explícitamente en lugar de depender de cambios en los valores predeterminados.
Una trampa práctica: los valores predeterminados pueden cambiar entre versiones. Estableciendo explícitamente
num_ctx mantiene su comportamiento estable en lugar de heredar valores predeterminados cambiantes.
La concurrencia es un modo de falla oculto
La asignación de contexto efectiva escala con solicitudes paralelas. Una configuración que es estable en un chat puede fallar al abrir varias sesiones.
Es por eso que una configuración que funcionó ayer puede fallar hoy cuando agrega pestañas, abre otro chat o expone un punto final API con solicitudes paralelas.
Tres perfiles que funcionan en la práctica
-
Perfil de chat general: Modelo 7B a 8B, Q4,
num_ctx=4096, bajo paralelismo.
-
Perfil de codificación:
Codificador Qwen2.5 7B o
Phi-3 Mini,
num_ctx=4096.
-
Perfil de documento largo: modelo más pequeño (2B a 4B),
num_ctx=8192 a
16384.
Si necesita un contexto más largo sin derrames, reducir el tamaño del modelo suele ser una mejor opción que forzar modelos más grandes a una ejecución mixta de CPU/GPU.
Reglas operativas de 8 GB
- Utilice el cuarto trimestre como primer objetivo cuantitativo para los modelos 7B a 8B.
- Elimine el contexto antes de disminuir la calidad del modelo cuando la latencia aumente.
- Mantenga cerradas las superposiciones, las pestañas del navegador y las aplicaciones con uso intensivo de GPU mientras realiza el servicio.
- Considere 8 GB como un espacio útil inferior en condiciones de escritorio reales.