Ollama en RTX 4060 8GB

RTX 4060 tiene una computación potente, pero 8 GB de VRAM es el factor limitante para los LLM locales. El camino más confiable son los modelos más pequeños con un tamaño de contexto deliberado, no los modelos grandes con descarga oculta de CPU.

Punto óptimo práctico: 3B a 4B para una máxima capacidad de respuesta, o 7B a 8B en el cuarto trimestre con un contexto moderado.

En 8 GB, el rendimiento a menudo parece binario: ya sea completamente en la GPU y fluido, o parcialmente derramado y repentinamente lento. Generalmente no hay mucho término medio.

Lo que cabe cómodamente en 8 GB

Caso de uso Modelo Rango de tamaño típico Por qué funciona en 8 GB
Ultraligero y rápido Phi-3 Mini 3B a 4B Baja presión de VRAM y espacio para un contexto más largo
asistente general Llama 3.1 8B Calidad base sólida en el cuarto trimestre con contexto moderado
Chat general/resúmenes gema 2 2B a 9B Las variantes más pequeñas son particularmente estables con 8GB
Codificación Codificador Qwen2.5 7B Buen resultado de codificación sin forzar la VRAM hasta 14B
Escritura multilingüe Qwen2.5 7B Útil calidad multilingüe si el contexto se mantiene controlado

A veces, 14B puede funcionar con 8 GB con compensaciones agresivas, pero generalmente es donde la latencia se vuelve inconsistente.

Si su objetivo es un rendimiento confiable, los modelos más pequeños con mayor estabilidad generalmente superan a los modelos más grandes con descarga en flujos de trabajo reales.

Estrategia de contexto para 8GB

En este nivel, el contexto suele ser el factor decisivo entre una inferencia fluida de la GPU y una desaceleración similar a un acantilado. Colocar num_ctx explícitamente en lugar de depender de cambios en los valores predeterminados.

Meta sugerido num_ctx Riesgo de derrame
Rápido y consistente 2048 a 4096 Bajo
Sesiones más largas 4096 a 8192 Medio
Documentos largos 8192 a 16384 Alto
Pruebas de contexto extremo 16384+ muy alto

Una trampa práctica: los valores predeterminados pueden cambiar entre versiones. Estableciendo explícitamente num_ctx mantiene su comportamiento estable en lugar de heredar valores predeterminados cambiantes.

La concurrencia es un modo de falla oculto

La asignación de contexto efectiva escala con solicitudes paralelas. Una configuración que es estable en un chat puede fallar al abrir varias sesiones.

Contexto por solicitud Solicitudes paralelas Asignación efectiva
4096 1 4096
4096 2 8192
4096 4 16384

Es por eso que una configuración que funcionó ayer puede fallar hoy cuando agrega pestañas, abre otro chat o expone un punto final API con solicitudes paralelas.

Tres perfiles que funcionan en la práctica

Si necesita un contexto más largo sin derrames, reducir el tamaño del modelo suele ser una mejor opción que forzar modelos más grandes a una ejecución mixta de CPU/GPU.

Reglas operativas de 8 GB

Referencias

Volver a todas las guías

Share This Page