Ollama en RTX 3060 12GB
RTX 3060 de 12 GB es un sólido punto de entrada al LLM local cuando se trata la VRAM como un presupuesto compartido en lugar de un umbral fijo de ajuste o no ajuste. La mayoría de las configuraciones lentas fallan porque el contexto se estableció demasiado alto, no porque la familia de modelos fuera inherentemente incorrecta.
Punto óptimo práctico: los modelos 7B a 9B son fáciles de mantener rápidos, mientras que los modelos 13B a 14B pueden funcionar bien en un contexto más reducido y un espacio libre estricto.
El patrón más común en esta tarjeta es: una configuración se siente genial el primer día, luego se ralentiza una vez que crece el historial de chat, se abre una segunda pestaña o se ejecuta una llamada API en paralelo. Suele ser una cuestión de contexto y simultaneidad, no una cuestión de calidad del modelo.
Modelo económico de memoria de 12 GB
En términos prácticos, estás equilibrando tres palancas a la vez. Si aumenta el tamaño del modelo, el margen de contexto se reduce. Si aumenta el contexto, la tolerancia a la concurrencia se reduce. Si mantiene ambos altos, descargue los saltos de riesgo.
Selecciones de modelos que normalmente funcionan bien
Si solo cambia una configuración mientras soluciona el problema, cambie
num_ctx. En 12 GB, por lo general tiene un mayor impacto en el mundo real que pasar de una familia de 8B a otra.
El contexto es la principal palanca de rendimiento
Ollama utiliza de forma predeterminada GPU de menos de 24 GiB en contexto 4K. En 12 GB, ese valor predeterminado suele ser el primer paso correcto. Aumente solo cuando su carga de trabajo real lo necesite.
Por qué el derrame de CPU parece un acantilado
Si debe descargar, descargar una pequeña parte de los pesos generalmente es menos doloroso que forzar la caché KV fuera de la GPU.
Esto se debe a que la caché KV se toca en cada token generado. Una vez que sale de la VRAM, la cadencia de los tokens puede volverse visiblemente entrecortada, con ráfagas y pausas en lugar de una generación fluida.
La simultaneidad multiplica la asignación de contexto
Un perfil estable de chat único puede volverse inestable instantáneamente cuando ejecutas dos o cuatro sesiones en paralelo.
Tres perfiles prácticos
-
Conductor diario rápido: modelo 8B, Q4,
num_ctx=4096, sesión única.
-
Mejora de la codificación: Modelo de código 14B, Q4,
num_ctx=4096, sin aplicaciones en segundo plano con mucha GPU.
-
Modo de sesión larga: modelo 8B o 9B,
num_ctx=8192, bajo paralelismo.
En computadoras de escritorio con Windows, mantenga un margen adicional para la sobrecarga de VRAM. Si está superando los límites, las configuraciones mínimas de Linux generalmente brindan un espacio útil más predecible.
Reglas prácticas de configuración
- Comience con 8B a 9B en Q4 para velocidad diaria.
- Utilice 14B sólo con un contexto moderado y un margen despejado.
- En Windows, deje un margen de VRAM adicional para la sobrecarga del escritorio.
- Si el rendimiento colapsa, reduzca
num_ctx primero.