Ollama en RTX 3060 12GB

RTX 3060 de 12 GB es un sólido punto de entrada al LLM local cuando se trata la VRAM como un presupuesto compartido en lugar de un umbral fijo de ajuste o no ajuste. La mayoría de las configuraciones lentas fallan porque el contexto se estableció demasiado alto, no porque la familia de modelos fuera inherentemente incorrecta.

Punto óptimo práctico: los modelos 7B a 9B son fáciles de mantener rápidos, mientras que los modelos 13B a 14B pueden funcionar bien en un contexto más reducido y un espacio libre estricto.

El patrón más común en esta tarjeta es: una configuración se siente genial el primer día, luego se ralentiza una vez que crece el historial de chat, se abre una segunda pestaña o se ejecuta una llamada API en paralelo. Suele ser una cuestión de contexto y simultaneidad, no una cuestión de calidad del modelo.

Modelo económico de memoria de 12 GB

cubo de memoria	Comportamiento	Implicación operativa
Pesos del modelo	Principalmente arreglado por el tamaño del modelo y la cuantificación.	Elija 7B a 14B con cuidado y reserve espacio libre
caché KV	Se escala con la longitud del contexto y se accede a cada token	La palanca de rendimiento práctica más grande con 12 GB
Gastos generales del sistema	SO, controladores, aplicaciones de escritorio y fragmentación de VRAM	La VRAM utilizable siempre es inferior a la etiqueta de la tarjeta.

En términos prácticos, estás equilibrando tres palancas a la vez. Si aumenta el tamaño del modelo, el margen de contexto se reduce. Si aumenta el contexto, la tolerancia a la concurrencia se reduce. Si mantiene ambos altos, descargue los saltos de riesgo.

Selecciones de modelos que normalmente funcionan bien

Caso de uso	Modelo	Rango de tamaño típico	¿Por qué cabe 12 GB?
asistente general	Llama 3.1	8B	Gran calidad por VRAM para chat y redacción diarios
asistente general	gema 2	9B	Calidad de respuesta eficiente en 12 GB con contexto moderado
Codificación	Codificador Qwen2.5	7B a 14B	Calidad centrada en el código, siendo 14B el techo práctico a menudo
Escritura multilingüe	Qwen2.5	7B a 14B	Fuerte comportamiento multilingüe y de formato largo si se controla el contexto.
Razonamiento	DeepSeek-R1	7B a 14B	Familia de razonamiento útil cuando se puede presupuestar cálculo adicional

Si solo cambia una configuración mientras soluciona el problema, cambie num_ctx. En 12 GB, por lo general tiene un mayor impacto en el mundo real que pasar de una familia de 8B a otra.

El contexto es la principal palanca de rendimiento

Ollama utiliza de forma predeterminada GPU de menos de 24 GiB en contexto 4K. En 12 GB, ese valor predeterminado suele ser el primer paso correcto. Aumente solo cuando su carga de trabajo real lo necesite.

Meta	sugerido `num_ctx`	Riesgo de derrame
Uso interactivo rápido y estable	4096	Bajo
Sesiones más largas	8192	Medio
Documentos largos o indicaciones con muchas herramientas	16384	Alto
Grandes experimentos de contexto	32768+	muy alto

Por qué el derrame de CPU parece un acantilado

Modo de ejecución	Comportamiento observado	Impacto del usuario
Completamente en GPU	Rendimiento de token rápido y predecible	La mejor experiencia interactiva
Derrame de peso pequeño	Desaceleración notable con latencia desigual	A veces utilizable, pero menos responsivo
Derrame de caché KV	La memoria de ruta activa se mueve a través de PCIe por token	A menudo, un grave acantilado en el rendimiento

Si debe descargar, descargar una pequeña parte de los pesos generalmente es menos doloroso que forzar la caché KV fuera de la GPU.

Esto se debe a que la caché KV se toca en cada token generado. Una vez que sale de la VRAM, la cadencia de los tokens puede volverse visiblemente entrecortada, con ráfagas y pausas en lugar de una generación fluida.

La simultaneidad multiplica la asignación de contexto

Contexto por solicitud	Solicitudes paralelas	Asignación efectiva
4096	1	4096
4096	2	8192
4096	4	16384

Un perfil estable de chat único puede volverse inestable instantáneamente cuando ejecutas dos o cuatro sesiones en paralelo.

Tres perfiles prácticos

Conductor diario rápido: modelo 8B, Q4, num_ctx=4096, sesión única.
Mejora de la codificación: Modelo de código 14B, Q4, num_ctx=4096, sin aplicaciones en segundo plano con mucha GPU.
Modo de sesión larga: modelo 8B o 9B, num_ctx=8192, bajo paralelismo.

En computadoras de escritorio con Windows, mantenga un margen adicional para la sobrecarga de VRAM. Si está superando los límites, las configuraciones mínimas de Linux generalmente brindan un espacio útil más predecible.

Reglas prácticas de configuración

Comience con 8B a 9B en Q4 para velocidad diaria.
Utilice 14B sólo con un contexto moderado y un margen despejado.
En Windows, deje un margen de VRAM adicional para la sobrecarga del escritorio.
Si el rendimiento colapsa, reduzca num_ctx primero.

Referencias

Volver a todas las guías