Ollama en RTX 3060 12GB

RTX 3060 de 12 GB es un sólido punto de entrada al LLM local cuando se trata la VRAM como un presupuesto compartido en lugar de un umbral fijo de ajuste o no ajuste. La mayoría de las configuraciones lentas fallan porque el contexto se estableció demasiado alto, no porque la familia de modelos fuera inherentemente incorrecta.

Punto óptimo práctico: los modelos 7B a 9B son fáciles de mantener rápidos, mientras que los modelos 13B a ​​14B pueden funcionar bien en un contexto más reducido y un espacio libre estricto.

El patrón más común en esta tarjeta es: una configuración se siente genial el primer día, luego se ralentiza una vez que crece el historial de chat, se abre una segunda pestaña o se ejecuta una llamada API en paralelo. Suele ser una cuestión de contexto y simultaneidad, no una cuestión de calidad del modelo.

Modelo económico de memoria de 12 GB

cubo de memoria Comportamiento Implicación operativa
Pesos del modelo Principalmente arreglado por el tamaño del modelo y la cuantificación. Elija 7B a 14B con cuidado y reserve espacio libre
caché KV Se escala con la longitud del contexto y se accede a cada token La palanca de rendimiento práctica más grande con 12 GB
Gastos generales del sistema SO, controladores, aplicaciones de escritorio y fragmentación de VRAM La VRAM utilizable siempre es inferior a la etiqueta de la tarjeta.

En términos prácticos, estás equilibrando tres palancas a la vez. Si aumenta el tamaño del modelo, el margen de contexto se reduce. Si aumenta el contexto, la tolerancia a la concurrencia se reduce. Si mantiene ambos altos, descargue los saltos de riesgo.

Selecciones de modelos que normalmente funcionan bien

Caso de uso Modelo Rango de tamaño típico ¿Por qué cabe 12 GB?
asistente general Llama 3.1 8B Gran calidad por VRAM para chat y redacción diarios
asistente general gema 2 9B Calidad de respuesta eficiente en 12 GB con contexto moderado
Codificación Codificador Qwen2.5 7B a 14B Calidad centrada en el código, siendo 14B el techo práctico a menudo
Escritura multilingüe Qwen2.5 7B a 14B Fuerte comportamiento multilingüe y de formato largo si se controla el contexto.
Razonamiento DeepSeek-R1 7B a 14B Familia de razonamiento útil cuando se puede presupuestar cálculo adicional

Si solo cambia una configuración mientras soluciona el problema, cambie num_ctx. En 12 GB, por lo general tiene un mayor impacto en el mundo real que pasar de una familia de 8B a otra.

El contexto es la principal palanca de rendimiento

Ollama utiliza de forma predeterminada GPU de menos de 24 GiB en contexto 4K. En 12 GB, ese valor predeterminado suele ser el primer paso correcto. Aumente solo cuando su carga de trabajo real lo necesite.

Meta sugerido num_ctx Riesgo de derrame
Uso interactivo rápido y estable 4096 Bajo
Sesiones más largas 8192 Medio
Documentos largos o indicaciones con muchas herramientas 16384 Alto
Grandes experimentos de contexto 32768+ muy alto

Por qué el derrame de CPU parece un acantilado

Modo de ejecución Comportamiento observado Impacto del usuario
Completamente en GPU Rendimiento de token rápido y predecible La mejor experiencia interactiva
Derrame de peso pequeño Desaceleración notable con latencia desigual A veces utilizable, pero menos responsivo
Derrame de caché KV La memoria de ruta activa se mueve a través de PCIe por token A menudo, un grave acantilado en el rendimiento

Si debe descargar, descargar una pequeña parte de los pesos generalmente es menos doloroso que forzar la caché KV fuera de la GPU.

Esto se debe a que la caché KV se toca en cada token generado. Una vez que sale de la VRAM, la cadencia de los tokens puede volverse visiblemente entrecortada, con ráfagas y pausas en lugar de una generación fluida.

La simultaneidad multiplica la asignación de contexto

Contexto por solicitud Solicitudes paralelas Asignación efectiva
4096 1 4096
4096 2 8192
4096 4 16384

Un perfil estable de chat único puede volverse inestable instantáneamente cuando ejecutas dos o cuatro sesiones en paralelo.

Tres perfiles prácticos

En computadoras de escritorio con Windows, mantenga un margen adicional para la sobrecarga de VRAM. Si está superando los límites, las configuraciones mínimas de Linux generalmente brindan un espacio útil más predecible.

Reglas prácticas de configuración

Referencias

Volver a todas las guías

Share This Page