Ollama auf RTX 3060 12 GB
Die RTX 3060 12 GB ist ein starker lokaler LLM-Einstiegspunkt, wenn Sie VRAM als gemeinsames Budget und nicht als festen Schwellenwert für „fit or no fit“ behandeln. Die meisten langsamen Setups schlagen fehl, weil der Kontext zu hoch eingestellt war, und nicht, weil die Modellfamilie von Natur aus falsch war.
Praktischer Sweet Spot: Die Modelle 7B bis 9B lassen sich leicht schnell halten, während die Modelle 13B bis 14B bei engerem Kontext und strengem Spielraum gut funktionieren.
Das häufigste Muster auf dieser Karte ist: Ein Setup fühlt sich am ersten Tag gut an, verlangsamt sich dann jedoch, sobald der Chat-Verlauf wächst, ein zweiter Tab geöffnet wird oder ein API-Aufruf parallel ausgeführt wird. Dabei handelt es sich in der Regel um ein Kontext- und Parallelitätsproblem, nicht um ein Problem der Modellqualität.
Budgetmodell mit 12 GB Speicher
Praktisch gesehen balancieren Sie drei Hebel gleichzeitig. Wenn Sie die Modellgröße erhöhen, verringert sich der Kontextspielraum. Wenn Sie den Kontext erhöhen, verringert sich die Parallelitätstoleranz. Wenn Sie beides hoch halten, steigt das Offload-Risiko.
Modellauswahl, die normalerweise gut funktioniert
Wenn Sie während der Fehlerbehebung nur eine Einstellung ändern, ändern Sie diese
num_ctx. Bei 12 GB hat dies in der Praxis in der Regel größere Auswirkungen als der Wechsel von einer 8B-Familie zu einer anderen.
Der Kontext ist der wichtigste Leistungshebel
Ollama stellt GPUs unter 24 GiB standardmäßig auf 4K-Kontext ein. Bei 12 GB ist diese Standardeinstellung normalerweise der richtige erste Schritt. Erhöhen Sie die Leistung nur, wenn Ihre tatsächliche Arbeitsbelastung dies erfordert.
Warum sich CPU-Überlauf wie eine Klippe anfühlt
Wenn Sie eine Auslagerung durchführen müssen, ist die Auslagerung eines kleinen Teils der Gewichte im Allgemeinen weniger schmerzhaft als das Erzwingen des KV-Cache von der GPU.
Das liegt daran, dass der KV-Cache bei jedem generierten Token berührt wird. Sobald es den VRAM verlässt, kann die Token-Taktfrequenz sichtbar stottern, mit Ausbrüchen und Pausen statt einer reibungslosen Generierung.
Parallelität vervielfacht die Kontextzuordnung
Ein stabiles Einzelchat-Profil kann sofort instabil werden, wenn Sie zwei oder vier Sitzungen parallel ausführen.
Drei Praxisprofile
-
Schneller Alltagsfahrer: 8B-Modell, Q4,
num_ctx=4096, Einzelsitzung.
-
Codierungsschritt: 14B-Codemodell, Q4,
num_ctx=4096, keine GPU-lastigen Hintergrund-Apps.
-
Modus für lange Sitzungen: 8B- oder 9B-Modell,
num_ctx=8192, geringe Parallelität.
Halten Sie auf Windows-Desktops zusätzlichen Spielraum für den VRAM-Overhead ein. Wenn Sie Grenzen überschreiten, bieten minimale Linux-Setups normalerweise einen vorhersehbareren nutzbaren Spielraum.
Praktische Aufbauregeln
- Beginnen Sie mit 8B bis 9B bei Q4 für die tägliche Geschwindigkeit.
- Verwenden Sie 14B nur mit mäßigem Kontext und klarem Headroom.
- Lassen Sie unter Windows zusätzlichen VRAM-Spielraum für den Desktop-Overhead.
- Wenn der Durchsatz zusammenbricht, reduzieren Sie ihn
num_ctx Erste.