Ollama auf RTX 3060 12 GB

Die RTX 3060 12 GB ist ein starker lokaler LLM-Einstiegspunkt, wenn Sie VRAM als gemeinsames Budget und nicht als festen Schwellenwert für „fit or no fit“ behandeln. Die meisten langsamen Setups schlagen fehl, weil der Kontext zu hoch eingestellt war, und nicht, weil die Modellfamilie von Natur aus falsch war.

Praktischer Sweet Spot: Die Modelle 7B bis 9B lassen sich leicht schnell halten, während die Modelle 13B bis 14B bei engerem Kontext und strengem Spielraum gut funktionieren.

Das häufigste Muster auf dieser Karte ist: Ein Setup fühlt sich am ersten Tag gut an, verlangsamt sich dann jedoch, sobald der Chat-Verlauf wächst, ein zweiter Tab geöffnet wird oder ein API-Aufruf parallel ausgeführt wird. Dabei handelt es sich in der Regel um ein Kontext- und Parallelitätsproblem, nicht um ein Problem der Modellqualität.

Budgetmodell mit 12 GB Speicher

Speichereimer	Verhalten	Operative Auswirkungen
Modellgewichte	Meist durch Modellgröße und Quantisierung festgelegt	Wählen Sie 7B bis 14B sorgfältig aus und reservieren Sie Spielraum
KV-Cache	Skaliert mit der Kontextlänge und es wird bei jedem Token darauf zugegriffen	Größter praktischer Leistungshebel auf 12 GB
Systemaufwand	Betriebssystem, Treiber, Desktop-Apps und VRAM-Fragmentierung	Der nutzbare VRAM ist immer niedriger als auf der Karte angegeben

Praktisch gesehen balancieren Sie drei Hebel gleichzeitig. Wenn Sie die Modellgröße erhöhen, verringert sich der Kontextspielraum. Wenn Sie den Kontext erhöhen, verringert sich die Parallelitätstoleranz. Wenn Sie beides hoch halten, steigt das Offload-Risiko.

Modellauswahl, die normalerweise gut funktioniert

Anwendungsfall	Modell	Typischer Größenbereich	Warum 12 GB hineinpassen
Generalassistent	Lama 3.1	8B	Starke Qualität pro VRAM für tägliches Chatten und Schreiben
Generalassistent	Gemma 2	9B	Effiziente Antwortqualität auf 12 GB mit moderatem Kontext
Codierung	Qwen2.5-Codierer	7B bis 14B	Codeorientierte Qualität, wobei 14B häufig die praktische Obergrenze darstellt
Mehrsprachiges Schreiben	Qwen2.5	7B bis 14B	Starkes mehrsprachiges und langes Verhalten, wenn der Kontext kontrolliert wird
Argumentation	DeepSeek-R1	7B bis 14B	Nützliche Argumentationsfamilie, wenn Sie zusätzliche Rechenleistung einplanen können

Wenn Sie während der Fehlerbehebung nur eine Einstellung ändern, ändern Sie diese num_ctx. Bei 12 GB hat dies in der Praxis in der Regel größere Auswirkungen als der Wechsel von einer 8B-Familie zu einer anderen.

Der Kontext ist der wichtigste Leistungshebel

Ollama stellt GPUs unter 24 GiB standardmäßig auf 4K-Kontext ein. Bei 12 GB ist diese Standardeinstellung normalerweise der richtige erste Schritt. Erhöhen Sie die Leistung nur, wenn Ihre tatsächliche Arbeitsbelastung dies erfordert.

Ziel	Empfohlen `num_ctx`	Verschüttungsrisiko
Schnelle, stabile interaktive Nutzung	4096	Niedrig
Längere Sitzungen	8192	Medium
Lange Dokumente oder Tool-lastige Eingabeaufforderungen	16384	Hoch
Riesige Kontextexperimente	32768+	Sehr hoch

Warum sich CPU-Überlauf wie eine Klippe anfühlt

Ausführungsmodus	Beobachtetes Verhalten	Auswirkungen auf den Benutzer
Voll auf GPU	Schneller und vorhersehbarer Token-Durchsatz	Bestes interaktives Erlebnis
Kleine Gewichtsverschüttung	Spürbare Verlangsamung mit ungleichmäßiger Latenz	Manchmal brauchbar, aber weniger reaktionsschnell
KV-Cache-Überlauf	Hot-Path-Speicher wird pro Token über PCIe verschoben	Oft ein schwerwiegender Leistungseinbruch

Wenn Sie eine Auslagerung durchführen müssen, ist die Auslagerung eines kleinen Teils der Gewichte im Allgemeinen weniger schmerzhaft als das Erzwingen des KV-Cache von der GPU.

Das liegt daran, dass der KV-Cache bei jedem generierten Token berührt wird. Sobald es den VRAM verlässt, kann die Token-Taktfrequenz sichtbar stottern, mit Ausbrüchen und Pausen statt einer reibungslosen Generierung.

Parallelität vervielfacht die Kontextzuordnung

Kontext pro Anfrage	Parallele Anfragen	Effektive Allokation
4096	1	4096
4096	2	8192
4096	4	16384

Ein stabiles Einzelchat-Profil kann sofort instabil werden, wenn Sie zwei oder vier Sitzungen parallel ausführen.

Drei Praxisprofile

Schneller Alltagsfahrer: 8B-Modell, Q4, num_ctx=4096, Einzelsitzung.
Codierungsschritt: 14B-Codemodell, Q4, num_ctx=4096, keine GPU-lastigen Hintergrund-Apps.
Modus für lange Sitzungen: 8B- oder 9B-Modell, num_ctx=8192, geringe Parallelität.

Halten Sie auf Windows-Desktops zusätzlichen Spielraum für den VRAM-Overhead ein. Wenn Sie Grenzen überschreiten, bieten minimale Linux-Setups normalerweise einen vorhersehbareren nutzbaren Spielraum.

Praktische Aufbauregeln

Beginnen Sie mit 8B bis 9B bei Q4 für die tägliche Geschwindigkeit.
Verwenden Sie 14B nur mit mäßigem Kontext und klarem Headroom.
Lassen Sie unter Windows zusätzlichen VRAM-Spielraum für den Desktop-Overhead.
Wenn der Durchsatz zusammenbricht, reduzieren Sie ihn num_ctx Erste.

Referenzen

Zurück zu allen Ratgebern