Ollama auf RTX 3060 12 GB

Die RTX 3060 12 GB ist ein starker lokaler LLM-Einstiegspunkt, wenn Sie VRAM als gemeinsames Budget und nicht als festen Schwellenwert für „fit or no fit“ behandeln. Die meisten langsamen Setups schlagen fehl, weil der Kontext zu hoch eingestellt war, und nicht, weil die Modellfamilie von Natur aus falsch war.

Praktischer Sweet Spot: Die Modelle 7B bis 9B lassen sich leicht schnell halten, während die Modelle 13B bis 14B bei engerem Kontext und strengem Spielraum gut funktionieren.

Das häufigste Muster auf dieser Karte ist: Ein Setup fühlt sich am ersten Tag gut an, verlangsamt sich dann jedoch, sobald der Chat-Verlauf wächst, ein zweiter Tab geöffnet wird oder ein API-Aufruf parallel ausgeführt wird. Dabei handelt es sich in der Regel um ein Kontext- und Parallelitätsproblem, nicht um ein Problem der Modellqualität.

Budgetmodell mit 12 GB Speicher

Speichereimer Verhalten Operative Auswirkungen
Modellgewichte Meist durch Modellgröße und Quantisierung festgelegt Wählen Sie 7B bis 14B sorgfältig aus und reservieren Sie Spielraum
KV-Cache Skaliert mit der Kontextlänge und es wird bei jedem Token darauf zugegriffen Größter praktischer Leistungshebel auf 12 GB
Systemaufwand Betriebssystem, Treiber, Desktop-Apps und VRAM-Fragmentierung Der nutzbare VRAM ist immer niedriger als auf der Karte angegeben

Praktisch gesehen balancieren Sie drei Hebel gleichzeitig. Wenn Sie die Modellgröße erhöhen, verringert sich der Kontextspielraum. Wenn Sie den Kontext erhöhen, verringert sich die Parallelitätstoleranz. Wenn Sie beides hoch halten, steigt das Offload-Risiko.

Modellauswahl, die normalerweise gut funktioniert

Anwendungsfall Modell Typischer Größenbereich Warum 12 GB hineinpassen
Generalassistent Lama 3.1 8B Starke Qualität pro VRAM für tägliches Chatten und Schreiben
Generalassistent Gemma 2 9B Effiziente Antwortqualität auf 12 GB mit moderatem Kontext
Codierung Qwen2.5-Codierer 7B bis 14B Codeorientierte Qualität, wobei 14B häufig die praktische Obergrenze darstellt
Mehrsprachiges Schreiben Qwen2.5 7B bis 14B Starkes mehrsprachiges und langes Verhalten, wenn der Kontext kontrolliert wird
Argumentation DeepSeek-R1 7B bis 14B Nützliche Argumentationsfamilie, wenn Sie zusätzliche Rechenleistung einplanen können

Wenn Sie während der Fehlerbehebung nur eine Einstellung ändern, ändern Sie diese num_ctx. Bei 12 GB hat dies in der Praxis in der Regel größere Auswirkungen als der Wechsel von einer 8B-Familie zu einer anderen.

Der Kontext ist der wichtigste Leistungshebel

Ollama stellt GPUs unter 24 GiB standardmäßig auf 4K-Kontext ein. Bei 12 GB ist diese Standardeinstellung normalerweise der richtige erste Schritt. Erhöhen Sie die Leistung nur, wenn Ihre tatsächliche Arbeitsbelastung dies erfordert.

Ziel Empfohlen num_ctx Verschüttungsrisiko
Schnelle, stabile interaktive Nutzung 4096 Niedrig
Längere Sitzungen 8192 Medium
Lange Dokumente oder Tool-lastige Eingabeaufforderungen 16384 Hoch
Riesige Kontextexperimente 32768+ Sehr hoch

Warum sich CPU-Überlauf wie eine Klippe anfühlt

Ausführungsmodus Beobachtetes Verhalten Auswirkungen auf den Benutzer
Voll auf GPU Schneller und vorhersehbarer Token-Durchsatz Bestes interaktives Erlebnis
Kleine Gewichtsverschüttung Spürbare Verlangsamung mit ungleichmäßiger Latenz Manchmal brauchbar, aber weniger reaktionsschnell
KV-Cache-Überlauf Hot-Path-Speicher wird pro Token über PCIe verschoben Oft ein schwerwiegender Leistungseinbruch

Wenn Sie eine Auslagerung durchführen müssen, ist die Auslagerung eines kleinen Teils der Gewichte im Allgemeinen weniger schmerzhaft als das Erzwingen des KV-Cache von der GPU.

Das liegt daran, dass der KV-Cache bei jedem generierten Token berührt wird. Sobald es den VRAM verlässt, kann die Token-Taktfrequenz sichtbar stottern, mit Ausbrüchen und Pausen statt einer reibungslosen Generierung.

Parallelität vervielfacht die Kontextzuordnung

Kontext pro Anfrage Parallele Anfragen Effektive Allokation
4096 1 4096
4096 2 8192
4096 4 16384

Ein stabiles Einzelchat-Profil kann sofort instabil werden, wenn Sie zwei oder vier Sitzungen parallel ausführen.

Drei Praxisprofile

Halten Sie auf Windows-Desktops zusätzlichen Spielraum für den VRAM-Overhead ein. Wenn Sie Grenzen überschreiten, bieten minimale Linux-Setups normalerweise einen vorhersehbareren nutzbaren Spielraum.

Praktische Aufbauregeln

Referenzen

Zurück zu allen Ratgebern

Share This Page