Ollama auf RTX 4060 8GB

RTX 4060 verfügt über eine starke Rechenleistung, aber 8 GB VRAM sind der limitierende Faktor für lokale LLMs. Der zuverlässigste Weg sind kleinere Modelle mit bewusster Kontextgrößenanpassung, nicht große Modelle mit versteckter CPU-Auslastung.

Praktischer Sweet Spot: 3B bis 4B für maximale Reaktionsfähigkeit oder 7B bis 8B bei Q4 mit mäßigem Kontext.

Bei 8 GB fühlt sich die Leistung oft binär an: entweder vollständig auf der GPU und flüssig, oder teilweise verstreut und plötzlich langsam. Normalerweise gibt es nicht viel Mittelweg.

Was bequem auf 8 GB passt

Anwendungsfall	Modell	Typischer Größenbereich	Warum es mit 8 GB funktioniert
Ultraleicht und schnell	Phi-3 Mini	3B bis 4B	Niedriger VRAM-Druck und Platz für längeren Kontext
Generalassistent	Lama 3.1	8B	Starke Basisqualität im vierten Quartal mit mäßigem Kontext
Allgemeiner Chat/Zusammenfassungen	Gemma 2	2B bis 9B	Kleinere Varianten sind auf 8GB besonders stabil
Codierung	Qwen2.5-Codierer	7B	Gute Codierungsausgabe, ohne den VRAM so stark wie 14B zu belasten
Mehrsprachiges Schreiben	Qwen2.5	7B	Nützliche mehrsprachige Qualität, wenn der Kontext kontrolliert bleibt

14B kann manchmal mit aggressiven Kompromissen auf 8 GB ausgeführt werden, aber hier kommt es normalerweise zu inkonsistenten Latenzzeiten.

Wenn Ihr Ziel ein zuverlässiger Durchsatz ist, schlagen kleinere Modelle mit höherer Stabilität in realen Arbeitsabläufen normalerweise größere Modelle mit Offload.

Kontextstrategie für 8 GB

Auf dieser Ebene ist der Kontext oft der entscheidende Faktor zwischen reibungsloser GPU-Inferenz und klippenartiger Verlangsamung. Satz num_ctx explizit, anstatt von sich ändernden Standardeinstellungen abhängig zu sein.

Ziel	Empfohlen `num_ctx`	Verschüttungsrisiko
Schnell und konsistent	2048 bis 4096	Niedrig
Längere Sitzungen	4096 bis 8192	Medium
Lange Dokumente	8192 bis 16384	Hoch
Extreme Kontexttests	16384+	Sehr hoch

Eine praktische Falle: Standardeinstellungen können sich zwischen Releases ändern. Explizit einstellen num_ctx Hält Ihr Verhalten stabil, anstatt sich ändernde Standardeinstellungen zu übernehmen.

Parallelität ist ein versteckter Fehlermodus

Effektive Kontextzuordnung skaliert mit parallelen Anfragen. Ein Setup, das in einem Chat stabil ist, kann beim Öffnen mehrerer Sitzungen überlaufen.

Kontext pro Anfrage	Parallele Anfragen	Effektive Allokation
4096	1	4096
4096	2	8192
4096	4	16384

Aus diesem Grund kann ein Setup, das gestern funktioniert hat, heute fehlschlagen, wenn Sie Tabs hinzufügen, einen anderen Chat öffnen oder einen API-Endpunkt mit parallelen Anfragen verfügbar machen.

Drei Profile, die in der Praxis funktionieren

Allgemeines Chat-Profil: 7B bis 8B Modell, Q4, num_ctx=4096, geringe Parallelität.
Codierungsprofil: Qwen2.5-Codierer 7B oder Phi-3 Mini, num_ctx=4096.
Langdokumentprofil: kleineres Modell (2B bis 4B), num_ctx=8192 Zu 16384.

Wenn Sie einen längeren Kontext ohne Überlaufen benötigen, ist die Reduzierung der Modellgröße in der Regel ein besserer Kompromiss, als größere Modelle zur gemischten CPU/GPU-Ausführung zu zwingen.

8 GB Betriebsregeln

Verwenden Sie Q4 als erstes quantitatives Ziel für 7B- bis 8B-Modelle.
Löschen Sie den Kontext, bevor Sie die Modellqualität verringern, wenn die Latenz ansteigt.
Halten Sie Overlays, Browser-Tabs und GPU-lastige Apps während der Bereitstellung geschlossen.
Betrachten Sie 8 GB als geringeren nutzbaren Spielraum unter realen Desktop-Bedingungen.

Referenzen

Zurück zu allen Ratgebern