Ollama auf RTX 4060 8GB

RTX 4060 verfügt über eine starke Rechenleistung, aber 8 GB VRAM sind der limitierende Faktor für lokale LLMs. Der zuverlässigste Weg sind kleinere Modelle mit bewusster Kontextgrößenanpassung, nicht große Modelle mit versteckter CPU-Auslastung.

Praktischer Sweet Spot: 3B bis 4B für maximale Reaktionsfähigkeit oder 7B bis 8B bei Q4 mit mäßigem Kontext.

Bei 8 GB fühlt sich die Leistung oft binär an: entweder vollständig auf der GPU und flüssig, oder teilweise verstreut und plötzlich langsam. Normalerweise gibt es nicht viel Mittelweg.

Was bequem auf 8 GB passt

Anwendungsfall Modell Typischer Größenbereich Warum es mit 8 GB funktioniert
Ultraleicht und schnell Phi-3 Mini 3B bis 4B Niedriger VRAM-Druck und Platz für längeren Kontext
Generalassistent Lama 3.1 8B Starke Basisqualität im vierten Quartal mit mäßigem Kontext
Allgemeiner Chat/Zusammenfassungen Gemma 2 2B bis 9B Kleinere Varianten sind auf 8GB besonders stabil
Codierung Qwen2.5-Codierer 7B Gute Codierungsausgabe, ohne den VRAM so stark wie 14B zu belasten
Mehrsprachiges Schreiben Qwen2.5 7B Nützliche mehrsprachige Qualität, wenn der Kontext kontrolliert bleibt

14B kann manchmal mit aggressiven Kompromissen auf 8 GB ausgeführt werden, aber hier kommt es normalerweise zu inkonsistenten Latenzzeiten.

Wenn Ihr Ziel ein zuverlässiger Durchsatz ist, schlagen kleinere Modelle mit höherer Stabilität in realen Arbeitsabläufen normalerweise größere Modelle mit Offload.

Kontextstrategie für 8 GB

Auf dieser Ebene ist der Kontext oft der entscheidende Faktor zwischen reibungsloser GPU-Inferenz und klippenartiger Verlangsamung. Satz num_ctx explizit, anstatt von sich ändernden Standardeinstellungen abhängig zu sein.

Ziel Empfohlen num_ctx Verschüttungsrisiko
Schnell und konsistent 2048 bis 4096 Niedrig
Längere Sitzungen 4096 bis 8192 Medium
Lange Dokumente 8192 bis 16384 Hoch
Extreme Kontexttests 16384+ Sehr hoch

Eine praktische Falle: Standardeinstellungen können sich zwischen Releases ändern. Explizit einstellen num_ctx Hält Ihr Verhalten stabil, anstatt sich ändernde Standardeinstellungen zu übernehmen.

Parallelität ist ein versteckter Fehlermodus

Effektive Kontextzuordnung skaliert mit parallelen Anfragen. Ein Setup, das in einem Chat stabil ist, kann beim Öffnen mehrerer Sitzungen überlaufen.

Kontext pro Anfrage Parallele Anfragen Effektive Allokation
4096 1 4096
4096 2 8192
4096 4 16384

Aus diesem Grund kann ein Setup, das gestern funktioniert hat, heute fehlschlagen, wenn Sie Tabs hinzufügen, einen anderen Chat öffnen oder einen API-Endpunkt mit parallelen Anfragen verfügbar machen.

Drei Profile, die in der Praxis funktionieren

Wenn Sie einen längeren Kontext ohne Überlaufen benötigen, ist die Reduzierung der Modellgröße in der Regel ein besserer Kompromiss, als größere Modelle zur gemischten CPU/GPU-Ausführung zu zwingen.

8 GB Betriebsregeln

Referenzen

Zurück zu allen Ratgebern

Share This Page