Ollama auf RTX 4060 8GB
RTX 4060 verfügt über eine starke Rechenleistung, aber 8 GB VRAM sind der limitierende Faktor für lokale LLMs. Der zuverlässigste Weg sind kleinere Modelle mit bewusster Kontextgrößenanpassung, nicht große Modelle mit versteckter CPU-Auslastung.
Praktischer Sweet Spot: 3B bis 4B für maximale Reaktionsfähigkeit oder 7B bis 8B bei Q4 mit mäßigem Kontext.
Bei 8 GB fühlt sich die Leistung oft binär an: entweder vollständig auf der GPU und flüssig, oder teilweise verstreut und plötzlich langsam. Normalerweise gibt es nicht viel Mittelweg.
Was bequem auf 8 GB passt
14B kann manchmal mit aggressiven Kompromissen auf 8 GB ausgeführt werden, aber hier kommt es normalerweise zu inkonsistenten Latenzzeiten.
Wenn Ihr Ziel ein zuverlässiger Durchsatz ist, schlagen kleinere Modelle mit höherer Stabilität in realen Arbeitsabläufen normalerweise größere Modelle mit Offload.
Kontextstrategie für 8 GB
Auf dieser Ebene ist der Kontext oft der entscheidende Faktor zwischen reibungsloser GPU-Inferenz und klippenartiger Verlangsamung. Satz
num_ctx explizit, anstatt von sich ändernden Standardeinstellungen abhängig zu sein.
Eine praktische Falle: Standardeinstellungen können sich zwischen Releases ändern. Explizit einstellen
num_ctx Hält Ihr Verhalten stabil, anstatt sich ändernde Standardeinstellungen zu übernehmen.
Parallelität ist ein versteckter Fehlermodus
Effektive Kontextzuordnung skaliert mit parallelen Anfragen. Ein Setup, das in einem Chat stabil ist, kann beim Öffnen mehrerer Sitzungen überlaufen.
Aus diesem Grund kann ein Setup, das gestern funktioniert hat, heute fehlschlagen, wenn Sie Tabs hinzufügen, einen anderen Chat öffnen oder einen API-Endpunkt mit parallelen Anfragen verfügbar machen.
Drei Profile, die in der Praxis funktionieren
-
Allgemeines Chat-Profil: 7B bis 8B Modell, Q4,
num_ctx=4096, geringe Parallelität.
-
Codierungsprofil:
Qwen2.5-Codierer 7B oder
Phi-3 Mini,
num_ctx=4096.
-
Langdokumentprofil: kleineres Modell (2B bis 4B),
num_ctx=8192 Zu
16384.
Wenn Sie einen längeren Kontext ohne Überlaufen benötigen, ist die Reduzierung der Modellgröße in der Regel ein besserer Kompromiss, als größere Modelle zur gemischten CPU/GPU-Ausführung zu zwingen.
8 GB Betriebsregeln
- Verwenden Sie Q4 als erstes quantitatives Ziel für 7B- bis 8B-Modelle.
- Löschen Sie den Kontext, bevor Sie die Modellqualität verringern, wenn die Latenz ansteigt.
- Halten Sie Overlays, Browser-Tabs und GPU-lastige Apps während der Bereitstellung geschlossen.
- Betrachten Sie 8 GB als geringeren nutzbaren Spielraum unter realen Desktop-Bedingungen.