Ollama auf 24-GB-GPUs (RTX 3090/4090)
24 GB sind ein wichtiger Schwellenwert für lokales LLM: genug für stärkere Modelle und ernsthafte Kontextfenster, während auf einer einzigen Consumer-GPU verbleibt. Die größten Vorteile ergeben sich aus der expliziten Kontextsteuerung, sodass nicht jedes Modell auf dem gleichen Standardwert belassen wird.
Der qualitative Sprung von 16 GB besteht darin, dass der Kontext zu einem echten Arbeitswerkzeug wird und nicht nur zu einem Risiko, das es zu minimieren gilt. Sie können einen umfangreicheren Chatverlauf und größere Eingabeaufforderungspakete beibehalten, ohne sofort eine Auslagerung zu erzwingen.
Ollama-Kontextstandards nach VRAM-Stufe
Auf 24-GB-Karten ist der standardmäßige 32-KByte-Kontext leistungsstark, aber teuer. Verwenden Sie es bei Bedarf, nicht aus Gewohnheit.
Viele Benutzer geraten genau in diese Falle: Laden Sie ein größeres Modell, vergessen Sie, dass der Standardkontext 32 KB beträgt, und fragen Sie sich dann, warum die CPU-Auslastung steigt. Die Lösung besteht normalerweise darin, den Kontext zu verringern, bevor die Modellfamilie geändert wird.
Das Modell wählt diese Karte gut für 24 GB aus
Workloads der 32B-Klasse können mit geringerer Quantisierung und engerem Kontext auf 24 GB passen, Modelle der 14B-Klasse bieten jedoch normalerweise eine bessere Reaktionsfähigkeit im Alltag, es sei denn, Sie benötigen ausdrücklich das Ausgabeverhalten des größeren Modells.
RTX 3090 vs. RTX 4090 für Ollama
In der Praxis laufen auf beiden Karten ähnliche Modellsätze, da die Kapazität gleich ist. Der 4090 ist in der Regel beim Durchsatz und der Latenz vorne, während der 3090 oft beim Preis-Leistungs-Verhältnis gewinnt.
Wie Menschen versehentlich 24 GB verschütten
- Der standardmäßige 32-KByte-Kontext bleibt für jede Arbeitslast aktiviert.
- Hinzufügen paralleler API-Anfragen, ohne die effektive Kontextzuordnung erneut zu überprüfen.
- Ausführen von Desktop-lastigen Workloads bei gleichzeitigem Benchmarking nahezu limitierter Modelleinstellungen.
- Wechseln Sie zu größeren Modellebenen, bevor Sie die Stabilität bei langen Sitzungen validieren.
24 GB Stabilitätsregeln
- Verwenden Sie 8 KB bis 16 KB für Chat- und Codierungsstandards mit geringer Latenz.
- Wechseln Sie zu 32 KB, wenn ein langer Verlauf oder viele Dateien die Qualität tatsächlich verbessern.
- Bei Modellen der 32B-Klasse zuerst den Kontext verringern, um den KV-Cache-Spielraum zu schützen.
- Behandeln Sie im Servermodus parallele Anforderungen als direkten Speichermultiplikator.