Ollama auf 24-GB-GPUs (RTX 3090/4090)

24 GB sind ein wichtiger Schwellenwert für lokales LLM: genug für stärkere Modelle und ernsthafte Kontextfenster, während auf einer einzigen Consumer-GPU verbleibt. Die größten Vorteile ergeben sich aus der expliziten Kontextsteuerung, sodass nicht jedes Modell auf dem gleichen Standardwert belassen wird.

Der qualitative Sprung von 16 GB besteht darin, dass der Kontext zu einem echten Arbeitswerkzeug wird und nicht nur zu einem Risiko, das es zu minimieren gilt. Sie können einen umfangreicheren Chatverlauf und größere Eingabeaufforderungspakete beibehalten, ohne sofort eine Auslagerung zu erzwingen.

Ollama-Kontextstandards nach VRAM-Stufe

VRAM-Stufe erkannt	Standardkontext
Unter 24 GiB	4K
24 bis 48 GiB	32K
48 GiB oder mehr	256K

Auf 24-GB-Karten ist der standardmäßige 32-KByte-Kontext leistungsstark, aber teuer. Verwenden Sie es bei Bedarf, nicht aus Gewohnheit.

Viele Benutzer geraten genau in diese Falle: Laden Sie ein größeres Modell, vergessen Sie, dass der Standardkontext 32 KB beträgt, und fragen Sie sich dann, warum die CPU-Auslastung steigt. Die Lösung besteht normalerweise darin, den Kontext zu verringern, bevor die Modellfamilie geändert wird.

Das Modell wählt diese Karte gut für 24 GB aus

Modell	Größenklasse	Am besten für	Startprofil
Lama 3.1	8B	Generalassistent	Q6 bis Q8, 16K bis 32K
Gemma 2	9B	Chat und Zusammenfassung	Q6 bis Q8, 16K bis 32K
Mistral NeMo	12B	Ausgewogener Code + Argumentation	Q5 bis Q6, 16K bis 32K
Qwen2.5-Codierer	14B	Codierung	Q5 bis Q6, 16K bis 32K
Qwen2.5	14B	Mehrsprachige Langform	Q5 bis Q6, 16K bis 32K
DeepSeek-R1	14B	Argumentation	Q5 bis Q6, 16K bis 32K
Lama 3.2 Vision	11B-Vision	Vision + Text	Q5 bis Q6, 8K bis 16K

Workloads der 32B-Klasse können mit geringerer Quantisierung und engerem Kontext auf 24 GB passen, Modelle der 14B-Klasse bieten jedoch normalerweise eine bessere Reaktionsfähigkeit im Alltag, es sei denn, Sie benötigen ausdrücklich das Ausgabeverhalten des größeren Modells.

RTX 3090 vs. RTX 4090 für Ollama

Aspekt	RTX 3090	RTX 4090	Praktische Wirkung
VRAM-Kapazität	24 GB	24 GB	Ähnliche Modellanpassungsgrenzen
Eingabeaufforderung + Generierungsgeschwindigkeit	Gut	Höher	4090 fühlt sich normalerweise reaktionsschneller an
Werteprofil	Kostengünstiger 24-GB-Einstieg	Top-Single-GPU-Leistung	Auswahl nach Budget vs. Latenzziel

In der Praxis laufen auf beiden Karten ähnliche Modellsätze, da die Kapazität gleich ist. Der 4090 ist in der Regel beim Durchsatz und der Latenz vorne, während der 3090 oft beim Preis-Leistungs-Verhältnis gewinnt.

Wie Menschen versehentlich 24 GB verschütten

Der standardmäßige 32-KByte-Kontext bleibt für jede Arbeitslast aktiviert.
Hinzufügen paralleler API-Anfragen, ohne die effektive Kontextzuordnung erneut zu überprüfen.
Ausführen von Desktop-lastigen Workloads bei gleichzeitigem Benchmarking nahezu limitierter Modelleinstellungen.
Wechseln Sie zu größeren Modellebenen, bevor Sie die Stabilität bei langen Sitzungen validieren.

24 GB Stabilitätsregeln

Verwenden Sie 8 KB bis 16 KB für Chat- und Codierungsstandards mit geringer Latenz.
Wechseln Sie zu 32 KB, wenn ein langer Verlauf oder viele Dateien die Qualität tatsächlich verbessern.
Bei Modellen der 32B-Klasse zuerst den Kontext verringern, um den KV-Cache-Spielraum zu schützen.
Behandeln Sie im Servermodus parallele Anforderungen als direkten Speichermultiplikator.

Referenzen

Zurück zu allen Ratgebern