Ollama auf 24-GB-GPUs (RTX 3090/4090)

24 GB sind ein wichtiger Schwellenwert für lokales LLM: genug für stärkere Modelle und ernsthafte Kontextfenster, während auf einer einzigen Consumer-GPU verbleibt. Die größten Vorteile ergeben sich aus der expliziten Kontextsteuerung, sodass nicht jedes Modell auf dem gleichen Standardwert belassen wird.

Der qualitative Sprung von 16 GB besteht darin, dass der Kontext zu einem echten Arbeitswerkzeug wird und nicht nur zu einem Risiko, das es zu minimieren gilt. Sie können einen umfangreicheren Chatverlauf und größere Eingabeaufforderungspakete beibehalten, ohne sofort eine Auslagerung zu erzwingen.

Ollama-Kontextstandards nach VRAM-Stufe

VRAM-Stufe erkannt Standardkontext
Unter 24 GiB 4K
24 bis 48 GiB 32K
48 GiB oder mehr 256K

Auf 24-GB-Karten ist der standardmäßige 32-KByte-Kontext leistungsstark, aber teuer. Verwenden Sie es bei Bedarf, nicht aus Gewohnheit.

Viele Benutzer geraten genau in diese Falle: Laden Sie ein größeres Modell, vergessen Sie, dass der Standardkontext 32 KB beträgt, und fragen Sie sich dann, warum die CPU-Auslastung steigt. Die Lösung besteht normalerweise darin, den Kontext zu verringern, bevor die Modellfamilie geändert wird.

Das Modell wählt diese Karte gut für 24 GB aus

Modell Größenklasse Am besten für Startprofil
Lama 3.1 8B Generalassistent Q6 bis Q8, 16K bis 32K
Gemma 2 9B Chat und Zusammenfassung Q6 bis Q8, 16K bis 32K
Mistral NeMo 12B Ausgewogener Code + Argumentation Q5 bis Q6, 16K bis 32K
Qwen2.5-Codierer 14B Codierung Q5 bis Q6, 16K bis 32K
Qwen2.5 14B Mehrsprachige Langform Q5 bis Q6, 16K bis 32K
DeepSeek-R1 14B Argumentation Q5 bis Q6, 16K bis 32K
Lama 3.2 Vision 11B-Vision Vision + Text Q5 bis Q6, 8K bis 16K

Workloads der 32B-Klasse können mit geringerer Quantisierung und engerem Kontext auf 24 GB passen, Modelle der 14B-Klasse bieten jedoch normalerweise eine bessere Reaktionsfähigkeit im Alltag, es sei denn, Sie benötigen ausdrücklich das Ausgabeverhalten des größeren Modells.

RTX 3090 vs. RTX 4090 für Ollama

Aspekt RTX 3090 RTX 4090 Praktische Wirkung
VRAM-Kapazität 24 GB 24 GB Ähnliche Modellanpassungsgrenzen
Eingabeaufforderung + Generierungsgeschwindigkeit Gut Höher 4090 fühlt sich normalerweise reaktionsschneller an
Werteprofil Kostengünstiger 24-GB-Einstieg Top-Single-GPU-Leistung Auswahl nach Budget vs. Latenzziel

In der Praxis laufen auf beiden Karten ähnliche Modellsätze, da die Kapazität gleich ist. Der 4090 ist in der Regel beim Durchsatz und der Latenz vorne, während der 3090 oft beim Preis-Leistungs-Verhältnis gewinnt.

Wie Menschen versehentlich 24 GB verschütten

24 GB Stabilitätsregeln

Referenzen

Zurück zu allen Ratgebern

Share This Page