Ollama auf RTX 5090 (32 GB)

RTX 5090 ändert die lokale Inferenz hauptsächlich durch die 32-GB-Kapazität: Sie können größere Modelle und größeren Kontext häufiger auf der GPU behalten als 24-GB-Systeme. Die reine Geschwindigkeit hilft, aber die volle Auslastung der GPU ist immer noch der wichtigste Indikator für die vom Benutzer wahrgenommene Leistung.

Der Kerngedanke beim 5090 ist immer noch die Budgetverwaltung: Gewichte + KV-Cache + Overhead. Die Karte ist schnell genug. Wenn sie langsamer wird, liegt das meist daran, dass sie nicht mehr funktioniert, und nicht daran, dass die GPU schwach ist.

Kontextstandards und warum sie wichtig sind

VRAM-Stufe	Standardkontext
Unter 24 GiB	4K
24 bis 48 GiB	32K
48 GiB oder mehr	256K

5090 befindet sich im Bereich von 24 bis 48 GiB, sodass der Standardkontext normalerweise 32 KB beträgt. Betrachten Sie dies als eine Fähigkeit und nicht als eine feste Einstellung für jedes Modell.

Bei sehr großen Kontrollpunkten ist es in der Regel sicherer, bei 16 KB zu beginnen und dann zu steigern, als bei 32 KB zu beginnen und zu versuchen, einen plötzlichen Überlauf zu beheben.

Modellauswahl für 32-GB-Workloads

Modell	Größenklasse	Am besten für	Startquant	Ausgangskontext
Lama 3.3	70B-Klasse	Großer Generalassistent	Q4	Beginnen Sie mit 16 KB und testen Sie dann 32 KB
Qwen2.5	72B-Klasse	Mehrsprachig und in Langform	Q4	Beginnen Sie mit 16 KB und testen Sie dann 32 KB
Mixtral 8x22B	MoE 8x22B	Hochwertige Workflows mit langem Kontext	Q4	32K
Befehl R+	104B-Klasse	Anleitungsintensive Tool-Workflows	Q3	8K bis 16K
Qwen2.5 VL	72B Visionssprache	Dokumenten- und Visionsaufgaben	Q4	8K bis 16K

Der Vorteil von 32 GB liegt nicht nur in der Modellgröße. Es handelt sich um die Möglichkeit, größere Arbeitskontexte und mehrstufige Eingabeaufforderungen im Agentenstil auf der GPU beizubehalten, ohne dass sie sofort zusammenbrechen.

Praktische Profile für RTX 5090

Profil	Modelband	Kontextplan	Primäres Ziel
A: Maximale Reaktionsfähigkeit	14B bis 32B	16K bis 32K	Niedrigste Latenz mit viel Werkzeugspielraum
B: Großes Einzel-GPU-Modell	70B bis 72B	Zuerst 16K, dann 32K	Hohe Qualität bei gleichzeitiger Nutzung einer GPU
C: Agenten mit langem Kontext	MoE oder starke Mittelklasse-Modelle	32K	Lange Historie und Abruf ohne Offload

In Profil B glänzt die 5090: Große Single-GPU-Modelle laufen, die auf kleineren Karten unpraktisch oder spröde sind. Profil A eignet sich oft besser für Produkt-Workflows, bei denen die Konsistenz der Latenz wichtiger ist als die Größe des Hauptmodells.

Vor- und Nachteile im realen Einsatz

Vorteile	Nachteile
32 GB machen 70B/72B-Einzel-GPU-Läufe weitaus praktischer	Immer noch nicht eine 48-GB-Klasse-Karte für jedes Riesenmodell + eine riesige Kontextkombination
Die 32K-Standardkontextschicht unterstützt lange Sitzungen und Agenten-Workflows	Ein großer Standardkontext kann bei sehr schweren Modellen nach hinten losgehen
Mehr Spielraum für Multitasking und parallele Chats	Hohe Kosten, Leistung und Thermik im Vergleich zu kleineren Karten

Wo 5090-Setups immer noch fehlschlagen

Gleichzeitige Ausführung von 70B+ Modellen mit 32K-Kontext und hoher Parallelität.
Es wird davon ausgegangen, dass der Standardkontext für jede Modellklasse immer optimal ist.
Behandeln Sie 32 GB als gleichwertig mit 48 GB und überbelegen Sie den KV-Cache.
Benchmarking mit Leerlaufbedingungen und anschließende Bereitstellung mit echtem gleichzeitigem Datenverkehr.

32 GB Betriebsregeln

Verwenden Sie 8K bis 16K für schnelle interaktive Arbeitsabläufe.
Wechseln Sie zu 32 KB, wenn ein längerer Arbeitsspeicher einen klaren Aufgabenwert hat.
Wenn die Leistung sinkt, verringern Sie den Kontext, bevor Sie die Modellfamilie ändern.
Begrenzen Sie im API-Modus die Parallelität, wenn sich die Latenz plötzlich verschlechtert.

Referenzen

Zurück zu allen Ratgebern