Ollama auf Mac mini M4 (24 GB Unified Memory)

Der Mac mini M4 mit 24 GB kann starke lokale Arbeitsabläufe ausführen, sein Speicherverhalten unterscheidet sich jedoch von dem diskreter GPUs. Modellgewichte, KV-Cache und macOS stammen alle aus einem einheitlichen Pool.

Das Ergebnis: Die Kontextgröße ist noch wichtiger und die Nutzung von Apps im Hintergrund kann die Modellstabilität verändern.

Aus diesem Grund können sich zwei scheinbar identische Setups unterschiedlich anfühlen: Ein Computer führt eine saubere native Ollama-Sitzung aus, während der andere den Speicher mit Browsern, Design-Apps und dem Container-Overhead teilt.

Unified Memory vs. dedizierter VRAM

Aspekt	Apple Silizium (M4)	Diskrete GPU-Systeme	Praktische Implikation
Speicherarchitektur	Einheitlicher Speicher, der von CPU und GPU gemeinsam genutzt wird	Dedizierter VRAM für GPU	macOS und Apps reduzieren den Spielraum des Modells direkt
Beschleunigungsweg	In das einheimische Ollama eingebautes Metall	CUDA-basierter Pfad auf NVIDIA	Die native macOS-Laufzeit ist wichtig für die erwartete Leistung
Containerverhalten	Die GPU-Beschleunigung kann in einigen Container-Setups eingeschränkt sein	Container-GPU-Pfade sind normalerweise direkter	Bevorzugen Sie beim Benchmarking oder Servieren einheimisches Ollama

Die praktische Konsequenz ist einfach: Auf Apple Silicon macht sich der Speicherdruck früher bemerkbar, da die Latenz bei langen Sitzungen schwankt. Du spürst es allmählich, dann plötzlich.

Modellauswahl, die gut mit 24 GB Unified Memory funktioniert

Modell	Am besten für	Ausgangskontext	Fit-Notizen
Lama 3.1	Allgemeiner Assistent und Werkzeuge	8K bis 16K	Zuverlässige Qualität mit guter Speicherbalance
Gemma 2	Zusammenfassung und Chat	8K	Effiziente Basis für den täglichen interaktiven Einsatz
Mistral NeMo	Ausgewogene Codierung + Argumentation	4K bis 8K	Guter Standard mittlerer Größe mit einheitlichem Speicher
Qwen2.5-Codierer	Codierung und Refactoring	4K bis 8K	14B kann funktionieren, wenn der Speicherdruck verwaltet wird
Qwen2.5	Mehrsprachige Langform	4K bis 8K	Starkes Langformverhalten mit kontrolliertem Kontext
Phi-3 Mini	Experimente mit geringer Latenz und langem Kontext	16K bis 32K	Die kleinere Größe lässt mehr Platz für den KV-Cache

14B-Modelle sind mit 24 GB einheitlichem Speicher realistisch, aber sie sind am stabilsten, wenn Sie den Kontext moderat halten und bei langen Läufen starkes Multitasking vermeiden.

Kontextprofile für stabile macOS-Leistung

Ziel	Empfohlen `num_ctx`	Modellpalette
Stabiler täglicher Gebrauch	4096	7B bis 14B
Längere Codierungs-/Chat-Sitzungen	8192	7B bis 12B
Lange Dokumente und Notizblöcke	16384	Bevorzugen Sie 7B gegenüber 9B
Sehr lange Kontexttests	32768	Bevorzugen Sie 3B gegenüber 7B

Wenn Sitzungen mit der Zeit langsamer werden, reduzieren Sie zunächst den Kontext. Auf Unified-Memory-Systemen behebt dies die Instabilität normalerweise schneller als ein Modellwechsel.

Native vs. Container Reality unter macOS

Native Ollama bietet im Allgemeinen den vorhersehbarsten Metal-Beschleunigungspfad auf Apple Silicon. Containerisierte Arbeitsabläufe können praktisch sein, stellen die GPU-Beschleunigung jedoch möglicherweise nicht in gleicher Weise zur Verfügung, was dazu führen kann, dass sich ein Setup aus unerklärlichen Gründen CPU-gebunden anfühlt.

Wenn die Ergebnisse unerwartet langsam erscheinen, überprüfen Sie zunächst die native Leistung und führen Sie dann die Containerebenen wieder ein.

Laufzeitregeln, die wichtig sind

Verwenden Sie natives Ollama unter macOS, um eine zuverlässige Metal-Beschleunigung zu erhalten.
Halten Sie speicherintensive Apps geschlossen, während Sie größere Kontexte testen.
Geben Sie das Speicherbudget nur dann für den Kontext aus, wenn die Aufgabe es wirklich benötigt.
Für Aufgaben mit langen Kontexten bevorzugen Sie kleinere Modelle gegenüber aggressiven 14B-Einstellungen.

Referenzen

Zurück zu allen Ratgebern