Ollama auf Mac mini M4 (24 GB Unified Memory)
Der Mac mini M4 mit 24 GB kann starke lokale Arbeitsabläufe ausführen, sein Speicherverhalten unterscheidet sich jedoch von dem diskreter GPUs. Modellgewichte, KV-Cache und macOS stammen alle aus einem einheitlichen Pool.
Das Ergebnis: Die Kontextgröße ist noch wichtiger und die Nutzung von Apps im Hintergrund kann die Modellstabilität verändern.
Aus diesem Grund können sich zwei scheinbar identische Setups unterschiedlich anfühlen: Ein Computer führt eine saubere native Ollama-Sitzung aus, während der andere den Speicher mit Browsern, Design-Apps und dem Container-Overhead teilt.
Unified Memory vs. dedizierter VRAM
Die praktische Konsequenz ist einfach: Auf Apple Silicon macht sich der Speicherdruck früher bemerkbar, da die Latenz bei langen Sitzungen schwankt. Du spürst es allmählich, dann plötzlich.
Modellauswahl, die gut mit 24 GB Unified Memory funktioniert
14B-Modelle sind mit 24 GB einheitlichem Speicher realistisch, aber sie sind am stabilsten, wenn Sie den Kontext moderat halten und bei langen Läufen starkes Multitasking vermeiden.
Kontextprofile für stabile macOS-Leistung
Wenn Sitzungen mit der Zeit langsamer werden, reduzieren Sie zunächst den Kontext. Auf Unified-Memory-Systemen behebt dies die Instabilität normalerweise schneller als ein Modellwechsel.
Native vs. Container Reality unter macOS
Native Ollama bietet im Allgemeinen den vorhersehbarsten Metal-Beschleunigungspfad auf Apple Silicon. Containerisierte Arbeitsabläufe können praktisch sein, stellen die GPU-Beschleunigung jedoch möglicherweise nicht in gleicher Weise zur Verfügung, was dazu führen kann, dass sich ein Setup aus unerklärlichen Gründen CPU-gebunden anfühlt.
Wenn die Ergebnisse unerwartet langsam erscheinen, überprüfen Sie zunächst die native Leistung und führen Sie dann die Containerebenen wieder ein.
Laufzeitregeln, die wichtig sind
- Verwenden Sie natives Ollama unter macOS, um eine zuverlässige Metal-Beschleunigung zu erhalten.
- Halten Sie speicherintensive Apps geschlossen, während Sie größere Kontexte testen.
- Geben Sie das Speicherbudget nur dann für den Kontext aus, wenn die Aufgabe es wirklich benötigt.
- Für Aufgaben mit langen Kontexten bevorzugen Sie kleinere Modelle gegenüber aggressiven 14B-Einstellungen.