Ollama auf Mac mini M4 (24 GB Unified Memory)

Der Mac mini M4 mit 24 GB kann starke lokale Arbeitsabläufe ausführen, sein Speicherverhalten unterscheidet sich jedoch von dem diskreter GPUs. Modellgewichte, KV-Cache und macOS stammen alle aus einem einheitlichen Pool.

Das Ergebnis: Die Kontextgröße ist noch wichtiger und die Nutzung von Apps im Hintergrund kann die Modellstabilität verändern.

Aus diesem Grund können sich zwei scheinbar identische Setups unterschiedlich anfühlen: Ein Computer führt eine saubere native Ollama-Sitzung aus, während der andere den Speicher mit Browsern, Design-Apps und dem Container-Overhead teilt.

Unified Memory vs. dedizierter VRAM

Aspekt Apple Silizium (M4) Diskrete GPU-Systeme Praktische Implikation
Speicherarchitektur Einheitlicher Speicher, der von CPU und GPU gemeinsam genutzt wird Dedizierter VRAM für GPU macOS und Apps reduzieren den Spielraum des Modells direkt
Beschleunigungsweg In das einheimische Ollama eingebautes Metall CUDA-basierter Pfad auf NVIDIA Die native macOS-Laufzeit ist wichtig für die erwartete Leistung
Containerverhalten Die GPU-Beschleunigung kann in einigen Container-Setups eingeschränkt sein Container-GPU-Pfade sind normalerweise direkter Bevorzugen Sie beim Benchmarking oder Servieren einheimisches Ollama

Die praktische Konsequenz ist einfach: Auf Apple Silicon macht sich der Speicherdruck früher bemerkbar, da die Latenz bei langen Sitzungen schwankt. Du spürst es allmählich, dann plötzlich.

Modellauswahl, die gut mit 24 GB Unified Memory funktioniert

Modell Am besten für Ausgangskontext Fit-Notizen
Lama 3.1 Allgemeiner Assistent und Werkzeuge 8K bis 16K Zuverlässige Qualität mit guter Speicherbalance
Gemma 2 Zusammenfassung und Chat 8K Effiziente Basis für den täglichen interaktiven Einsatz
Mistral NeMo Ausgewogene Codierung + Argumentation 4K bis 8K Guter Standard mittlerer Größe mit einheitlichem Speicher
Qwen2.5-Codierer Codierung und Refactoring 4K bis 8K 14B kann funktionieren, wenn der Speicherdruck verwaltet wird
Qwen2.5 Mehrsprachige Langform 4K bis 8K Starkes Langformverhalten mit kontrolliertem Kontext
Phi-3 Mini Experimente mit geringer Latenz und langem Kontext 16K bis 32K Die kleinere Größe lässt mehr Platz für den KV-Cache

14B-Modelle sind mit 24 GB einheitlichem Speicher realistisch, aber sie sind am stabilsten, wenn Sie den Kontext moderat halten und bei langen Läufen starkes Multitasking vermeiden.

Kontextprofile für stabile macOS-Leistung

Ziel Empfohlen num_ctx Modellpalette
Stabiler täglicher Gebrauch 4096 7B bis 14B
Längere Codierungs-/Chat-Sitzungen 8192 7B bis 12B
Lange Dokumente und Notizblöcke 16384 Bevorzugen Sie 7B gegenüber 9B
Sehr lange Kontexttests 32768 Bevorzugen Sie 3B gegenüber 7B

Wenn Sitzungen mit der Zeit langsamer werden, reduzieren Sie zunächst den Kontext. Auf Unified-Memory-Systemen behebt dies die Instabilität normalerweise schneller als ein Modellwechsel.

Native vs. Container Reality unter macOS

Native Ollama bietet im Allgemeinen den vorhersehbarsten Metal-Beschleunigungspfad auf Apple Silicon. Containerisierte Arbeitsabläufe können praktisch sein, stellen die GPU-Beschleunigung jedoch möglicherweise nicht in gleicher Weise zur Verfügung, was dazu führen kann, dass sich ein Setup aus unerklärlichen Gründen CPU-gebunden anfühlt.

Wenn die Ergebnisse unerwartet langsam erscheinen, überprüfen Sie zunächst die native Leistung und führen Sie dann die Containerebenen wieder ein.

Laufzeitregeln, die wichtig sind

Referenzen

Zurück zu allen Ratgebern

Share This Page