Ollama en Mac mini M4 (memoria unificada de 24 GB)

El Mac mini M4 con 24 GB puede ejecutar potentes flujos de trabajo locales, pero el comportamiento de su memoria difiere del de las GPU discretas. Los pesos de los modelos, la caché KV y macOS se extraen de un grupo unificado.

El resultado: el tamaño del contexto es aún más importante y el uso de aplicaciones en segundo plano puede cambiar la estabilidad del modelo.

Esta es la razón por la que dos configuraciones aparentemente idénticas pueden parecer diferentes: una máquina ejecuta una sesión nativa limpia de Ollama, mientras que la otra comparte memoria con navegadores, aplicaciones de diseño y gastos generales de contenedores.

Memoria unificada versus VRAM dedicada

Aspecto	Silicona de manzana (M4)	Sistemas de GPU discretos	Implicaciones prácticas
Arquitectura de memoria	Memoria unificada compartida por CPU y GPU	VRAM dedicada para GPU	macOS y las aplicaciones reducen directamente el espacio libre del modelo
Camino de aceleración	Metal construido en Ollama nativa	Ruta basada en CUDA en NVIDIA	El tiempo de ejecución nativo de macOS es importante para el rendimiento esperado
Comportamiento del contenedor	La aceleración de la GPU puede estar limitada en algunas configuraciones de contenedores	Las rutas de GPU del contenedor suelen ser más directas	Prefiera el nativo Ollama cuando realice evaluaciones comparativas o proporcione servicios

La consecuencia práctica es simple: en Apple Silicon, la presión de la memoria aparece antes a medida que la latencia varía durante sesiones largas. Lo sientes gradualmente y luego de repente.

Selecciones de modelos que funcionan bien con memoria unificada de 24 GB

Modelo	Lo mejor para	Contexto inicial	Notas de ajuste
Llama 3.1	Asistente general y herramientas.	8K a 16K	Calidad confiable con buen equilibrio de memoria
gema 2	Resumen y chat	8K	Línea de base eficiente para el uso interactivo diario
Mistral Nemo	Codificación equilibrada + razonamiento	4K a 8K	Buen valor predeterminado de tamaño medio en memoria unificada
Codificador Qwen2.5	Codificación y refactorización	4K a 8K	14B puede funcionar si se gestiona la presión de la memoria
Qwen2.5	Formato largo multilingüe	4K a 8K	Fuerte comportamiento de formato largo con contexto controlado
Phi-3 Mini	Experimentos de baja latencia y de contexto prolongado.	16K a 32K	Un tamaño más pequeño deja más espacio para la caché KV

Los modelos 14B son realistas con una memoria unificada de 24 GB, pero son más estables cuando se mantiene el contexto moderado y se evita la multitarea intensa durante ejecuciones largas.

Perfiles de contexto para un rendimiento estable de macOS

Meta	sugerido `num_ctx`	Gama de modelos
Uso diario estable	4096	7B a 14B
Sesiones de codificación/chat más largas	8192	7B a 12B
Documentos largos y blocs de notas	16384	Prefiero 7B a 9B
Pruebas de contexto muy largas	32768	Prefiero 3B a 7B

Cuando las sesiones se ralentizan con el tiempo, primero reduzca el contexto. En los sistemas de memoria unificada, esto normalmente soluciona la inestabilidad más rápido que cambiar de modelo.

Realidad nativa versus realidad de contenedor en macOS

Native Ollama generalmente ofrece la ruta de aceleración de Metal más predecible en Apple Silicon. Los flujos de trabajo en contenedores pueden ser convenientes, pero es posible que no expongan la aceleración de la GPU de la misma manera, lo que puede hacer que una configuración parezca inexplicablemente limitada a la CPU.

Si los resultados parecen inesperadamente lentos, primero valide el rendimiento nativo y luego vuelva a introducir las capas del contenedor.

Reglas de tiempo de ejecución que importan

Utilice Ollama nativo en macOS para obtener aceleración de Metal de manera confiable.
Mantenga cerradas las aplicaciones con mucha memoria mientras prueba contextos más amplios.
Gaste el presupuesto de memoria en el contexto sólo cuando la tarea realmente lo necesite.
Para tareas de contexto prolongado, prefiera modelos más pequeños a configuraciones agresivas de 14B.

Referencias

Volver a todas las guías