Ollama en Mac mini M4 (memoria unificada de 24 GB)

El Mac mini M4 con 24 GB puede ejecutar potentes flujos de trabajo locales, pero el comportamiento de su memoria difiere del de las GPU discretas. Los pesos de los modelos, la caché KV y macOS se extraen de un grupo unificado.

El resultado: el tamaño del contexto es aún más importante y el uso de aplicaciones en segundo plano puede cambiar la estabilidad del modelo.

Esta es la razón por la que dos configuraciones aparentemente idénticas pueden parecer diferentes: una máquina ejecuta una sesión nativa limpia de Ollama, mientras que la otra comparte memoria con navegadores, aplicaciones de diseño y gastos generales de contenedores.

Memoria unificada versus VRAM dedicada

Aspecto Silicona de manzana (M4) Sistemas de GPU discretos Implicaciones prácticas
Arquitectura de memoria Memoria unificada compartida por CPU y GPU VRAM dedicada para GPU macOS y las aplicaciones reducen directamente el espacio libre del modelo
Camino de aceleración Metal construido en Ollama nativa Ruta basada en CUDA en NVIDIA El tiempo de ejecución nativo de macOS es importante para el rendimiento esperado
Comportamiento del contenedor La aceleración de la GPU puede estar limitada en algunas configuraciones de contenedores Las rutas de GPU del contenedor suelen ser más directas Prefiera el nativo Ollama cuando realice evaluaciones comparativas o proporcione servicios

La consecuencia práctica es simple: en Apple Silicon, la presión de la memoria aparece antes a medida que la latencia varía durante sesiones largas. Lo sientes gradualmente y luego de repente.

Selecciones de modelos que funcionan bien con memoria unificada de 24 GB

Modelo Lo mejor para Contexto inicial Notas de ajuste
Llama 3.1 Asistente general y herramientas. 8K a 16K Calidad confiable con buen equilibrio de memoria
gema 2 Resumen y chat 8K Línea de base eficiente para el uso interactivo diario
Mistral Nemo Codificación equilibrada + razonamiento 4K a 8K Buen valor predeterminado de tamaño medio en memoria unificada
Codificador Qwen2.5 Codificación y refactorización 4K a 8K 14B puede funcionar si se gestiona la presión de la memoria
Qwen2.5 Formato largo multilingüe 4K a 8K Fuerte comportamiento de formato largo con contexto controlado
Phi-3 Mini Experimentos de baja latencia y de contexto prolongado. 16K a 32K Un tamaño más pequeño deja más espacio para la caché KV

Los modelos 14B son realistas con una memoria unificada de 24 GB, pero son más estables cuando se mantiene el contexto moderado y se evita la multitarea intensa durante ejecuciones largas.

Perfiles de contexto para un rendimiento estable de macOS

Meta sugerido num_ctx Gama de modelos
Uso diario estable 4096 7B a 14B
Sesiones de codificación/chat más largas 8192 7B a 12B
Documentos largos y blocs de notas 16384 Prefiero 7B a 9B
Pruebas de contexto muy largas 32768 Prefiero 3B a 7B

Cuando las sesiones se ralentizan con el tiempo, primero reduzca el contexto. En los sistemas de memoria unificada, esto normalmente soluciona la inestabilidad más rápido que cambiar de modelo.

Realidad nativa versus realidad de contenedor en macOS

Native Ollama generalmente ofrece la ruta de aceleración de Metal más predecible en Apple Silicon. Los flujos de trabajo en contenedores pueden ser convenientes, pero es posible que no expongan la aceleración de la GPU de la misma manera, lo que puede hacer que una configuración parezca inexplicablemente limitada a la CPU.

Si los resultados parecen inesperadamente lentos, primero valide el rendimiento nativo y luego vuelva a introducir las capas del contenedor.

Reglas de tiempo de ejecución que importan

Referencias

Volver a todas las guías

Share This Page