Ollama en RTX 5090 (32GB)
RTX 5090 cambia la inferencia local principalmente a través de una capacidad de 32 GB: puede mantener modelos más grandes y un contexto más amplio en la GPU con más frecuencia que los sistemas de 24 GB. La velocidad bruta ayuda, pero permanecer completamente en la GPU sigue siendo el principal predictor del rendimiento percibido por el usuario.
La mentalidad central en 5090 sigue siendo la gestión del presupuesto: pesos + caché KV + gastos generales. La tarjeta es lo suficientemente rápida como para que cuando se desacelere, generalmente sea porque se perdió el ajuste, no porque la GPU sea débil.