Ollama melhora desempenho de modelos locais em Macs com MLX
A Apple, conhecida por sua inovação em tecnologia, recebeu uma atualização significativa com o suporte do Ollama ao framework de aprendizado de máquina MLX. Essa alteração promete um desempenho ainda melhor para usuários de Macs com chips Apple Silicon, como o M1 e modelos posteriores, oferecendo uma utilização mais eficiente da memória unificada.
O Ollama é um sistema de execução projetado para operar grandes modelos de linguagem em um computador local. Com a recente introdução do suporte ao MLX, a empresa afirma não apenas ter melhorado o desempenho de cache, mas também ter adicionado suporte para o formato de compressão de modelos NVFP4 da Nvidia. Esses avanços possibilitam uma utilização mais eficaz da memória, tornando a execução de modelos em Macs potencialmente mais rápida.
Essa atualização ocorre em um momento crítico, uma vez que os modelos locais estão ganhando força, especialmente entre desenvolvedores e entusiastas que buscam alternativas mais acessíveis às ferramentas tradicionais que possuem altas taxas de subscrição, como Claude Code ou ChatGPT Codex.
Um exemplo notável do crescente interesse por esses modelos é o OpenClaw, que alcançou mais de 300.000 estrelas no GitHub e se tornou um tema de obsessão, principalmente na China. Essa ferramenta gerou uma onda de experimentação entre usuários, levando ao desenvolvimento contínuo de modelos que podem ser executados localmente.
No entanto, essa nova funcionalidade está disponível apenas em versão de teste (Ollama 0.19) e atualmente suporta apenas um modelo: a variante de 35 bilhões de parâmetros do Qwen3.5 da Alibaba. Para usuários comuns, os requisitos de hardware são bastante exigentes, demandando pelo menos um Mac com Apple Silicon e 32 GB de RAM, conforme descrito no anúncio do Ollama. Além disso, o Ollama agora utiliza os novos Aceleradores Neurais das GPUs da série M5 da Apple, proporcionando vantagens adicionais em termos de tokens por segundo e tempo de token.
Embora os modelos locais ainda não superem os modelos de ponta nas avaliações de desempenho, eles já se tornam adequados para algumas tarefas que antes exigiriam uma assinatura. A privacidade é um dos principais benefícios de executar modelos localmente, em comparação com serviços baseados na nuvem, embora se deva ter cuidado com implementações como a do OpenClaw, que podem dar acesso profundo ao sistema.
Os principais desafios enfrentados pelos usuários incluem a configuração, já que o Ollama é predominantemente uma ferramenta de linha de comando, além das limitações de hardware, especialmente em relação à memória de vídeo. O MLX da Apple fornece acesso otimizado à memória nos chips da empresa, que é compartilhada entre a GPU e a CPU, uma abordagem distinta em relação às máquinas de desktop com GPUs dedicadas que o Ollama costumava focar.
Apesar de esses avanços não fechar completamente a lacuna entre os modelos em nuvem e os locais para a maioria dos usuários, eles podem representar um passo na direção certa para quem utiliza Macs modernos. Até o momento, o Ollama não divulgou uma previsão de quando o suporte ao MLX deixará a versão de testes e poderá ser expandido para mais modelos.
.