Inception Labs lança Mercury 2: modelo de difusão LLM com raciocínio avançado
A Inception Labs apresentou oficialmente o Mercury 2, um modelo de linguagem de difusão (LLM) que promete redefinir o desempenho e a eficiência em sistemas de inteligência artificial voltados ao raciocínio avançado. Diferente dos tradicionais modelos autoregressivos, o Mercury 2 adota uma arquitetura de geração de texto baseada em difusão, capaz de operar múltiplos passos de raciocínio simultaneamente com latência significativamente reduzida e janelas de contexto de até 128K tokens.
O que é o Mercury 2 e por que ele é revolucionário
O Mercury 2 foi desenvolvido com a proposta de eliminar um dos principais gargalos dos grandes modelos de linguagem: o tempo de resposta em tarefas complexas de múltiplas etapas. A nova abordagem de text diffusion permite que o modelo gere, refine e consolide tokens em paralelo, em vez de produzir o texto de forma linear token por token, como fazem os LLMs tradicionais. Isso resulta em até cinco vezes mais velocidade comparada a modelos otimizados apenas para performance de decodificação.
Características técnicas e desempenho
De acordo com a Inception Labs, o Mercury 2 atinge uma impressionante taxa de 1.009 tokens por segundo quando processado em GPUs NVIDIA Blackwell. Seu funcionamento é voltado para sistemas de produção complexos que envolvem múltiplas iterações de agentes, pipelines de recuperação e operações de extração em larga escala.
- Janela de contexto: até 128K tokens
- Tecnologia: Geração de texto por difusão
- Personalização de raciocínio ajustável (Tunable Reasoning)
- Compatibilidade total com a API da OpenAI
- Saída em formato JSON alinhado a esquemas
- Preço: US$ 0,25 por milhão de tokens de entrada e US$ 0,75 por milhão de tokens de saída
Como o Mercury 2 supera os modelos autoregressivos
Os modelos de linguagem tradicionais, como o GPT e o Claude, operam através do método autoregressivo – cada token é gerado com base no anterior, criando uma sequência linear. Essa abordagem, embora eficaz, gera gargalos em tarefas que exigem múltiplos loops de raciocínio e análise contextual prolongada. O Mercury 2 inverte essa lógica.
Segundo a empresa, o modelo produz e refina numerosas hipóteses em paralelo e, por meio de um processo de difusão, as ajusta progressivamente até convergir para a resposta ideal. Essa técnica reduz o custo computacional e o tempo de inferência sem comprometer a precisão, tornando-o particularmente adequado para aplicações como automação empresarial, limpeza de transcrições, e integrações de agentes autônomos.
Impacto para o ecossistema de IA e desenvolvedores
Com sua compatibilidade aprimorada com a API da OpenAI, o Mercury 2 pode ser adotado rapidamente por empresas e desenvolvedores sem a necessidade de reescrever sistemas já em uso. Isso significa que plataformas que dependem atualmente de modelos GPT podem integrar o Mercury 2 como substituto direto – o que reforça sua posição como solução prática para tarefas críticas de alta velocidade.
A Inception Labs enfatiza que o modelo foi desenvolvido com ênfase em produção e escalabilidade, destacando a capacidade de lidar com processos de inferência intensivos sem perda significativa de eficiência. Além disso, o suporte nativo ao formato JSON padronizado favorece a integração com pipelines de dados corporativos e ferramentas de automação.
Disponibilidade e testes
Usuários interessados podem experimentar o Mercury 2 diretamente no Inception Chat, plataforma interativa que demonstra as capacidades do modelo em tempo real. Testes iniciais mostram respostas mais rápidas e consistentes, especialmente em prompts que exigem raciocínio em múltiplas camadas e processamento cognitivo contextual.
A visão por trás da Inception Labs
A Empresa tem apostado em uma linha completa de modelos baseados em difusão, com o objetivo de redefinir como o raciocínio é processado por IAs modernas. Segundo o cofundador Stefano Ermon, a empresa acredita que o futuro da IA não está apenas em responder comandos, mas em sustentar loops autônomos complexos de pensamento que exigem múltiplas inferências simultâneas.
Perguntas Frequentes sobre Mercury 2
O que diferencia o Mercury 2 dos modelos tradicionais de linguagem?
O Mercury 2 utiliza difusão de texto em vez de decodificação autoregressiva, permitindo geração paralela de tokens e raciocínio em múltiplos passos, resultando em maior velocidade e menor latência.
Como posso testar o Mercury 2?
É possível testar gratuitamente o modelo através da plataforma Inception Chat no site oficial da Inception Labs, que oferece demonstrações interativas com contexto expandido de até 128K tokens.
Quais são os custos de uso do Mercury 2?
O preço é de US$ 0,25 por milhão de tokens de entrada e US$ 0,75 por milhão de tokens de saída, valores competitivos para aplicações corporativas em larga escala.
O Mercury 2 é compatível com a API da OpenAI?
Sim. A compatibilidade plena com a API da OpenAI oferece uma experiência de adoção imediata para desenvolvedores e empresas que já operam em ecossistemas baseados em GPT.
Considerações finais
O lançamento do Mercury 2 marca um ponto de inflexão na evolução dos modelos de linguagem. Sua abordagem inovadora orientada por difusão representa uma solução concreta para os desafios de latência e custo que limitam as aplicações de IA escaláveis. Com desempenho superior, raciocínio ajustável e compatibilidade ampla, o modelo posiciona a Inception Labs entre os players mais promissores da próxima geração de inteligência artificial aplicada.

