Moonshot AI lança Kimi K2 Thinking com 44,9% no HLE
A Moonshot AI apresentou oficialmente o Kimi K2 Thinking, seu mais recente modelo de inteligência artificial com 1 trilhão de parâmetros e desempenho superior ao GPT-4.1. O novo sistema traz uma abordagem avançada de raciocínio e uso de ferramentas em cadeia, alcançando 44,9% no benchmark HLE e resultados expressivos em tarefas de navegação, programação e raciocínio de longo prazo.
Tabela de conteúdos
O que é o Kimi K2 Thinking?
O Kimi K2 Thinking é uma variante pública do modelo K2, otimizada para raciocínio complexo e uso prolongado de ferramentas. Voltado para desenvolvedores, pesquisadores e empresas que constroem agentes autônomos, o sistema pode planejar, buscar, programar e redigir conteúdos em sequências com até 300 chamadas de ferramenta consecutivas. Essa arquitetura foi projetada para lidar com objetivos longos sem intervenção humana.
Principais destaques técnicos
- Parâmetros: 1 trilhão, com arquitetura MoE (Mixture of Experts)
- Janelas de contexto: 256.000 tokens
- Raciocínio estruturado: combinação de chain-of-thought e chamadas de função
- Ativação: 32 bilhões de parâmetros por inferência
- Quantização: INT4 nativa via QAT, quase 2x mais rápida sem perda de precisão
- Benchmark HLE: 44,9% com ferramentas
- BrowseComp: 60,2%
- SWE-bench Verified: 71,3%
Comparativo com K2-Instruct e desempenho em benchmarks
Em relação ao modelo K2-Instruct — versão projetada para respostas rápidas sem raciocínio extenso — o novo K2 Thinking adiciona uma camada de deliberate reasoning com suporte a planejamento de longo prazo. Segundo a equipe da Moonshot AI, o desempenho foi validado em várias métricas, incluindo 99,1 pontos no AIME25 (Python), 83,1 no LiveCodeBench v6 e 61,1 no SWE-bench Multilingual com ferramentas ativas.
“Com o K2 Thinking, estamos entregando um agente de IA realmente capaz de pensar, executar e manter raciocínio complexo ao longo de centenas de etapas.”
Equipe Moonshot AI

Infraestrutura e arquitetura
O K2 Thinking mantém a arquitetura Mixture of Experts (MoE) com 384 especialistas, 64 cabeças de atenção e vocabulário de 160k tokens. O modelo adota o otimizador proprietário MuonClip, com uma modificação chamada QK-clip stability tweak, focada na estabilidade durante o treinamento. A base do modelo foi treinada em 15,5 trilhões de tokens, integrando síntese de trajetórias de agentes e aprendizado por reforço em larga escala.
Disponibilidade e acesso
O Kimi K2 Thinking já está disponível publicamente por meio de open weights e API própria. A Moonshot AI destaca que o modo de chat no kimi.com utiliza um conjunto reduzido de ferramentas, portanto, as conversas de produção podem diferir das execuções em benchmarks. A empresa também confirmou que em breve será lançado o full agent mode, que integrará completamente a arquitetura de raciocínio com agentes autônomos.
Transparência e raciocínio aberto
O diferencial do K2 Thinking está na transparência: sua arquitetura permite observar e auditar o raciocínio interno (reasoning stream), tornando-o ideal para pesquisadores que desejam compreender como a IA chega a suas respostas.
Impacto no ecossistema de IA aberta
Com a chegada do K2 Thinking, a Moonshot AI se posiciona entre os líderes da inovação em modelos abertos de raciocínio, junto de nomes como OpenAI (GPT-5.1 Thinking), Anthropic (Claude 3) e Google DeepMind (Gemini 3 Pro). O lançamento reforça a tendência de modelos mais “agentic”, capazes de planejar e agir com autonomia.
Perguntas frequentes sobre o Kimi K2 Thinking
O que é o Kimi K2 Thinking?
O Kimi K2 Thinking é um modelo de inteligência artificial desenvolvido pela Moonshot AI com 1 trilhão de parâmetros. Ele é voltado para raciocínio em múltiplas etapas e possui 256 mil tokens de contexto.
Como acessar o Kimi K2 Thinking?
A versão pública do modelo está disponível via open weights e API da plataforma Kimi. O chat integrado usa um conjunto reduzido de ferramentas.
Como o K2 Thinking se compara ao GPT-4.1?
Segundo a Moonshot AI, o K2 Thinking supera o GPT-4.1 em benchmarks de raciocínio e uso de ferramentas, alcançando 44,9% no HLE e mais de 70% no SWE-bench Verified.
Quais tecnologias permitem o desempenho superior do K2 Thinking?
O modelo utiliza arquitetura MoE, quantização INT4, otimização MuonClip e treinos em 15,5 trilhões de tokens, com reforço em trajetórias de agentes.
Considerações finais
O lançamento do Kimi K2 Thinking marca um novo capítulo na evolução da IA aberta. Com combinações de raciocínio profundo, uso eficiente de ferramentas e acesso público a pesos e API, a Moonshot AI parece posicionar sua linha K2 como uma das mais promissoras para a criação de agentes inteligentes que realmente “pensam” e executam tarefas de forma autônoma e transparente.

