Claude Sonnet 4.5: novo patamar em código e agentes
Anthropic lançou hoje (29 set 2025) o Claude Sonnet 4.5, disponível globalmente via apps, API e Claude Code. O modelo lidera benchmarks de uso de computador e codificação, com 61,4% no OSWorld e 77,2% no SWE-bench Verified (até 82,0% em configuração “high compute”).
A atualização traz ganhos expressivos em raciocínio e matemática, melhorias em agentes, memória e edição de contexto, além de preço inalterado em relação ao Sonnet 4: US$ 3/US$ 15 por milhão de tokens (entrada/saída). Lançado sob proteções ASL-3, o modelo inclui novos classificadores de segurança contra riscos CBRN e progressos na defesa contra prompt injection.
Tabela de conteúdos
O que muda com o Claude Sonnet 4.5
O Sonnet 4.5 é apresentado pela Anthropic como seu modelo mais competente e mais alinhado até hoje. Além de melhorar substancialmente em raciocínio e matemática, ele avança no computer use (capacidade de operar sistemas e aplicativos) e no desenvolvimento de agentes autônomos mais robustos. Na prática, a empresa relata que o modelo consegue manter foco por mais de 30 horas em tarefas complexas e multietapas, preservando coerência e contexto.
- Pontuação líder no OSWorld (61,4%) para tarefas reais em computadores.
- Melhorias marcantes em SWE-bench Verified (77,2%; até 82,0% com alto compute).
- Raciocínio de múltiplas etapas e matemática mais sólidos.
- Capacidades ampliadas em edição de contexto, memória e execução de código.
- Preço mantido: US$ 3 (input) / US$ 15 (output) por milhão de tokens.
Benchmarks e ganhos de raciocínio
No OSWorld, que avalia tarefas reais de uso de computador, o Sonnet 4.5 assumiu a dianteira com 61,4% (“apenas quatro meses atrás, o Sonnet 4 tinha 42,2%”). Em SWE-bench Verified, referência para habilidades de codificação, o modelo atingiu 77,2% com scaffold simples (ferramentas de bash e edição de arquivos) e 82,0% em configuração de alto compute com tentativas paralelas e seleção por modelo interno. Em avaliações públicas de raciocínio e matemática, o Sonnet 4.5 também apresentou ganhos consistentes, inclusive em tarefas de longo contexto.

Métrica | Resultado | Observação |
SWE-bench Verified | 77,2% (82,0% high compute) | Scaffold simples; seleção de patch em alto compute |
OSWorld | 61,4% | Liderança em tarefas reais de computador |
Foco prolongado | > 30 horas | Coerência em tarefas multietapas complexas |
Preço | US$ 3/US$ 15 por milhão de tokens | Mesmos valores do Sonnet 4 |
Segurança | ASL-3 | Classificadores contra riscos CBRN e prompt injection |
Novidades no Claude Code e nos apps
A Anthropic atualizou o Claude Code com checkpoints (salvam progresso e permitem rollback instantâneo), terminal renovado e uma extensão nativa para VS Code. Na app do Claude, a empresa trouxe execução de código e criação de arquivos (planilhas, apresentações e documentos) para dentro da conversa. Já a extensão Claude para Chrome está disponível para usuários Max que estavam na lista de espera.
Claude Agent SDK: infraestrutura para seus agentes
Além do produto, a Anthropic está liberando os blocos de construção que usa internamente no Claude Code: o Claude Agent SDK. O kit de desenvolvimento endereça problemas práticos de agentes, como gerenciamento de memória em tarefas longas, sistemas de permissão que equilibram autonomia e controle do usuário, e coordenação de subagentes rumo a um objetivo comum. Segundo a empresa, os ganhos aparecem em uma ampla variedade de tarefas, não só em codificação.
Alinhamento e segurança (ASL-3)
O Sonnet 4.5 é o modelo de fronteira mais alinhado da Anthropic até agora. Treinamento extensivo de segurança e melhorias de capacidade reduziram comportamentos indesejados como sycophancy, busca de poder, incentivo a delírios e deception. Para o uso de agentes e de computador, a empresa diz ter avançado contra prompt injection. O lançamento segue o nível ASL-3 do framework de escalonamento responsável, com classificadores que visam identificar entradas e saídas potencialmente perigosas (CBRN). A Anthropic reporta redução de falsos positivos por um fator de dez desde a primeira versão dos classificadores e por um fator de dois desde o lançamento do Opus 4 (maio).

Reação de clientes e casos de uso
Relatos de clientes em finanças, direito, segurança e design destacam ganhos em tarefas complexas, edição de código, redução de vulnerabilidades e melhor entendimento de bases extensas. Eis alguns depoimentos:
“Estamos vendo performance de ponta em codificação com o Claude Sonnet 4.5”, com melhorias significativas em tarefas de longo horizonte.
Michael Truell, CEO da Cursor
“O Sonnet 4.5 amplifica as forças centrais do GitHub Copilot”, melhorando raciocínio multietapas e compreensão de código.
Mario Rodriguez, Chief Product Officer
“Reduzimos em 44% o tempo médio de intake de vulnerabilidades e aumentamos a acurácia em 25%.”
Nidhi Aggarwal, CPO
“Ele lida com 30+ horas de codificação autônoma”, liberando engenheiros para trabalho arquitetural pesado.
Sean Ward, CEO e cofundador
Bonus: “Imagine with Claude” (prévia de pesquisa)
Junto do Sonnet 4.5, a Anthropic lançou a prévia temporária Imagine with Claude, disponível por cinco dias para assinantes Max. É uma demonstração em que o Claude gera software em tempo real, sem código pré-escrito, adaptando-se às solicitações do usuário.
Disponibilidade e preço
O Claude Sonnet 4.5 está disponível hoje em todos os canais: apps, Claude Code e API (claude-sonnet-4-5
). O preço permanece o mesmo do Sonnet 4: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída. Recursos de execução de código e criação de arquivos chegam a todos os planos pagos no app; e as atualizações do Claude Code são liberadas para todos os usuários. O Claude Developer Platform também recebe melhorias, incluindo o Agent SDK.
- Pontos-chave: liderança em OSWorld e SWE-bench;
- ganhos em raciocínio e matemática;
- novas ferramentas no Claude Code (checkpoints, VS Code);
- Agent SDK liberado para construir agentes próprios;
- ASL-3 com classificadores e menor taxa de falso positivo.
Fontes, metodologia e transparência
Todas as métricas, depoimentos e informações técnicas citadas têm origem nas publicações oficiais da Anthropic: system card, página do modelo, documentação e posts de engenharia. A Anthropic detalha no rodapé a metodologia de cada benchmark (SWE-bench Verified, OSWorld, AIME, entre outros), incluindo orçamentos de thinking, uso de ferramentas, número de execuções e configurações alternativas.
O que é o Claude Sonnet 4.5?
Resposta direta: Modelo de IA voltado a código, agentes e uso de computador. Expansão: Lidera OSWorld (61,4%) e cresce no SWE-bench (77,2%), com preço igual ao Sonnet 4 e maior alinhamento (ASL-3). Validação: Dados e metodologia no system card oficial da Anthropic.
Onde usar e como acessar hoje?
Resposta direta: Disponível em apps, API e Claude Code. Expansão: Use o modelo claude-sonnet-4-5 via API; nos apps, há execução de código e criação de arquivos; no Claude Code, há checkpoints e VS Code. Validação: Links oficiais da Anthropic detalham canais e recursos.
Quanto custa o Sonnet 4.5?
Resposta direta: Mesmo preço do Sonnet 4. Expansão: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída; sem mudanças para clientes atuais. Validação: Preço informado no anúncio e na documentação de modelos da Anthropic.
O que é o Claude Agent SDK?
Resposta direta: Infraestrutura para construir agentes com Claude. Expansão: Resolve memória de longo prazo, permissões e coordenação de subagentes; benefícios além de código. Validação: Post técnico e guia do Agent SDK liberados pela Anthropic.
Como a segurança ASL-3 impacta o uso?
Resposta direta: Mais proteções e filtros contra riscos CBRN. Expansão: Classificadores podem sinalizar conteúdo legítimo; alternativa é continuar conversa no Sonnet 4. Falsos positivos foram reduzidos significativamente. Validação: Detalhes no framework de ASL-3 e no system card.
Considerações finais
O Claude Sonnet 4.5 combina avanços tangíveis em benchmarks com melhorias práticas em ferramentas e segurança. Para equipes que precisam de agentes mais capazes, uso robusto de computador e codificação assistida em contextos longos, o pacote é convincente: desempenho superior, preço estável e um ecossistema ampliado (Code, apps, Agent SDK). A recomendação da Anthropic é clara: atualizar para o Sonnet 4.5 como substituto imediato em todos os usos — e avaliar a prévia “Imagine with Claude” enquanto durar.