NoticiasInteligência ArtificialTecnologia

Claude Sonnet 4.5: novo patamar em código e agentes

Anthropic lançou hoje (29 set 2025) o Claude Sonnet 4.5, disponível globalmente via apps, API e Claude Code. O modelo lidera benchmarks de uso de computador e codificação, com 61,4% no OSWorld e 77,2% no SWE-bench Verified (até 82,0% em configuração “high compute”).

A atualização traz ganhos expressivos em raciocínio e matemática, melhorias em agentes, memória e edição de contexto, além de preço inalterado em relação ao Sonnet 4: US$ 3/US$ 15 por milhão de tokens (entrada/saída). Lançado sob proteções ASL-3, o modelo inclui novos classificadores de segurança contra riscos CBRN e progressos na defesa contra prompt injection.

O que muda com o Claude Sonnet 4.5

O Sonnet 4.5 é apresentado pela Anthropic como seu modelo mais competente e mais alinhado até hoje. Além de melhorar substancialmente em raciocínio e matemática, ele avança no computer use (capacidade de operar sistemas e aplicativos) e no desenvolvimento de agentes autônomos mais robustos. Na prática, a empresa relata que o modelo consegue manter foco por mais de 30 horas em tarefas complexas e multietapas, preservando coerência e contexto.

  • Pontuação líder no OSWorld (61,4%) para tarefas reais em computadores.
  • Melhorias marcantes em SWE-bench Verified (77,2%; até 82,0% com alto compute).
  • Raciocínio de múltiplas etapas e matemática mais sólidos.
  • Capacidades ampliadas em edição de contexto, memória e execução de código.
  • Preço mantido: US$ 3 (input) / US$ 15 (output) por milhão de tokens.

Benchmarks e ganhos de raciocínio

No OSWorld, que avalia tarefas reais de uso de computador, o Sonnet 4.5 assumiu a dianteira com 61,4% (“apenas quatro meses atrás, o Sonnet 4 tinha 42,2%”). Em SWE-bench Verified, referência para habilidades de codificação, o modelo atingiu 77,2% com scaffold simples (ferramentas de bash e edição de arquivos) e 82,0% em configuração de alto compute com tentativas paralelas e seleção por modelo interno. Em avaliações públicas de raciocínio e matemática, o Sonnet 4.5 também apresentou ganhos consistentes, inclusive em tarefas de longo contexto.

Tabela de benchmarks resume ganhos do Claude Sonnet 4.5 em raciocínio, matemática e uso de computador
Claude Sonnet 4.5: ganhos amplos em raciocínio, matemática e computer use.
MétricaResultadoObservação
SWE-bench Verified77,2% (82,0% high compute)Scaffold simples; seleção de patch em alto compute
OSWorld61,4%Liderança em tarefas reais de computador
Foco prolongado> 30 horasCoerência em tarefas multietapas complexas
PreçoUS$ 3/US$ 15 por milhão de tokensMesmos valores do Sonnet 4
SegurançaASL-3Classificadores contra riscos CBRN e prompt injection

Novidades no Claude Code e nos apps

A Anthropic atualizou o Claude Code com checkpoints (salvam progresso e permitem rollback instantâneo), terminal renovado e uma extensão nativa para VS Code. Na app do Claude, a empresa trouxe execução de código e criação de arquivos (planilhas, apresentações e documentos) para dentro da conversa. Já a extensão Claude para Chrome está disponível para usuários Max que estavam na lista de espera.

O SDK do Agente Claude
Imagine com Claude

Claude Agent SDK: infraestrutura para seus agentes

Além do produto, a Anthropic está liberando os blocos de construção que usa internamente no Claude Code: o Claude Agent SDK. O kit de desenvolvimento endereça problemas práticos de agentes, como gerenciamento de memória em tarefas longas, sistemas de permissão que equilibram autonomia e controle do usuário, e coordenação de subagentes rumo a um objetivo comum. Segundo a empresa, os ganhos aparecem em uma ampla variedade de tarefas, não só em codificação.

Alinhamento e segurança (ASL-3)

O Sonnet 4.5 é o modelo de fronteira mais alinhado da Anthropic até agora. Treinamento extensivo de segurança e melhorias de capacidade reduziram comportamentos indesejados como sycophancy, busca de poder, incentivo a delírios e deception. Para o uso de agentes e de computador, a empresa diz ter avançado contra prompt injection. O lançamento segue o nível ASL-3 do framework de escalonamento responsável, com classificadores que visam identificar entradas e saídas potencialmente perigosas (CBRN). A Anthropic reporta redução de falsos positivos por um fator de dez desde a primeira versão dos classificadores e por um fator de dois desde o lançamento do Opus 4 (maio).

Gráfico de auditor automático mostra redução geral de comportamentos desalinhados no Claude Sonnet 4.5
Redução de comportamentos desalinhados (quanto menor, melhor).

Reação de clientes e casos de uso

Relatos de clientes em finanças, direito, segurança e design destacam ganhos em tarefas complexas, edição de código, redução de vulnerabilidades e melhor entendimento de bases extensas. Eis alguns depoimentos:

“Estamos vendo performance de ponta em codificação com o Claude Sonnet 4.5”, com melhorias significativas em tarefas de longo horizonte.

Michael Truell, CEO da Cursor

“O Sonnet 4.5 amplifica as forças centrais do GitHub Copilot”, melhorando raciocínio multietapas e compreensão de código.

Mario Rodriguez, Chief Product Officer

“Reduzimos em 44% o tempo médio de intake de vulnerabilidades e aumentamos a acurácia em 25%.”

Nidhi Aggarwal, CPO

“Ele lida com 30+ horas de codificação autônoma”, liberando engenheiros para trabalho arquitetural pesado.

Sean Ward, CEO e cofundador

Bonus: “Imagine with Claude” (prévia de pesquisa)

Junto do Sonnet 4.5, a Anthropic lançou a prévia temporária Imagine with Claude, disponível por cinco dias para assinantes Max. É uma demonstração em que o Claude gera software em tempo real, sem código pré-escrito, adaptando-se às solicitações do usuário.

Disponibilidade e preço

O Claude Sonnet 4.5 está disponível hoje em todos os canais: apps, Claude Code e API (claude-sonnet-4-5). O preço permanece o mesmo do Sonnet 4: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída. Recursos de execução de código e criação de arquivos chegam a todos os planos pagos no app; e as atualizações do Claude Code são liberadas para todos os usuários. O Claude Developer Platform também recebe melhorias, incluindo o Agent SDK.

  • Pontos-chave: liderança em OSWorld e SWE-bench;
  • ganhos em raciocínio e matemática;
  • novas ferramentas no Claude Code (checkpoints, VS Code);
  • Agent SDK liberado para construir agentes próprios;
  • ASL-3 com classificadores e menor taxa de falso positivo.

Fontes, metodologia e transparência

Todas as métricas, depoimentos e informações técnicas citadas têm origem nas publicações oficiais da Anthropic: system card, página do modelo, documentação e posts de engenharia. A Anthropic detalha no rodapé a metodologia de cada benchmark (SWE-bench Verified, OSWorld, AIME, entre outros), incluindo orçamentos de thinking, uso de ferramentas, número de execuções e configurações alternativas.

  1. O que é o Claude Sonnet 4.5?

    Resposta direta: Modelo de IA voltado a código, agentes e uso de computador. Expansão: Lidera OSWorld (61,4%) e cresce no SWE-bench (77,2%), com preço igual ao Sonnet 4 e maior alinhamento (ASL-3). Validação: Dados e metodologia no system card oficial da Anthropic.

  2. Onde usar e como acessar hoje?

    Resposta direta: Disponível em apps, API e Claude Code. Expansão: Use o modelo claude-sonnet-4-5 via API; nos apps, há execução de código e criação de arquivos; no Claude Code, há checkpoints e VS Code. Validação: Links oficiais da Anthropic detalham canais e recursos.

  3. Quanto custa o Sonnet 4.5?

    Resposta direta: Mesmo preço do Sonnet 4. Expansão: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída; sem mudanças para clientes atuais. Validação: Preço informado no anúncio e na documentação de modelos da Anthropic.

  4. O que é o Claude Agent SDK?

    Resposta direta: Infraestrutura para construir agentes com Claude. Expansão: Resolve memória de longo prazo, permissões e coordenação de subagentes; benefícios além de código. Validação: Post técnico e guia do Agent SDK liberados pela Anthropic.

  5. Como a segurança ASL-3 impacta o uso?

    Resposta direta: Mais proteções e filtros contra riscos CBRN. Expansão: Classificadores podem sinalizar conteúdo legítimo; alternativa é continuar conversa no Sonnet 4. Falsos positivos foram reduzidos significativamente. Validação: Detalhes no framework de ASL-3 e no system card.

Considerações finais

O Claude Sonnet 4.5 combina avanços tangíveis em benchmarks com melhorias práticas em ferramentas e segurança. Para equipes que precisam de agentes mais capazes, uso robusto de computador e codificação assistida em contextos longos, o pacote é convincente: desempenho superior, preço estável e um ecossistema ampliado (Code, apps, Agent SDK). A recomendação da Anthropic é clara: atualizar para o Sonnet 4.5 como substituto imediato em todos os usos — e avaliar a prévia “Imagine with Claude” enquanto durar.

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários
0
Adoraria saber sua opinião, comente.x