ArtigosInteligência ArtificialTecnologia

Por que modelos de linguagem alucinam, segundo a OpenAI

PUBLICIDADE

OpenAI publicou em 5 set 2025 um estudo que explica por que modelos de linguagem alucinam: avaliações e treinamentos atuais tendem a premiar palpites em vez de reconhecer incerteza. Em SimpleQA, por exemplo, o gpt-5-thinking-mini teve 52% de abstenção, 22% de acerto e 26% de erro, enquanto o o4-mini marcou 1% de abstenção, 24% de acerto e 75% de erro — menos abstenção, muito mais erro.

A pesquisa conclui: para reduzir alucinações, é preciso reavaliar como medimos desempenho e recalibrar a resposta dos modelos, incentivando “não sei” quando apropriado. Leia o paper completo no link oficial da OpenAI.

O que são alucinações em modelos de linguagem

No contexto de IA, “alucinações” são respostas plausíveis, porém falsas, geradas com alta confiança. Elas aparecem até em perguntas simples. O estudo cita o caso de um chatbot que retornou títulos e datas de aniversário errados para o pesquisador Adam Tauman Kalai (um dos autores). Esse padrão preocupa porque transmite certeza indevida ao usuário e, em cenários críticos (saúde, jurídico, finanças), pode induzir decisões equivocadas.

PUBLICIDADE

Segundo a OpenAI, mesmo modelos recentes como o GPT-5 reduziram alucinações — especialmente em tarefas de raciocínio —, mas o problema persiste. A tese central do paper: o modo como treinamos e avaliamos os sistemas ainda recompensa chutar respostas em vez de admitir incerteza. Quando o custo de “não sei” é maior do que o custo de errar, os modelos aprendem a arriscar.

Avaliações que premiam palpites: o problema dos scoreboards

Grande parte dos benchmarks prioriza acurácia bruta (percentual de respostas exatas). Isso cria um incentivo perverso: quem chuta pode acertar de vez em quando e subir no ranking; quem admite “não sei” perde pontos garantidos. Em milhares de questões, o modelo que arrisca sai aparentemente melhor, mesmo cometendo muito mais erros graves (as alucinações).

O paper exemplifica com o SimpleQA (referência na System Card do GPT-5). Compare a taxa de abstenção (quando o modelo se recusa a dar um palpite), a acurácia e o erro. O contraste entre um modelo que “segura a mão” e outro que responde quase sempre é revelador: privilegiar apenas acurácia mascara o risco de respostas confiantes e erradas.

Métricagpt-5-thinking-miniOpenAI o4-mini
Taxa de abstenção52%1%
Taxa de acerto (acurácia)22%24%
Taxa de erro (alucinação)26%75%
Total100%100%

É melhor indicar incerteza ou pedir esclarecimento do que oferecer informação possivelmente incorreta com confiança.

OpenAI Model Spec (12 fev 2025)

Um critério melhor para avaliar modelos

A solução proposta é direta: penalizar erros confiantes mais do que abstenções e dar crédito parcial a expressões adequadas de incerteza. Isso já existe em exames com “marcação negativa” ou crédito parcial, mas a OpenAI argumenta que não basta criar alguns benchmarks especializados; é preciso atualizar os principais scoreboards que comandam o debate público e influenciam o desenvolvimento de modelos.

Se os rankings continuarem premiando acertos ocasionais vindos de palpites, os modelos continuarão a arriscar. Por outro lado, métricas que valorizam calibração — isto é, alinhar confiança subjetiva com a probabilidade real de acerto — tendem a reduzir alucinações, pois encorajam respostas como “não sei”, “não encontrei fonte confiável” ou “preciso de mais detalhes”.

  • Reequilibrar métricas: acurácia, erro, abstenção e calibração.
  • Dar crédito à humildade técnica quando a informação é incerta.
  • Aplicar avaliação sensível à incerteza em toda a bateria de testes.

Por que o pretraining gera erros factuais específicos

Modelos de linguagem começam com o pretraining, aprendendo a prever a próxima palavra em grandes corpora de texto. Não há rótulos “verdadeiro/falso” por afirmação; o modelo vê apenas exemplos positivos de linguagem fluente. Essa formação o torna excelente em padrões formais (ortografia, parênteses), que desaparecem com escala. Mas fatos raros e arbitrários — como o aniversário de um pesquisador — não derivam de padrões linguísticos gerais e, portanto, são intrinsecamente difíceis de prever.

A analogia do paper: classificar fotos de “gato vs. cachorro” funciona com muitos rótulos corretos. Já rotular cada foto pelo aniversário do pet produziria erros sistemáticos, pois a variável é aleatória. Em LLMs, fatos de baixa frequência se comportam como “aniversários”: sem evidências explícitas e supervisionadas, o próximo-token não consegue eliminá-los por completo. Etapas posteriores (afinamento com feedback humano, reforço, ferramentas externas) ajudam, mas não resolvem totalmente enquanto as avaliações seguirem recompensando palpites.

Principais achados e implicações

  • Acurácia não chegará a 100% em uso real: há perguntas sem resposta determinável, ambiguidades e limitações de contexto.
  • Alucinações não são inevitáveis: modelos podem abster-se quando incertos.
  • Modelos menores podem ser mais “calibráveis”: saber quando não responder pode exigir menos computação do que acertar sempre.
  • Não é “bug místico”: há mecanismos estatísticos claros que explicam e até incentivam alucinações em certas avaliações.
  • Um bom “hallucination eval” isolado pouco muda diante de centenas de testes focados só em acurácia. É preciso reformar as métricas principais.

O que muda para usuários, equipes e reguladores

Para equipes de produto, a mensagem é pragmática: incentive respostas calibradas. Dê caminhos seguros (“não sei”, pedir mais contexto, citar fontes) e penalize com rigor o erro confiante. Em avaliações internas, trate abstenção apropriada como postura de risco reduzido — especialmente em domínios sensíveis. Para usuários, interprete com cautela respostas muito assertivas sem fonte. Para reguladores e compradores corporativos, cobre métricas que mostrem taxa de abstenção e calibração, não apenas acurácia média.

Na prática, espere ver mais produtos destacando indicadores como “confiança”, “justificativa” e “fonte”. E, quando o modelo optar por não responder, entenda isso como sinal de maturidade de segurança — não como falha de utilidade. A maturidade está em saber quando falar e quando parar.

Fontes, autores e transparência

Estudo: “Why language models hallucinate” (OpenAI, 5 set 2025). Autores indicados no anúncio: Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel e Johannes Heidecke. Link para o paper oficial (PDF): cdn.openai.com/…/why-language-models-hallucinate.pdf. Link do anúncio: página de News da OpenAI.

Limitações: este artigo traduz e sintetiza o comunicado original em inglês, preservando dados e contexto essenciais. Não foram identificados vídeos, posts de X/Twitter, YouTube ou Instagram incorporáveis no anúncio oficial. A imagem acima é a ilustração fornecida pela OpenAI. Eventuais atualizações futuras podem alterar números ou trechos desta análise.

Perguntas Frequentes sobre por que modelos de linguagem alucinam

  1. O que é alucinação em IA?

    Resposta direta: é quando o modelo dá uma resposta plausível, mas falsa. Expansão: ocorre com alta confiança, mesmo em perguntas simples, e preocupa em domínios críticos. Validação: definido no paper da OpenAI (5 set 2025).

  2. Por que acurácia 100% é inatingível?

    Resposta direta: há perguntas sem resposta determinável. Expansão: falta de dados, ambiguidades e limites de raciocínio impedem 100% em uso real. Validação: conclusões do estudo e System Card do GPT-5.

  3. Como reduzir alucinações na prática?

    Resposta direta: penalize erros confiantes e valorize abstenções. Expansão: reequilibre scoreboards, incorpore calibração e incentive “não sei”. Validação: recomendações de avaliação sensível à incerteza do paper.

  4. O que é taxa de abstenção e por que importa?

    Resposta direta: é quando o modelo opta por não responder. Expansão: abstenções adequadas evitam palpites perigosos e reduzem alucinações. Validação: exemplo do SimpleQA (52% vs 1%) citado no estudo.

  5. Onde ler o estudo completo?

    Resposta direta: no site oficial da OpenAI (PDF). Expansão: link público do paper “Why language models hallucinate” publicado em 5 set 2025. Validação: https://cdn.openai.com/pdf/…/why-language-models-hallucinate.pdf.

Considerações finais

O avanço em IA não depende apenas de modelos maiores ou mais rápidos, mas de como medimos e recompensamos seu comportamento. A proposta da OpenAI — atualizar scoreboards para punir erros confiantes e reconhecer a incerteza apropriada — alinha performance com segurança.

Enquanto isso não acontece em larga escala, veremos progresso desigual: melhorias em raciocínio coexistindo com alucinações persistentes. Ao exigir métricas de calibração e abstenção, a indústria pode reduzir os custos sociais do erro e aumentar a confiabilidade dos sistemas que já usamos todos os dias.

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários
0
Adoraria saber sua opinião, comente.x