Por que modelos de linguagem alucinam, segundo a OpenAI
OpenAI publicou em 5 set 2025 um estudo que explica por que modelos de linguagem alucinam: avaliações e treinamentos atuais tendem a premiar palpites em vez de reconhecer incerteza. Em SimpleQA, por exemplo, o gpt-5-thinking-mini teve 52% de abstenção, 22% de acerto e 26% de erro, enquanto o o4-mini marcou 1% de abstenção, 24% de acerto e 75% de erro — menos abstenção, muito mais erro.
A pesquisa conclui: para reduzir alucinações, é preciso reavaliar como medimos desempenho e recalibrar a resposta dos modelos, incentivando “não sei” quando apropriado. Leia o paper completo no link oficial da OpenAI.
Tabela de conteúdos
O que são alucinações em modelos de linguagem
No contexto de IA, “alucinações” são respostas plausíveis, porém falsas, geradas com alta confiança. Elas aparecem até em perguntas simples. O estudo cita o caso de um chatbot que retornou títulos e datas de aniversário errados para o pesquisador Adam Tauman Kalai (um dos autores). Esse padrão preocupa porque transmite certeza indevida ao usuário e, em cenários críticos (saúde, jurídico, finanças), pode induzir decisões equivocadas.
Segundo a OpenAI, mesmo modelos recentes como o GPT-5 reduziram alucinações — especialmente em tarefas de raciocínio —, mas o problema persiste. A tese central do paper: o modo como treinamos e avaliamos os sistemas ainda recompensa chutar respostas em vez de admitir incerteza. Quando o custo de “não sei” é maior do que o custo de errar, os modelos aprendem a arriscar.
Avaliações que premiam palpites: o problema dos scoreboards
Grande parte dos benchmarks prioriza acurácia bruta (percentual de respostas exatas). Isso cria um incentivo perverso: quem chuta pode acertar de vez em quando e subir no ranking; quem admite “não sei” perde pontos garantidos. Em milhares de questões, o modelo que arrisca sai aparentemente melhor, mesmo cometendo muito mais erros graves (as alucinações).
O paper exemplifica com o SimpleQA (referência na System Card do GPT-5). Compare a taxa de abstenção (quando o modelo se recusa a dar um palpite), a acurácia e o erro. O contraste entre um modelo que “segura a mão” e outro que responde quase sempre é revelador: privilegiar apenas acurácia mascara o risco de respostas confiantes e erradas.
Métrica | gpt-5-thinking-mini | OpenAI o4-mini |
Taxa de abstenção | 52% | 1% |
Taxa de acerto (acurácia) | 22% | 24% |
Taxa de erro (alucinação) | 26% | 75% |
Total | 100% | 100% |
É melhor indicar incerteza ou pedir esclarecimento do que oferecer informação possivelmente incorreta com confiança.
OpenAI Model Spec (12 fev 2025)
Um critério melhor para avaliar modelos
A solução proposta é direta: penalizar erros confiantes mais do que abstenções e dar crédito parcial a expressões adequadas de incerteza. Isso já existe em exames com “marcação negativa” ou crédito parcial, mas a OpenAI argumenta que não basta criar alguns benchmarks especializados; é preciso atualizar os principais scoreboards que comandam o debate público e influenciam o desenvolvimento de modelos.
Se os rankings continuarem premiando acertos ocasionais vindos de palpites, os modelos continuarão a arriscar. Por outro lado, métricas que valorizam calibração — isto é, alinhar confiança subjetiva com a probabilidade real de acerto — tendem a reduzir alucinações, pois encorajam respostas como “não sei”, “não encontrei fonte confiável” ou “preciso de mais detalhes”.
- Reequilibrar métricas: acurácia, erro, abstenção e calibração.
- Dar crédito à humildade técnica quando a informação é incerta.
- Aplicar avaliação sensível à incerteza em toda a bateria de testes.
Por que o pretraining gera erros factuais específicos
Modelos de linguagem começam com o pretraining, aprendendo a prever a próxima palavra em grandes corpora de texto. Não há rótulos “verdadeiro/falso” por afirmação; o modelo vê apenas exemplos positivos de linguagem fluente. Essa formação o torna excelente em padrões formais (ortografia, parênteses), que desaparecem com escala. Mas fatos raros e arbitrários — como o aniversário de um pesquisador — não derivam de padrões linguísticos gerais e, portanto, são intrinsecamente difíceis de prever.
A analogia do paper: classificar fotos de “gato vs. cachorro” funciona com muitos rótulos corretos. Já rotular cada foto pelo aniversário do pet produziria erros sistemáticos, pois a variável é aleatória. Em LLMs, fatos de baixa frequência se comportam como “aniversários”: sem evidências explícitas e supervisionadas, o próximo-token não consegue eliminá-los por completo. Etapas posteriores (afinamento com feedback humano, reforço, ferramentas externas) ajudam, mas não resolvem totalmente enquanto as avaliações seguirem recompensando palpites.
Principais achados e implicações
- Acurácia não chegará a 100% em uso real: há perguntas sem resposta determinável, ambiguidades e limitações de contexto.
- Alucinações não são inevitáveis: modelos podem abster-se quando incertos.
- Modelos menores podem ser mais “calibráveis”: saber quando não responder pode exigir menos computação do que acertar sempre.
- Não é “bug místico”: há mecanismos estatísticos claros que explicam e até incentivam alucinações em certas avaliações.
- Um bom “hallucination eval” isolado pouco muda diante de centenas de testes focados só em acurácia. É preciso reformar as métricas principais.
O que muda para usuários, equipes e reguladores
Para equipes de produto, a mensagem é pragmática: incentive respostas calibradas. Dê caminhos seguros (“não sei”, pedir mais contexto, citar fontes) e penalize com rigor o erro confiante. Em avaliações internas, trate abstenção apropriada como postura de risco reduzido — especialmente em domínios sensíveis. Para usuários, interprete com cautela respostas muito assertivas sem fonte. Para reguladores e compradores corporativos, cobre métricas que mostrem taxa de abstenção e calibração, não apenas acurácia média.
Na prática, espere ver mais produtos destacando indicadores como “confiança”, “justificativa” e “fonte”. E, quando o modelo optar por não responder, entenda isso como sinal de maturidade de segurança — não como falha de utilidade. A maturidade está em saber quando falar e quando parar.
Fontes, autores e transparência
Estudo: “Why language models hallucinate” (OpenAI, 5 set 2025). Autores indicados no anúncio: Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel e Johannes Heidecke. Link para o paper oficial (PDF): cdn.openai.com/…/why-language-models-hallucinate.pdf. Link do anúncio: página de News da OpenAI.
Limitações: este artigo traduz e sintetiza o comunicado original em inglês, preservando dados e contexto essenciais. Não foram identificados vídeos, posts de X/Twitter, YouTube ou Instagram incorporáveis no anúncio oficial. A imagem acima é a ilustração fornecida pela OpenAI. Eventuais atualizações futuras podem alterar números ou trechos desta análise.
Perguntas Frequentes sobre por que modelos de linguagem alucinam
O que é alucinação em IA?
Resposta direta: é quando o modelo dá uma resposta plausível, mas falsa. Expansão: ocorre com alta confiança, mesmo em perguntas simples, e preocupa em domínios críticos. Validação: definido no paper da OpenAI (5 set 2025).
Por que acurácia 100% é inatingível?
Resposta direta: há perguntas sem resposta determinável. Expansão: falta de dados, ambiguidades e limites de raciocínio impedem 100% em uso real. Validação: conclusões do estudo e System Card do GPT-5.
Como reduzir alucinações na prática?
Resposta direta: penalize erros confiantes e valorize abstenções. Expansão: reequilibre scoreboards, incorpore calibração e incentive “não sei”. Validação: recomendações de avaliação sensível à incerteza do paper.
O que é taxa de abstenção e por que importa?
Resposta direta: é quando o modelo opta por não responder. Expansão: abstenções adequadas evitam palpites perigosos e reduzem alucinações. Validação: exemplo do SimpleQA (52% vs 1%) citado no estudo.
Onde ler o estudo completo?
Resposta direta: no site oficial da OpenAI (PDF). Expansão: link público do paper “Why language models hallucinate” publicado em 5 set 2025. Validação: https://cdn.openai.com/pdf/…/why-language-models-hallucinate.pdf.
Considerações finais
O avanço em IA não depende apenas de modelos maiores ou mais rápidos, mas de como medimos e recompensamos seu comportamento. A proposta da OpenAI — atualizar scoreboards para punir erros confiantes e reconhecer a incerteza apropriada — alinha performance com segurança.
Enquanto isso não acontece em larga escala, veremos progresso desigual: melhorias em raciocínio coexistindo com alucinações persistentes. Ao exigir métricas de calibração e abstenção, a indústria pode reduzir os custos sociais do erro e aumentar a confiabilidade dos sistemas que já usamos todos os dias.