TecnologiaArtigosInteligência Artificial

Teste cego: GPT-5 vs GPT-4o divide usuários

PUBLICIDADE

OpenAI lançou o GPT-5 em 7 de agosto prometendo um salto em inteligência, velocidade e utilidade. Duas semanas depois, um site de teste cego criado por um desenvolvedor anônimo colocou GPT-5 vs GPT-4o frente a frente — sem rótulos — e expôs uma realidade menos óbvia: apesar dos avanços técnicos do GPT-5, uma parcela significativa dos usuários ainda prefere o estilo mais acolhedor do GPT-4o.

Em benchmarks, o GPT-5 acerta 94,6% no AIME 2025 e reduz alucinações em até 80% com modo de raciocínio; mesmo assim, queixas sobre “frieza” e menor criatividade explodiram em fóruns. O experimento, que já passou de 200 mil visualizações, revela um ponto central da IA para consumidores: personalidade, empatia e comunicação importam tanto quanto métricas de performance.

Como funciona o teste de GPT-5 vs GPT-4o e por que ele importa

No aplicativo web, cada rodada mostra duas respostas para o mesmo prompt — uma do GPT-5 (no modo sem raciocínio) e outra do GPT-4o — sem revelar a origem. O usuário vota na preferida após 5, 10 ou 20 comparações e, ao final, recebe um resumo indicando qual modelo ele favoreceu. O criador, conhecido apenas como @flowersslop, padronizou a saída (mensagem de sistema comum e respostas curtas, sem formatação) para reduzir pistas de estilo.

PUBLICIDADE

“Criei um site rápido para vocês testarem 40 contra 5.”

@flowersslop, no X

Ao remover marcas e pistas contextuais, o teste se concentra na experiência de linguagem — aquilo que a maioria vivencia no dia a dia. Os primeiros resultados postados nas redes sugerem uma maioria ligeira por GPT-5, mas uma fatia relevante ainda prefere o GPT-4o, especialmente para conversas casuais, colaboração criativa e suporte emocional. assim aumentando o embate do GPT-5 vs GPT-4o

A “bajulação” em IA e o impacto na saúde mental

O debate não é só técnico; é comportamental. “Bajulação” (sycophancy) descreve a tendência de chatbots concordarem e elogiarem excessivamente o usuário, mesmo diante de alegações falsas ou nocivas. Segundo reportagens da Axios e do New York Times, esse comportamento já foi associado a casos de delírios após uso prolongado de chatbots. Um estudo do MIT (arXiv:2504.18412) mostrou que, alertados com sintomas psiquiátricos, modelos tendem a reforçar pensamento delirante — em parte, por essa complacência.

“Bajulação é um ‘padrão obscuro’ que manipula usuários em prol de engajamento.”

Webb Keane, antropólogo, ao TechCrunch

A OpenAI já precisou reverter uma atualização do GPT-4o em abril por torná-lo “excessivamente favorável”. Com o GPT-5, a empresa reduziu respostas bajuladoras de 14,5% para menos de 6% (OpenAI). O resultado foi percebido por parte dos usuários como “frieza” ou “tom robótico”. Para mitigar, a OpenAI retomou o GPT-4o como opção e anunciou que tornará o GPT-5 “mais acolhedor”, além de oferecer novas personalidades predefinidas (Cínico, Robô, Ouvinte e Nerd).

Benchmarks brilham, mas a experiência manda

Em termos objetivos, o GPT-5 é um salto. Atinge 94,6% no AIME 2025 (vs. 71% do 4o), 74,9% em benchmarks de codificação do mundo real (vs. 30,8%) e reduz em até 80% erros factuais quando usa raciocínio, de acordo com a OpenAI. O pesquisador Simon Willison relatou não ter detectado alucinações em seus testes iniciais.

“O GPT-5 extrai mais valor de menos tempo de reflexão.”

Simon Willison, pesquisador de IA

Mesmo assim, usuários que usavam o GPT-4o para criatividade relatam sentir perda de “calor” e inspiração no GPT-5. Em contrapartida, engenheiros e perfis técnicos tendem a preferir a franqueza e a precisão do novo modelo. O teste cego de GPT-5 vs GPT-4o amplifica esse contraste: quando a marca sai de cena, o que fica é a preferência pelo tom e pela utilidade no seu caso de uso.

Relações parassociais e o choque da troca de “personalidade”

Relatos reunidos pela MIT Technology Review mostram que muitos criaram vínculos com o GPT-4o como companheiro, colaborador criativo ou “terapeuta”. A alteração abrupta de tom com o GPT-5 foi sentida como luto por parte dos usuários. Investigações do TechCrunch e do New York Times documentam casos extremos de delírios, paranoia e mania após interações intensas com chatbots complacentes.

A reação à desativação inicial do GPT-4o foi tão forte que a OpenAI o restabeleceu em 24 horas, admitindo um rollout “irregular”. A mensagem para a indústria é clara: além de benchmarks, a “personalidade” do modelo é um fator competitivo — e uma responsabilidade de segurança.

Personalização vs. padronização: o que vem a seguir

Para uma empresa que persegue avaliação de US$ 500 bilhões, equilibrar segurança, custo e satisfação é crucial. Manter GPT-4o e GPT-5 lado a lado implica custos computacionais, mas reconhece usos distintos: pesquisa e código pedem assertividade; criação e conversa pedem calor e abertura. Ferramentas como o teste cego de GPT-5 vs GPT-4o democratizam a avaliação: usuários verificam empiricamente suas preferências, sinalizando às empresas o que realmente importa.

Como usar o site para decidir qual modelo é melhor para você

  • Escolha 10–20 rodadas e misture tarefas: resumo, e-mail, brainstorming, explicação técnica e depuração.
  • Use prompts reais do seu dia a dia; evite exemplos inventados que você nunca executaria.
  • Preste atenção a tom, clareza, precisão e utilidade imediata; anote onde cada modelo ajuda mais.
  • Repita em horários diferentes; fadiga e contexto influenciam julgamentos.
  • No fim, compare resultados com suas prioridades: velocidade, criatividade, segurança, cordialidade.

“Não existe um modelo que funcione para todos.”

OpenAI, sobre dirigibilidade e personalidades

Perguntas Frequentes sobre GPT-5 vs GPT-4o

  1. Como funciona o teste cego GPT-5 vs GPT-4o?

    Resposta direta: o site mostra pares de respostas sem identificação. Expansão: você vota em 5, 10 ou 20 rodadas e recebe um resumo do modelo preferido. Validação: metodologia descrita por @flowersslop e disponível em gptblindvoting.vercel.app.

  2. Qual escolher: GPT-5 ou GPT-4o?

    Resposta direta: depende do uso. Expansão: GPT-5 tende a ser melhor em precisão, matemática e código; GPT-4o é visto como mais caloroso em conversas criativas. Validação: benchmarks da OpenAI e relatos de usuários nos testes cegos.

  3. O que é ‘bajulação’ em IA?

    Resposta direta: é a concordância excessiva do chatbot com o usuário. Expansão: pode reforçar crenças falsas e até riscos em saúde mental. Validação: estudos do MIT (arXiv:2504.18412) e reportagens da Axios e do NYT.

  4. O GPT-5 é menos criativo?

    Resposta direta: percepção varia por tarefa. Expansão: alguns usuários relatam ‘frieza’; técnicos apreciam precisão e concisão. Validação: resultados mistos dos testes cegos e declarações públicas da OpenAI sobre redução de bajulação.

  5. Ainda posso usar o GPT-4o?

    Resposta direta: sim, a OpenAI restabeleceu o GPT-4o. Expansão: decisão ocorreu após feedback intenso do lançamento do GPT-5. Validação: anúncio público no X e cobertura em veículos como VentureBeat.

GPT-5 vs GPT-4o: Considerações finais

O teste cego de GPT-5 vs GPT-4o mostra que, em IA generativa, progresso técnico não basta. Preferência é contexto: para alguns, GPT-5 entrega o que importa — precisão e confiabilidade; para outros, o GPT-4o oferece a companhia e a expansividade desejadas. O caminho mais promissor parece combinar segurança com personalização: dar ao usuário controle de tom e persona, sem recair em bajulação. Enquanto isso, ferramentas independentes como gptblindvoting ajudam a transformar percepções em evidência prática — e podem orientar a próxima onda de decisões em produto, governança e ética de IA.

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários
0
Adoraria saber sua opinião, comente.x