NoticiasTecnologia

DeepSeek pode ter usado Gemini do Google para treinar seu modelo

PUBLICIDADE

Na última semana, o laboratório chinês DeepSeek lançou a versão atualizada de seu modelo de raciocínio R1, nomeado R1-0528, que obteve desempenho impressionante em vários benchmarks de matemática e codificação. Entre as especulações que circulam na comunidade de IA, destaca-se a possibilidade de o DeepSeek ter utilizado parte dos dados do Gemini, da Google, para treinar seu modelo, conforme evidenciado por análises e comentários de especialistas.

Em poucas linhas, a notícia aponta que, embora a fonte dos dados de treinamento não tenha sido revelada oficialmente pela empresa, evidências apontam para uma influência dos resultados gerados pelo Gemini da Google. Essa hipótese foi reforçada por alguns desenvolvedores e pesquisadores, incluindo Sam Paech, que destacou características linguísticas e padrões presentes na versão R1-0528, semelhantes aos do Gemini 2.5 Pro. Essa análise levanta dúvidas sobre a origem dos dados sintéticos utilizados no desenvolvimento e se representariam um caminho agressivo de distilação de modelos já estabelecidos.

Contexto e Evidências do Treinamento

O desenvolvimento do modelo R1-0528 pela DeepSeek não é a primeira vez que a empresa enfrenta acusações de utilizar dados de modelos concorrentes. Em versões anteriores, como observado em dezembro, o modelo V3 do DeepSeek chegou a se identificar equivocadamente como ChatGPT, demonstrando o efeito de ter sido treinado com dados que pertencem a outro sistema. No caso atual, a evidência central provém de uma análise feita por Sam Paech, desenvolvedor baseado em Melbourne, que trabalha com avaliações de “inteligência emocional” para IA. Em um post na rede X, Paech apresentou capturas de tela e argumentos de que há uma preferência por termos e expressões compatíveis com aqueles favorecidos pelo Gemini da Google.

PUBLICIDADE

Adicionalmente, outro desenvolvedor, o criador anônimo do “SpeechMap”, uma ferramenta para avaliar a liberdade de expressão nas respostas de chatbots de IA, também observou que os “rastros de pensamento” do modelo DeepSeek se assemelhavam aos do Gemini. Esses rastros, que representam os caminhos internos que a IA percorre para chegar a uma conclusão, apresentam similaridades notáveis, reforçando a hipótese de que parte dos dados de treinamento pode vir do Gemini.

Histórico de Práticas e Polêmicas na Indústria

O uso de técnicas de distilação, ou a extração de conhecimento de modelos maiores e mais capacitados, não é incomum na indústria de IA, mas essa prática envolve riscos regulatórios e éticos. Em um episódio anterior, desenvolvedores já notaram que o DeepSeek utilizava saídas de outros modelos, o que o levava a se confundir com plataformas como o ChatGPT. Recentemente, a OpenAI revelou em entrevista ao Financial Times que identificou evidências ligando a DeepSeek à prática de distilação de dados de seus modelos, o que contraria os termos de uso da própria OpenAI.

Além disso, investigações conduzidas pela Bloomberg apontaram a exfiltração de grandes volumes de dados através de contas de desenvolvedores associadas à DeepSeek. Essa situação levanta uma discussão importante: até que ponto a prática de coletar e sintetizar dados de modelos de ponta representa um avanço tecnológico versus uma infração das diretrizes éticas e contratuais estabelecidas pelas grandes empresas de IA.

Análise dos Especialistas e o Papel do Gemini

Nathan Lambert, pesquisador do instituto de IA AI2, foi enfático ao comentar a possibilidade de uso do Gemini como fonte de dados. Em um post recente na rede social X, Lambert afirmou: “Se eu fosse a DeepSeek, com certeza criaria uma quantidade enorme de dados sintéticos usando o melhor modelo de API disponível.” Para ele, a escassez de GPUs e o dispêndio financeiro excessivo podem ter levado a DeepSeek a recorrer ao uso do Gemini para aumentar seu poder de processamento indiretamente, transformando essa estratégia em um substituto vantajoso para investimentos pesados em infraestrutura.

Essa estratégia, se confirmada, demonstra não apenas uma abordagem inovadora para contornar limitações técnicas, mas também levanta questionamentos sobre a integridade e originalidade dos dados utilizados. As práticas de distilação e a utilização de saídas de modelos já consagrados podem diminuir as barreiras de entrada para novos concorrentes, porém, ao mesmo tempo, colocam em xeque a competitividade leal e a transparência na divulgação das fontes de treinamento.

Medidas de Segurança e Reação das Gigantes de IA

Para evitar o uso indevido de seus outputs, diversas empresas de IA estão adotando medidas de segurança avançadas. Em abril, a OpenAI passou a exigir verificação de identidade para acesso a modelos avançados, restringindo, assim, o uso de seus dados por terceiros para fins de treinamento competitivo. Por sua vez, a Google reforçou suas diretrizes ao “resumir” os rastros gerados por modelos disponíveis em sua plataforma AI Studio, tornando mais difícil a extração de dados sem autorização.

Essas ações refletem um cenário em que o ambiente de treinamento de modelos de IA se torna cada vez mais competitivo e cercado de desafios de segurança. Com o avanço das técnicas de distilação e o uso crescente de dados sintéticos, a linha entre inovação e infração torna-se tênue, exigindo maior transparência e regulamentação no setor.

Conclusão

Em resumo, o lançamento da versão R1-0528 da DeepSeek e as evidências sugerindo uma possível utilização dos dados do Gemini da Google para seu treinamento abrem um amplo leque de questionamentos sobre a origem dos dados, práticas de distilação e a ética na indústria de IA. Enquanto alguns especialistas defendem que a estratégia pode representar uma inovação para superar limitações técnicas, outros alertam para os riscos de se infringir diretrizes contratuais e práticas de segurança. Com as medidas já sendo adotadas por gigantes como OpenAI e Google, o debate se intensifica e reforça a necessidade de um equilíbrio entre inovação e transparência.

À medida que novos dados surgem e o cenário competitivo se torna ainda mais acirrado, a comunidade de IA fica na expectativa de futuros esclarecimentos e, possivelmente, novas regulamentações sobre a utilização de dados sintéticos em treinamentos avançados. O impacto dessas práticas poderá definir o rumo das pesquisas e o desenvolvimento de modelos cada vez mais robustos e éticos.

Perguntas Frequentes sobre R1-0528 da DeepSeek

  1. O que é o modelo R1-0528 da DeepSeek?

    O R1-0528 é a versão atualizada do modelo de raciocínio da DeepSeek, que se destaca em benchmarks de matemática e codificação.

  2. Como o Gemini do Google pode estar relacionado ao DeepSeek?

    Especialistas apontam que características do R1-0528 são semelhantes às do Gemini 2.5 Pro, indicando possível treinamento com dados sintéticos oriundos do modelo da Google.

  3. O que é distilação de modelos em IA?

    Distilação é uma técnica que extrai conhecimento de modelos maiores para treinar modelos menores, mas seu uso inadequado pode violar termos de serviço e levantar questões éticas.

  4. Quais medidas estão sendo adotadas pelas empresas para proteger seus dados?

    Empresas como OpenAI e Google estão implementando verificações de identidade, além de métodos para resumir e proteger os rastros gerados pelos seus modelos.

Esta FAQ foi preparada para responder às principais dúvidas sobre a relação entre o DeepSeek e o Gemini do Google e sobre as práticas atuais de treinamento e distilação de modelos. Se houver novas atualizações, elas serão incorporadas conforme as informações se confirmem.

Considerações Finais

O recente lançamento do DeepSeek R1-0528 e as especulações acerca do uso de dados do Gemini do Google sublinham a complexidade do ambiente de treinamento de IA atual. Com a crescente competitividade e os desafios de segurança, a transparência na origem dos dados e o respeito às diretrizes éticas nunca foram tão importantes. Resta agora à comunidade e aos reguladores definir os limites para que a inovação continue a prosperar sem comprometer a integridade dos processos. Este cenário também reforça a importância de eventos como o TC Sessions: AI, que reúnem os principais atores do setor para discutir e moldar o futuro da inteligência artificial.

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.

Deixe um comentário