NoticiasInteligência ArtificialTecnologia

Karpathy lança LLM Knowledge Base que supera o RAG

PUBLICIDADE

O cientista da computação Andrej Karpathy, ex-diretor de IA da Tesla e cofundador da OpenAI, apresentou uma nova proposta arquitetônica chamada LLM Knowledge Base. A abordagem dispensa o modelo de Retrieval-Augmented Generation (RAG) em troca de um sistema contínuo em formato Markdown, capaz de organizar o conhecimento de forma evolutiva e mantida por um modelo de linguagem. O anúncio foi feito por Karpathy em uma postagem na plataforma X (antigo Twitter), despertando grande interesse entre especialistas em infraestrutura de IA, dados e segurança digital.

Karpathy e o desafio da memória persistente

Na visão de Karpathy, o problema central dos modelos de linguagem de grande escala (LLMs) é a falta de memória persistente. Após cada sessão, o contexto é perdido, obrigando o usuário a reconstruir manualmente as informações anteriores. Segundo ele, essa limitação freia o avanço em projetos contínuos de IA e dificulta a produtividade.

O conceito de LLM Knowledge Base propõe que o próprio modelo de linguagem atue como um “bibliotecário de pesquisa”, compilando, revisando e interligando arquivos Markdown (`.md`). Esses arquivos se tornam um registro legível e transparente de pesquisas, ideias e experiências. A IA, por sua vez, mantém o conteúdo atualizado e coerente, evitando a perda de contexto entre sessões.

PUBLICIDADE

Como funciona a ‘LLM Knowledge Base’

  • Ingestão de Dados: Materiais como artigos, repositórios do GitHub e datasets são armazenados em um diretório raw/. O Obsidian Web Clipper transforma o conteúdo em arquivos Markdown, inclusive imagens, para acesso local e referência visual pela IA.
  • Compilação: O LLM lê os arquivos brutos e constrói um wiki estruturado. Essa etapa inclui resumos, criação de backlinks e identificação de conceitos-chave.
  • Manutenção Ativa (Linting): A IA realiza verificações periódicas para corrigir inconsistências, atualizar conexões e manter o sistema “vivo”.

Diferentemente de um banco vetorial, em que os dados são transformados em números opacos, o modelo de Karpathy é auditável e humanamente compreensível. Cada informação gerada pode ser rastreada até uma fonte em texto claro.

Do pessoal ao corporativo: aplicações empresariais

O empreendedor Vamshi Reddy observou que toda empresa possui um diretório “raw/” de informações desorganizadas – e que o método de Karpathy transforma isso em um novo tipo de produto. A proposta é que companhias possam organizar documentos internos em uma base de conhecimento viva, capaz de gerar um “Bíblia corporativa” em tempo real. O fundador da startup Edra, Eugen Alpeza, complementa: “Transformar wikis pessoais em operações empresariais exige escala e consistência, e estamos construindo isso.”

Outros especialistas, como o educador Ole Lehmann, apontam que uma aplicação integrada — capaz de sincronizar conteúdo de Slack, browsers e serviços de leitura — teria potencial de revolucionar o uso de IA no trabalho.

O surgimento das ‘Swarm Knowledge Bases’

A comunidade rapidamente expandiu o conceito para sistemas multiagentes. O empreendedor @jumperz, fundador da Secondmate, descreveu uma arquitetura chamada Swarm Knowledge Base, em que dez agentes de IA colaboram para produzir e validar conteúdo. Cada artigo passa por um “Quality Gate” que usa o modelo Hermes para verificar consistência antes de publicação.

Esse ciclo — ingestão, compilação, verificação e retroalimentação — forma o que Karpathy chama de “loop composto”, garantindo que a rede de agentes nunca perca memória ou coerência entre tarefas.

Desempenho e escalabilidade

Apesar de críticas sobre a escalabilidade de soluções não vetoriais, Karpathy destaca que o sistema funciona bem até 100 artigos e cerca de 400 mil palavras. Em muitos casos, soluções RAG geram mais ruído do que benefícios em bases de médio porte. O pesquisador e podcaster Lex Fridman revelou adotar um método semelhante, com visualizações dinâmicas em HTML, permitindo interações de voz com sua base de conhecimento pessoal — o que ele chama de “wiki efêmera”.

Filosofia ‘file-over-app’ e licenciamento

Karpathy defende o uso do formato Markdown (.md) por sua natureza aberta e independente de provedores. As anotações são gerenciadas via Obsidian, que privilegia o armazenamento local. Essa filosofia “file-over-app” contrasta com modelos SaaS como Notion e Google Docs, garantindo soberania de dados e autonomia.

IA bibliotecária: uma nova forma de pesquisar

Críticos e apoiadores concordam que o movimento propõe uma virada cultural: substituir a busca por estrutura. O programador Jason Paul Michaels sintetizou o espírito do projeto ao afirmar: “Sem vetores, sem embeddings… apenas Markdown, FTS5 e grep. Cada correção compõe o conhecimento.” Já o cofundador do Obsidian, Steph Ango, destacou a importância de manter um “cofre limpo” para evitar poluição da base de dados pelas experiências de IA.

Comparativo: RAG vs. LLM Knowledge Base

RecursoRAG / Vector DBLLM Knowledge Base
Formato de DadosVetores opacosTexto legível em Markdown
LógicaSemelhança semânticaConexões explícitas e backlinks
AuditabilidadeBaixa (caixa-preta)Alta (transparente e rastreável)
AtualizaçãoReindexação manualAutocorreção automática (linting)
Escala IdealMilhões de documentosDe 100 a 10.000 documentos

O futuro: dados sintéticos e ajuste fino

Conforme a base evolui, Karpathy vislumbra o uso de seus dados “purificados” para geração de dados sintéticos e fine-tuning. Assim, o próprio wiki pode se tornar o dataset ideal para treinar modelos personalizados, transformando uma pesquisa pessoal em uma IA privada e afinada ao estilo do criador.

Como resume o próprio Karpathy: “Raramente você escreve o wiki manualmente; ele é o domínio do LLM.” Essa é possivelmente a semente de uma nova era — a dos arquivos autônomos.

FAQ: Perguntas frequentes sobre a LLM Knowledge Base

  1. O que é a LLM Knowledge Base proposta por Karpathy?

    É um sistema de gestão de conhecimento onde o modelo de linguagem atua como bibliotecário, compilando e mantendo arquivos Markdown organizados e interconectados. Substitui pipelines RAG por memória autoatualizável.

  2. Qual a diferença entre RAG e LLM Knowledge Base?

    Enquanto o RAG utiliza vetores e bases complexas para recuperar trechos de texto, a LLM Knowledge Base trabalha diretamente com conteúdo legível, com alta auditabilidade e estrutura de backlinks.

  3. Posso aplicar o conceito em minha empresa?

    Sim. O método pode ser usado para compilar e manter wikis corporativos de forma automática, transformando dados dispersos em um repositório vivo e organizado.

Considerações finais

A proposta de Karpathy é mais que uma inovação técnica: é uma reflexão sobre como os humanos e as IAs podem compartilhar conhecimento de forma cooperativa. Ao transformar o modelo de linguagem em um bibliotecário autônomo, ele redefine o conceito de memória artificial e sugere o nascimento da era do arquivo vivo.

Fonte: x antigo twitter

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.