Magenta RealTime: modelo open-weights de música ao vivo
Em 20 de junho de 2025, o Magenta RealTime (Magenta RT) foi lançado pela equipe Lyria do Google DeepMind, oferecendo um modelo de música generativa ao vivo com pesos abertos. Com 800 milhões de parâmetros treinados em cerca de 190 mil horas de música instrumental, o Magenta RT permite criar, controlar e performar áudio em tempo real com baixa latência e alta fidelidade. A seguir, entenda como esse avanço pode transformar performances, instalações artísticas e seu fluxo criativo.
O que é o Magenta RealTime?
O Magenta RealTime é um autoregressive transformer de 800M parâmetros, criado para geração causal de música em blocos (“block autoregression”). Cada bloco combina 10s de tokens de áudio grosseiro e produz até 2s de tokens finos, garantindo fator de tempo real de 1,6 no TPU v2-8 do Colab. O modelo é open-weights e roda atualmente em TPU gratuito, mas a Meta RealTime visa inferência local em hardware de consumo.
Como funciona
Baseado na arquitetura do MusicLM, o Magenta RT emprega representações SpectroStream (48kHz estéreo) e o embedding MusicCoCa, fruto da união de MuLan e CoCa. A cada iteração, o modelo gera áudio em tempo contínuo, condicionando novos blocos aos anteriores e a um vetor de estilo que pode ser misturado entre prompts de texto ou áudio.
“Gerar música em tempo real exige geração rápida (>1x), streaming causal e controles de baixa latência”
Equipe Lyria, Google DeepMind
É possível ajustar o tamanho do bloco para reduzir a latência—atualmente configurado em 2s—e manipular em tempo real atributos como ritmo, timbre e intensidade. Essa flexibilidade abre caminho para interfaces interativas, performances ao vivo e soundscapes dinâmicos.
Exploração do espaço latente em tempo real
Heranças de projetos como MusicVAE e NSynth possibilitaram interfaces de navegação em latentes de MIDI e timbre. Com o Magenta RT, a exploração avança para áudio multi-instrumental: você pode mesclar gêneros, experimentar combinações incomuns ou incorporar seus próprios samples.
Essa interpolação cria performances semelhantes a sets de DJ ou sessões de improvisação, onde cada ação do usuário altera o fluxo criativo. Além de shows ao vivo, pode gerar paisagens sonoras interativas para instalações ou ambientes virtuais, como videogames.
Por que Magenta RealTime?
A missão do Magenta sempre foi ampliar a criatividade humana, não substituí-la. Modelos em tempo real promovem um ciclo de percepção-ação contínuo, facilitando o estado de flow e priorizando a experiência sobre o produto final. Além disso, equilibram criação e escuta na proporção exata, evitando conteúdos passivos em massa.
Projetos anteriores como Piano Genie, DDSP e AI Duet pavimentaram o caminho para interações musicais mais ricas. O Magenta RT retoma essa herança, agora com código aberto para pesquisadores e criadores adaptarem conforme suas necessidades.
Limitações conhecidas
- Cobertura de estilos: foca em música instrumental ocidental; vocais reais são limitados.
- Vocais: gera sons não-lexicais, mas não letras completas.
- Latência: controles de estilo podem levar ≥2s para reagir.
- Contexto: janela máxima de 10s impede estruturas de canção mais longas.
Trabalhos futuros
Nas próximas semanas, serão lançadas opções de fine-tuning e inferência on-device. A equipe também desenvolve a próxima geração de modelos em tempo real com maior qualidade, latência reduzida e interatividade ampliada para criar instrumentos verdadeiramente tocáveis e acompanhamento ao vivo.
Considerações finais
Magenta RealTime representa um marco na música generativa ao vivo, democratizando o acesso a modelos poderosos de baixo atraso. Seja para performances, instalações ou criação experimental, o código aberto convida artistas e desenvolvedores a expandirem os limites do possível e a reinventarem a forma de criar música.