NoticiasInteligência ArtificialTecnologia

Definity integra agentes em pipelines Spark para detectar falhas antes da IA

PUBLICIDADE

A startup de engenharia de dados Definity, sediada em Chicago (EUA), está redefinindo a forma como as empresas monitoram e otimizam seus pipelines de dados Spark. Por meio da inserção de agentes diretamente dentro das execuções, a companhia promete detectar e corrigir falhas antes que impactem sistemas de IA agentiva, garantindo que dados cheguem limpos, completos e no tempo certo.

A nova fronteira da confiabilidade de dados

Tradicionalmente, equipes de dados identificam falhas nos pipelines apenas após ocorrerem — o que gera perdas financeiras e afeta aplicações críticas. A Definity propõe o oposto: agir durante a execução do pipeline, garantindo respostas imediatas. Um dos clientes da empresa relatou redução de 70% nos esforços de otimização e solução de problemas e ganho de velocidade de até dez vezes na resolução de falhas em Spark.

“Para operações de dados agentivas, é fundamental ter contexto em tempo real, controle do pipeline e um ciclo de feedback contínuo”, afirmou Roy Daniel, CEO e cofundador da Definity, em entrevista ao VentureBeat.

A empresa anunciou recentemente uma rodada de investimento Série A de US$ 12 milhões, liderada pela GreatPoint Ventures e com participação da Dynatrace, StageOne Ventures e Hyde Park Venture Partners. O aporte solidifica a Definity no competitivo ecossistema de observabilidade e automação de dados corporativos.

PUBLICIDADE

Por que ferramentas tradicionais falham em escala

Monitoramentos convencionais, como os oferecidos por Datadog, Databricks e Unravel Data, atuam após a execução dos jobs. Isso significa que quando o problema é identificado, o dano já ocorreu — dados corrompidos, uso excessivo de recursos e processos comprometidos.

Na abordagem da Definity, a diferença está na arquitetura: o agente é embutido dentro da camada de execução e não funciona apenas como um observador externo. Essa mudança de paradigma introduz a chamada inteligência em execução.

Como funcionam os agentes internos da Definity

  • Instrumentação inline: O sistema adiciona um agente JVM diretamente na camada de execução, abaixo da plataforma Spark, extraindo dados em tempo real.
  • Contexto de execução: Captura comportamento de consultas, uso de memória, padrões de shuffle e utilização de infraestrutura durante a execução.
  • Intervenção em tempo real: Pode ajustar alocação de recursos, interromper um job problemático e impedir a propagação de dados incorretos.
  • Baixo overhead: O impacto de desempenho é mínimo — cerca de um segundo adicional em execuções de uma hora.

Estudo de caso: Nexxen

Um dos primeiros usuários corporativos da Definity é a Nexxen, empresa de tecnologia de publicidade que opera pipelines Spark em grande escala, totalmente em ambiente on-premises. Segundo Dennis Meyer, diretor de engenharia de dados da Nexxen, o desafio não era apenas evitar falhas, mas gerenciar a complexidade crescente e o custo das ineficiências.

“Como operamos localmente, sem elasticidade na nuvem, qualquer desperdício tem impacto direto nos custos”, destacou Meyer. “A Definity nos deu visibilidade total e reduziu nossos esforços de otimização em 70% já na primeira semana.”

Dennis Meyer, Diretor de Engenharia de Dados da Nexxen

O benefício foi claro: a Nexxen recuperou capacidade de infraestrutura suficiente para absorver mais workloads sem investimentos adicionais em hardware. A transição de um modelo reativo para um sistema proativo e contínuo de otimização marca uma nova fase nas operações de dados corporativos.

Impacto para equipes corporativas de dados

A adoção de inteligência em execução representa uma mudança cultural e técnica nas organizações. Equipes que antes apenas reagiam a alertas agora passam a prevenir falhas e automatizar a eficiência de workloads críticos. Além disso, a confiabilidade de dados torna-se diretamente ligada à entrega de valor em aplicações de IA generativa e aprendizado de máquina.

Essa integração tende a redefinir o papel dos engenheiros de dados, que passam de solucionadores de falhas para estrategistas de operação inteligente. E, à medida que os pipelines passam a ser o elo entre dados e modelos de IA, a integridade operacional dessas estruturas se torna fator de competitividade.

Considerações de segurança e desempenho

Para organizações com alto rigor em governança, a Definity oferece opção de implantação local, garantindo que nenhum metadado saia do perímetro interno da empresa. O agente transmite apenas informações operacionais essenciais, mantendo a conformidade com políticas de segurança e privacidade de dados corporativos.


Perguntas frequentes

  1. O que diferencia a Definity de ferramentas como Datadog ou Databricks?

    Enquanto as ferramentas tradicionais identificam falhas apenas após a execução dos jobs, a Definity atua dentro do pipeline Spark, detectando e intervindo em tempo real para evitar erros e desperdício de recursos.

  2. O quanto a adoção da Definity impacta o desempenho do pipeline?

    O overhead é mínimo, adicionando cerca de um segundo em execuções de uma hora, o que é insignificante frente aos ganhos em estabilidade e eficiência obtidos.

  3. A Definity pode ser usada em ambientes sem nuvem (on-premises)?

    Sim. A plataforma foi projetada com suporte completo para ambientes locais, garantindo que os dados e metadados permaneçam dentro da infraestrutura da empresa.

Considerações finais

Com a expansão dos sistemas de IA agentiva e a crescente necessidade de dados confiáveis, soluções como a Definity se tornam componentes estratégicos da infraestrutura moderna. Sua abordagem de agentes internos em pipelines Spark mostra um caminho promissor para eliminar gargalos antes que afetem o valor de negócio. Ao unir automação, observabilidade e inteligência operacional, a Definity inaugura uma nova era de operações de dados proativas.

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.