Skip to content

Event Scanner: governança de eventos e redução de custo em analytics

Gemini_Generated_Image_3wey8v3wey8v3wey

Industry

Financial Services

Challenge

A operação processava volume massivo de eventos, mas sem governança suficiente sobre o que era efetivamente útil para o negócio. O resultado era aumento de custo em nuvem, degradação de performance analítica e perda de clareza sobre a qualidade da coleta em um ambiente descentralizado.

Results

O projeto identificou que 60% dos dados ingeridos eram ruído operacional, projetou economia anual de R$ 500 mil com correção dos principais ofensores e reduziu entre 25% e 30% o tempo de processamento e consulta.

Event Scanner

Event Scanner

60%
Dos dados identificados como ruído operacional
R$500K
Economia com correção dos ofensores
30%
Redução no tempo de processamento e consulta
-5
Principais ofensores responsáveis por custo relevante evitável

“Nem todo dado amplia inteligência. Em operações grandes, parte dele só amplia custo, ruído e latência. O trabalho foi devolver critério ao que realmente merece ser coletado.”

Head de Martech e Governança de Dados

Serviços financeiros

Gemini_Generated_Image_t51n0vt51n0vt51n

Escala sem governança cobra caro

A operação pertence a um banco com altíssima volumetria de eventos digitais e múltiplas squads atuando sobre jornadas, canais e implementações de coleta. Em um ambiente assim, a captura de dados precisa ser tratada como infraestrutura crítica, não como atividade distribuída sem coordenação central.

Quando a coleta cresce sem taxonomia, controle de versão e critérios claros de valor de negócio, o dado deixa de funcionar como ativo. Ele passa a consumir orçamento, degradar performance e reduzir a confiabilidade da leitura analítica.

O custo do ruído em escala 

O problema central não era falta de dados. Era excesso de ingestão sem governança.

Com centenas de squads implementando eventos ao longo do tempo, a operação passou a acumular uma massa crescente de coletas fora da taxonomia oficial, com baixa rastreabilidade sobre o que havia sido planejado, alterado ou replicado. Parte significativa desse volume não gerava utilidade prática para o negócio, mas seguia sendo armazenada, processada e consultada como se tivesse valor equivalente ao restante da base.

Esse desenho produzia três efeitos simultâneos. O primeiro era financeiro. O uso de Google Cloud Platform crescia impulsionado por ingestão desnecessária e processamento de dados sem retorno claro. O segundo era analítico. No GA4, excesso de cardinalidade e eventos mal estruturados ampliavam sampling e faziam informações relevantes serem agrupadas em categorias genéricas, reduzindo a capacidade de leitura das áreas de negócio. O terceiro era operacional. Consultas se tornavam mais lentas, o tempo de processamento aumentava e a engenharia gastava mais energia navegando uma base inflada do que operando sobre sinais de valor real.

Na prática, a operação pagava mais caro para enxergar menos. O gargalo não estava em capturar pouco. Estava em capturar demais sem distinção entre informação útil e ruído.

Auditar, comparar, bloquear 

A resposta foi tratar governança da coleta como engenharia de valor.

A MATH estruturou o Event Scanner para comparar, de forma automatizada, duas camadas que raramente se mantêm alinhadas em operações complexas: o mapa de coleta planejado e o dado efetivamente ingerido. Em vez de depender de higienização manual ou revisão pontual por amostragem, o projeto criou uma lógica contínua de auditoria para detectar desvios de taxonomia, excesso de cardinalidade e eventos sem utilidade de negócio.

A primeira frente foi a auditoria automatizada. O sistema passou a confrontar o planejado com o real e identificar discrepâncias de implementação, com foco especial em eventos fora de padrão, parâmetros instáveis e estruturas que ampliavam ruído sem gerar leitura mais inteligente da jornada.

A segunda frente foi a aplicação de IA para catalogação e reconhecimento de padrões. Em jornadas mais complexas, a revisão puramente humana não era suficiente para capturar variações infinitas de parâmetros, especialmente em casos de URLs dinâmicas, nomes variáveis e comportamentos que escapavam das regras mais visíveis. A IA foi usada para ampliar a capacidade de inspeção e encontrar anomalias com mais precisão.

A terceira frente foi preventiva. Em vez de apenas limpar o dado depois da ingestão, a arquitetura evoluiu para uma lógica de bloqueio na origem. Eventos fora da taxonomia passaram a ser identificados antes de se converterem em custo recorrente de armazenamento, processamento e degradação analítica. Isso mudou o papel da governança: de remediação para prevenção.

O projeto também reforçou a atuação centralizada da equipe de martech como guardiã da qualidade da coleta, consolidando ownership sobre a taxonomia e preparando o ecossistema para crescer com menos ruído e mais aderência a futuras camadas de inteligência.

 O ganho não veio de coletar mais. Veio de provar o que não deveria mais ser coletado. 

O que saiu da base, o que voltou para o negócio 

O primeiro resultado foi financeiro. A identificação dos cinco eventos fora de taxonomia com maior volume já permitiu projetar economia anual de R$ 500 mil. Esse dado é relevante porque mostra que parte importante do custo não estava em toda a arquitetura, mas em poucos ofensores recorrentes com alto impacto sobre a infraestrutura.

O segundo resultado foi de performance. Com a eliminação do excesso, a operação reduziu entre 25% e 30% o tempo de processamento e consulta. Isso significa que a mesma infraestrutura passou a entregar resposta mais rápida, com menos latência operacional e menos desperdício de capacidade computacional.

O terceiro resultado foi analítico. Ao remover eventos inúteis e parâmetros que inflavam cardinalidade, o ambiente recuperou precisão. O GA4 deixou de sofrer com o mesmo nível de sampling e com agrupamentos genéricos que escondiam comportamento relevante em categorias como “Others”. A leitura do negócio voltou a operar com mais nitidez.

O quarto resultado foi estrutural. A descoberta de que 60% dos dados ingeridos funcionavam como ruído mudou a lógica da operação. A coleta passou a ser tratada menos como acúmulo e mais como escolha. Isso cria uma base mais sustentável para analytics, martech e futuras integrações com IA.

O valor do projeto não esteve apenas na limpeza do presente. Esteve na criação de uma disciplina operacional capaz de impedir que o excesso continue voltando.

Sua operação sabe distinguir dado valioso de dado caro?