O que é Dark Data?

folder_openBig Data (BR)
access_time

3 min

Update 2020: atualizações de leis, tecnologias e melhorias para legibilidade

Dark Data é um tipo de informação que muitas empresas tem coletado e gasto muito dinheiro processando e armazenando, mas sem necessariamente fazer uso das mesmas para análises e insights.

Estima-se que 90% dos dados pelas empresas se tornam Dark Data.

A maioria das empresas tenta acumular todas as informações transacionais possíveis de um cliente e concentram suas análises nesses dados, tais como:

  • Históricos de compras
  • Endereços fornecidos
  • Números de cartão de crédito

Mas muitos outros dados são coletados nesse processo, seja para cumprir legislação ou requisitos técnicos.

Os dados considerados como Dark Data são um subproduto na aquisição dos dados transacionais, muitas vezes armazenados, mas poucas vezes considerados na solução de problemas e detecção de padrões.

Alguns exemplos de Dark Data:

  • O horário em que determinado cliente acessa o site
  • Se o dispositivo é mobile ou desktop
  • Se a conexão é 3G, 4G, 5G ou Wifi
  • A localização física de onde o cliente fez o pedido (em qual loja)
  • IP, Navegador, Sistema Operacional (para acessos feitos online)
  • Número do Caixa (em caso de uma loja física), se é caixa preferencial, caixa rápido, ou self-service
  • Dados de clientes mas que não fazem parte da identificação geral do cliente, são exemplos: endereço de cobrança (principalmente se for diferente do endereço de entrega), e-mail secundário
  • Dados de compras já entregues, como o rastreamento, tentativas de entrega
  • Dados secundários dos pedidos, como cupons, descontos e comprovantes do pagamento
  • Arquivos de logs dos servidores
  • Extratos de contas correntes
  • Dados de ex-empregados
  • Declarações financeiras
  • Dados brutos de pesquisas (respostas)
  • E-mails antigos
  • Anotações ou apresentações
  • Versões anteriores de documentos relevantes

São dados armazenados muitas vezes para comprovar que uma determinada ação ocorreu, mas que se tornam obsoletos muito rapidamente do ponto de vista operacional da empresa.

Enfim, a geração desse tipo de informação não tem fim.

Quais os perigos?

Muitas vezes algumas dessas informações são sensíveis e devem ser protegidas contra violação, vazamento e perda como outras informações, isso implica em altos custos para manter esses dados nem sempre relevantes.

Em tempos de LGPD e GDPR, muitos desses dados precisam de tratamento, devem ser identificados e protegidos de forma adequada.

Também tem a tendência de se acumularem muito rapidamente e com isso aumentar os custos de processamento, armazenamento e backup dessas informações, afetando a performance em sistemas críticos de maior relevância mesmo que esses dados não sejam utilizados no dia a dia.

Quais as oportunidades?

Com esse tipo de informação muitas questões do negócio podem ser respondidas, por exemplo:

  • Existem clientes que compram em nossas lojas físicas em diferentes localidades? Podemos identificar se um cliente é fiel à nossa marca quando ele viaja à praia e ainda compra em nossas lojas.
  • Eles compram os mesmos produtos nessas lojas?
  • Existe um horário ou dia da semana em que determinado cliente costuma comprar? Poderíamos criar campanhas específicas para o dia em que ele visita a loja ou até genericamente, criar descontos para determinados produtos em determinados dias da semana onde eles vendem menos.
  • Existe um horário que um determinado cliente lê nossos e-mails promocionais? Isso coincide com a compra? Será que se aproximarmos o horário que enviamos o e-mail com o horário que ele normalmente compra, ele passará a comprar mais?
  • Nossos servidores de e-commerce tem entregado todas páginas com alta performance? A taxa de fechamento das vendas está relacionado com a performance das páginas? Existe alguma região do país onde a conversão é baixa? Compensa colocar um servidor mais próximo desses clientes (contratar um CDN) para melhor atendê-los?
  • Existem clientes de uma determinada região que tem demandado mais serviços que os demais? Nessa região existe algum fator crítico de infraestrutura que nos impede de atender bem o cliente? É possível reverter isso?

Caso real

Um exemplo prático ocorreu com a Gate Gourmet, uma empresa que presta serviços de alimentação para companhias aéreas na Suíça.

A Gate Gourmet tinha uma baixa taxa de satisfação entre os funcionários.

Depois de analisar dados demográficos entre os funcionários que haviam saído da empresa (uso de Dark Data), descobriram que boa parte da insatisfação poderia estar relacionada com a distância de moradia dos funcionários dos aeroportos e os meios de transportes disponíveis.

A Gate Gourmet mudou seu processo de contratação depois disso, passando a levar em conta esse tipo de informação e viu seus índices melhorarem significativamente.

E para sua empresa?

Claro que ninguém vai começar a levantar novas questões e descobrir novas constatações do nada, é preciso iniciar um processo de análise de dados, gestão à vista e descoberta de dados com uma ferramenta de Business Inteligence, com suporte a Data Analytics e Data Discovery.

Talvez os primeiros passos sejam confusos, inseguros e tortuosos, mas a prática leva a perfeição, então o primeiro passo é começar.

Para mais ideias, leia também esse artigo da IDG Connect: What awaits discovery within ‘dark data’? (em inglês)

Referência do case: IDG Connect (em inglês)

Related Posts

Menu