Data Matching: o que é e porque você precisa saber mais sobre isso

18 de novembro de 2022

10 minutos de leitura

Pertencente à área da Tecnologia da Informação, o conceito de Data Matching já foi conhecido por diversos nomes: interconexão de dados, resolução da entidade, field matching, entre outros. Em resumo, trata-se da rotina criada para identificar, combinar e unificar registros de dados que correspondem a uma mesma entidade, nas quais podem estar presentes em uma ou diversas bases de dados diferentes.

Com base em pesquisas de vários domínios — incluindo estatística aplicada, mineração de dados, aprendizado de máquina, inteligência artificial, gerenciamento do banco de dados e bibliotecas digitais —, avanços significativos foram alcançados na última década em todos os aspectos do processo de correspondência dos dados, especialmente em como melhorar a precisão da correspondência dos dados e sua escalabilidade para bancos de dados de grande porte.

À medida em que avançamos na revolução provocada pelo nível sem precedentes de dados os quais temos acesso hoje, sobre virtualmente tudo e todos, aumenta a pressão para que saibamos cada vez mais sobre nossos mercados, tecnologias, processos, impactos e, também, sobre nós mesmos enquanto negócio e organização empresarial.

Nesse sentido, o data matching ganha importância renovada quase que diariamente, e empresas que não investem em inteligência de negócios em nível avançado podem rapidamente perder competitividade.

No artigo de hoje, falaremos sobre os principais aspectos envolvidos no data matching, sua importância e indispensabilidade nos dias atuais e no futuro. Para saber mais sobre o assunto, continue com a gente.

Data matching no ambiente corporativo

Esse era o desafio da Esfinge de Tebas. Ela eliminava aqueles que se mostrassem incapazes de responder a um enigma: “Que criatura tem quatro pés de manhã, dois ao meio-dia e três à tarde?”. Todos os que ensaiaram a resposta haviam sido estrangulados. Édipo acertou: “É o ser humano! Engatinha quando bebê, anda sobre dois pés quando adulto e recorre a uma bengala na velhice”.

Ao olhar para o atual ambiente de negócios, é fácil traçar seu paralelo com a fábula grega. O fato é que, atualmente, as organizações empresariais que não investem em big data, na sua apuração e contextualização entre diferentes fontes de dados, estão diariamente caminhando para a obsolescência. Ou seja: ou deciframos dados, contextualizamos e traçamos estratégias a partir disso, ou estamos fadados à perda do protagonismo e da relevância.

A correspondência de dados pode ser feita para descartar um conteúdo duplicado ou para vários tipos de mineração de dados. Muitos esforços de correspondência dos dados são feitos com o objetivo de identificar um link chave entre dois conjuntos de dados tanto para marketing e segurança, quanto para outros usos aplicados.

Em geral, a correspondência dos dados permite que os detentores de uma grande quantidade de dados realizem pesquisas mais precisas, que, por sua vez, produzem resultados significativamente mais eficientes. Alguns argumentam que a capacidade de correspondência dos dados pode ser usada de maneira que constitua uma ameaça à privacidade pessoal, especialmente quando o uso de diversos conjuntos de dados não for explícito ou transparente.

A correspondência dos dados pode ser uma das questões que são adicionadas ao debate geral em andamento sobre a privacidade pessoal em uma época na qual muito mais dados estão sendo coletados sobre o cidadão médio em vários setores e locais diferentes.

No meio corporativo, entretanto, a lógica é inexpugnável: quem detém dados mais bem curados, contextualizados e, por conseguinte, melhor empregados, sempre terá um importante diferencial competitivo em mãos.

Data matching na prática

Conforme citamos anteriormente, Data Matching é a tarefa de localizar registros que se referem à mesma entidade. Essa busca pode representar acesso a fontes de dados com diferentes naturezas e tipos. Ou pode, igualmente, representar a própria necessidade de interconexão e contextualização de dados estratégicos que são produzidos dentro de uma mesma corporação, por diferentes unidades de negócios, departamentos ou sistemas de gestão isolados.

Esses registros podem, portanto, advir de vários conjuntos de dados. Conseguem, ainda, não possuir identificadores de entidade comuns. Nesses casos, as técnicas de correspondência dos dados também podem ser usadas para detectar registros duplicados em um único banco de dados.

Identificar e corresponder registros em vários conjuntos de dados é uma tarefa por si só muito desafiadora, por diversos motivos. Em primeiro lugar, os registros não necessariamente possuem atributos que facilitem a identificação daqueles que se referem à mesma entidade — na realidade, geralmente é isto o que acontece de forma geral. Por esse motivo, é necessário analisar atributos que forneçam identificação parcial, como nomes e datas de nascimento, para pessoas, ou título e marcas, no que tange a produtos.

Outro fator que adiciona complexidade à questão, é que os dados podem mudar ao longo do tempo. Por exemplo, se dois bancos de dados com informações de pessoas estão sendo comparados, não é raro encontrar casos na qual uma mesma pessoa tenha endereços diferentes — já que as pessoas ocasionalmente se mudam — ou mesmo nomes diferentes, como nos casos de casamento ou divórcio.

Deste modo, os algoritmos de correspondência dos dados são muito sensíveis à qualidade dos mesmos, o que torna necessário pré-processar os dados que estão sendo vinculados para garantir um padrão mínimo de qualidade, pelo menos no que tange os atributos do identificador-chave.

Data matching: uma tarefa de alta complexidade

Nesse sentido, a resolução da entidade atua de forma a relacionar e contextualizar dados, tornando possível identificar e atestar a pertinência de cada registro, individualmente, como parte de um conjunto de dados que possui valor estratégico em conjunto. Ou seja, o princípio da resolução de entidade permite unir vários pontos de dados diferentes, de fontes externas e internas, os resolvendo em uma entidade única e exclusiva.

Não é fácil abordar o problema com um algoritmo de aprendizado supervisionado, como seria possível em muitas aplicações de machine learning. Os problemas de correspondência dos dados, geralmente, não têm dados de treinamento disponíveis — ou seja, um conjunto de dados com correspondências que sabemos serem válidas nos bancos de dados analisados.

Ainda, os bancos de dados sujeitos à análise de correspondência dos dados em geral são extensos, ou seja, de grande porte. E, para localizarmos todas as correspondências possíveis, cada registro de um banco de dados deve ser comparado a todos os outros registros do outro. Tarefas como essa podem ser extremamente caras de serem executadas computacionalmente e difíceis de serem realizadas em tempo viável.

Para lidar com essa situação e tornar a correspondência de dados escalável, diferentes técnicas de indexação podem ser aplicadas, como forma de reduzir o número de pares dos registros que serão comparados. Nem sempre é fácil, contudo, projetar um índice que remova a maioria das não correspondências e que, ao mesmo tempo, não afete a qualidade dos pares correspondentes.

Tecnologia e técnica apuradas: a receita para o sucesso

Para cumprir sua missão, as rotinas de Data Matching se propõem a analisar se duas entidades são semelhantes. Há muitas maneiras na qual esta tarefa pode ser executada. A forma mais comum é baseada em um algoritmo ou loop programado, onde cada conjunto de dados é comparado com cada parte do outro conjunto de dados.

Existe uma abordagem de correspondência de dados determinística e probabilística. Quando o algoritmo compara uma parte de dados com outra parte única de dados, e reconhece que são o mesmo item, isso é determinístico. Se um algoritmo mais sofisticado corresponder aos dados comparando variáveis mais complexas, como sequências de informações semelhantes, isso é probabilístico.

Em uma abordagem determinística, as correspondências são detectadas como correspondências exatas; um registro tem as mesmas semelhanças. Os algoritmos usam padrões e regras para concluir que os registros são correspondentes.

A correspondência probabilística identifica a probabilidade de correspondências com base em um limite de pontuação. Digamos que três partes de um recorde correspondem. Isso é suficiente para garantir que sejam o mesmo registro? J Silva é o mesmo que João da Silva? E se fosse J A Silva; é o mesmo registro de João Alberto da Silva?

Outro exemplo é quando os dados são organizados em blocos de tamanho semelhante, preservando o mesmo atributo. Estes devem ser atributos que provavelmente não serão alterados, como nomes, datas de nascimento, cor ou forma. Em seguida, a correspondência pode ocorrer.

Por exemplo, as palavras podem ser combinadas foneticamente ou por letra. Posteriormente, o peso relativo de cada atributo é calculado para medir sua importância. Então, a probabilidade de correspondência pode ser calculada. Finalmente, o algoritmo ajusta o peso relativo para cada ponto a fim de obter o peso total da correspondência. Isso leva ao resultado: a correspondência probabilística para duas coisas relacionadas.

Data Matching e a controladoria contemporânea

Quando analisamos todos os aspectos relacionados à análise de dados e ao data matching enquanto ferramenta de contextualização e refinamento de dados, é natural trazermos o conceito para o dia-a-dia de uma das áreas que mais dependem da correlação e do registro de dados para que suas entregas sejam efetivas: a controladoria.

Indo além, e focando em seu pilar mais tradicional que é a contabilidade, percebemos que o data matching sempre esteve presente, mesmo que sem a sua roupagem contemporânea. Afinal de contas, o que é a conciliação bancária que não um data matching direcionado e ultimamente efetivo?

Como ciência, a contabilidade sempre vive o paradoxo de se buscar o novo para continuar realizando sua missão atemporal de contar, controlar e, com isso, produzir dados estratégicos. Como parte intrínseca do espírito de nosso tempo e do ambiente de negócios atual, dinâmico e rigoroso com a falha, a contabilidade só tem a ganhar com a aplicação das mais eficientes técnicas e tecnologias de data matching em suas ações.

Escrito por Vanessa Ongaratto

Vanessa Ongaratto é formada em Ciências Contábeis e Tecnologia da Informação e Negócios. Com experiência em contabilidade e controladoria, atualmente atua como Analista de Negócios Sênior na Dattos S.A., focada em entender os negócios dos clientes, configurar a plataforma e treinar usuários, sempre buscando aprimoramento no processo de transformação digital das áreas financeiras.

Publicações relacionadas

Governança

Como construir um banco de dados do zero?

20 de fevereiro de 2025

15 minutos de leitura

Governança

Como iniciar uma cultura de dados na sua equipe financeira

19 de setembro de 2024

19 minutos de leitura

Governança

ISO 27001: certificação de segurança da informação, o que é?

29 de março de 2024

13 minutos de leitura

Receba nossas atualizações direto no seu e-mail