28 Fevereiro 2018

Utilizar processos de Data Quality para eliminar problemas nos sistemas fonte

1.1. O QUE É O DATA QUALITY?

Os dados são relevantes para uma organização se representarem a realidade e se estiverem enquadrados num contexto de negócio. Desta forma, é importante que os departamentos de Tecnologias de Informação se preocupem com a qualidade dos dados. Uma empresa pode avaliar os seus dados tanto a nível de representatividade, como de processos. Podemos decidir que um determinado registo não representa a realidade, aferir a sua qualidade a nível ortográfico/formatação ou até quantidade de dados (registos em falta ou duplicados).

1.2. PROBLEMAS QUE ORIGINAM A NECESSIDADE DE QUALIDADE DOS DADOS – O QUE SÃO DADOS DE QUALIDADE? QUAIS SÃO E COMO TÊM ORIGEM OS PROBLEMAS MAIS COMUNS?

Os dados de alta qualidade representam a realidade, estando devidamente limpos. Esses dados não têm registos duplicados, estão formatados e acrescentam valor no contexto de negócio em que se enquadram.

Atualmente, as empresas têm à sua disposição cada vez mais dados. Os clientes inserem dados em múltiplos sistemas operacionais/CRM com base em ficheiros com problemas de dados, sem qualquer cuidado nem preparação, originando inconsistências na informação, duplicações e falta de qualidade.

1.3. COMO SE ENCAIXA E O QUE FAZ O DATA QUALITY? COMO PODEMOS OBTER DADOS DE ALTA QUALIDADE? O QUE DEVEMOS FAZER?

Tanto as organizações que detém o negócio como as empresas fornecedoras de dados passam por problemas relacionados com a qualidade dos dados. O conceito não se prende com o armazenamento de dados possivelmente incorretos, mas sim fornecer soluções para limpar os dados, ou seja, implementar processos que facilitem a correta formatação de dados e que acrescentem qualidade aos dados.

Os processos de data quality podem ter como finalidade fornecer dados formatados a sistemas analíticos ou a outros sistemas. Por exemplo, a organização pode pretender formatar os dados fornecidos por um ficheiro fonte respeitante a encomendas e corrigir a informação antes da respetiva distribuição de carga. Outro cenário pode ser a organização pretender preparar os dados antes de carregar o respetivo sistema analítico, para obter análises mais precisas e confiantes.

Nos casos em que a infraestrutura atual já contempla uma política de dados, sempre que for adicionado um novo sistema, esta política deve ser adaptada passando a considerar as alterações, uma vez que os sistemas comunicam entre si e os erros propagam-se.

Não basta aplicar processos de correção de dados uma única vez, esta tarefa é contínua e deverá ser sempre tida em consideração em todos os processos de entrada ou transformação de dados na organização.

No mercado, existem muitas aplicações de diferentes fornecedores que facilitam estas tarefas, tal como Alteryx, Data Watch e Talend Data Preparation. Estas ferramentas vêm complementar as tarefas de transformação de dados com análises abrangentes, pesquisas de padrões e métodos de avaliação de qualidade de dados.

                                          Figura 1 - Processo de data quality

1.4. COMO COMPLEMENTAR? O DATA QUALITY PODE SER COMPLEMENTADO POR OUTRAS COMPETÊNCIAS DO TRATAMENTO DE INFORMAÇÃO?

O Data Quality pode estar relacionado com outras competências do tratamento de informação, visto que está relacionado com a preparação dos dados para ajudar na tomada de decisão, não impedindo a realização de outro tipo de transformações ou processamento de dados. O processo poderá ser definido conforme a necessidade do negócio.

> Master Data Management

Quando se fala em Data Quality, surge muitas vezes a necessidade de incluir também competências de validação de dados e para isso devemos recorrer a soluções de master data management (MDM).

As ferramentas de Data Quality são muito poderosas no que toca a alterações de dados quando existem movimentações e as ferramentas de MDM satisfazem problemas de consistência e sincronização.

Outra grande diferença é a capacidade do MDM em manter e mudar as hierarquias. Deve-se contemplar dependência do MDM com o negócio, por forma a enriquecer o processo e ajudar na tomada de decisão (papel do data steward).

                Figura 2 - Exemplo de um processo de preparação dos dados incluindo Data Quality e MDM

Como podemos ver no exemplo apresentado (figura 2), depois da limpeza dos dados através da implementação das regras de qualidade dos dados, podemos incluir no processo as ferramentas de MDM com o objetivo de averiguar a veracidade dos registos, mantendo um conjunto de dados físicos que é alimentado pelos sistemas envolventes e que permite as respetivas atualizações.

> Big Data

Atualmente, fala-se muito de Big Data e por isso averiguámos a possível utilização de ferramentas de Data Quality nesses ambientes. Consideramos que estas ferramentas são passíveis de implementar quando se trabalha com grandes volumes de dados e diferentes fontes, no entanto constata-se que têm que ser tidas algumas considerações, já que esta estrutura vem exigir uma gestão de grandes dimensões de qualidade de dados, características de qualidade e índices de qualidade.

No entanto, é possível construir um processo de avaliação dinâmico para o controlo da qualidade dos dados deste tipo de arquitetura de dados. Com a diversidade de fontes (sistemas de origem), os utilizadores não são necessariamente produtores de dados, o que dificulta a medição da sua qualidade, pelo que é sugerido que em ambientes deste género seja seguido um padrão hierárquico de qualidade de dados a partir da perspetiva dos utilizadores, tornando-os o principal ponto de controlo de qualidade da informação, envolvendo-os no tratamento e implementação deste tipo de processos.

          Figura 3 - Exemplo de um padrão hierárquico de qualidade de dados a partir da perspetiva dos utilizadores

1.5. CONCLUSÃO: O QUE PERMITEM OS DADOS BEM QUALITADOS? QUAIS SÃO AS VANTAGENS EM APOSTAR NO DATA QUALITY?

Quando os dados são de alta qualidade, podem ser facilmente processados e analisados, levando a insights que ajudam a organização. Os dados de alta qualidade são essenciais para os esforços de inteligência de negócios e outros tipos de análise de dados, bem como uma melhor eficiência operacional.

Desta forma, e para garantir a qualidade da sua informação, uma empresa deve construir os seus próprios processos de Data Quality, de forma a obter análises mais precisas que facilitem o processo de tomada de decisão.

É fundamental que a qualidade dos dados tenha em conta o conhecimento de negócio da organização, implementando dentro dos vários departamentos de uma empresa uma visão única do negócio/cliente e processos de tratamento de dados que respondam às necessidades específicas do departamento e da visão geral do negócio. Por exemplo, quando um departamento de Marketing estuda a criação de uma campanha para um determinado produto com base nas estatísticas de vendas dos produtos existentes, o departamento de Vendas/Apoio ao Cliente pode contribuir com análises sobre as características e clusters de clientes da empresa, enriquecendo a informação já disponível com a sua visão do negócio/cliente.

A informação torna-se, portanto, cada vez mais importante dentro do negócio e das organizações, pelo que é essencial que os dados tenham a melhor qualidade possível, refletindo a realidade de forma mais fidedigna, podendo assim imputar máximo valor no processo de tomada de decisão.