14 Maio 2018

Talend Open Studio para MDM – Instalação e Use Case

1.1. INTRODUÇÃO

A maioria das empresas que trabalham com grandes volumes de dados enfrentam o problema de ter diferentes fontes e tipos de informação para ingerir nos seus sistemas. Uma das principais preocupações está relacionada com dados não estruturados, normalmente disponibilizados em ficheiros por utilizadores de negócios, sistemas relacionais sem regras de gestão de dados adequadas, entre outros. Tratar esses dados mestre com o Excel é quase impraticável. Apesar deste problema também acontecer em modelos de BI tradicional, o foco deste artigo é mostrá-lo do ponto de vista de Big Data, abordando também o Talend Open Studio para MDM. A maior mudança que o MDM traz para o ecossistema Big Data é a possibilidade de integrar os outputs criados pelas tabelas do MDM no HDFS, permitindo excluir e atualizar os registos de maneira simples. A outra grande vantagem é a possibilidade de acompanhar as alterações feitas pelos utilizadores nas tabelas de MDM.

Alguns dos dados mencionados anteriormente são classificados principalmente como dados mestre. Pode-se referir a várias entidades de negócios principais, como Clientes, Fornecedores, Funcionários, Produtos, Ativos, etc.

Os sistemas Master Data Management foram criados para ajudar as empresas a gerir e consolidar o tipo de informação descrito acima. Em geral, eles devem atender a alguns requisitos importantes, como:

• Definição e manutenção de metadados para entidades de dados principais num repositório
• Adquirir, limpar, remover duplicados e integrar dados mestre num armazenamento central de dados
• Oferecer um conjunto comum de serviços de dados mestres compartilhados para aplicativos, processos e portais para invocar o acesso e manter as entidades de dados mestres, ou seja, os serviços de MDM do sistema de entrada (SOE)
• Gerir hierarquias de dados mestre, incluindo um histórico de alterações de hierarquia e versões de hierarquia
• Gerir a sincronização de alterações nos dados mestre para todos os sistemas operacionais e analíticos que usam conjuntos completos ou subconjuntos desses dados

Os sistemas de MDM descritos neste artigo estão a ser cada vez mais adotados pelas empresas de forma a controlar os seus dados mestres e melhorando assim o desempenho dos negócios. Essas empresas percebem que, sem as soluções MDM, as suas informações mestras são mais propensas a ter dados duplicados e fragmentados em vários sistemas operacionais e armazenados em mais de um sistema. Essa situação leva a dificuldades para entender quais dados são a origem da verdade e se / como os dados são sincronizados entre os sistemas.

Importantes fornecedores, como DataFlux, IBM, Talend, Informatica e Sypherlink, apostam neste tipo de ferramenta. Algumas ferramentas disponíveis no mercado hoje em dia são:

• Hyperion MDM
• IBM WebSphere Product Center and Customer Center
• Kalido 8M
• Oracle Customer and PIM data hubs and Sunopsis AIP
• SAP NetWeaver MDM
• Talend Open Studio for MDM / Talend MDM Platform

No restante do artigo, vamos nos concentrar na instalação e apresentar um Use Case real para a organização de dados mestre usando a ferramenta Talend Open Studio MDM e a Talend Web User Interface.

1.2. TALEND OPEN STUDIO PARA MDM (INSTALAÇÃO)

É importante acrescentar que, em relação ao manual de instalação, há muitas informações dispersas que atualmente não são agregadas no mesmo local na Internet, o que torna este manual muito relevante.

A Talend tem duas ferramentas diferentes para MDM:

1) Talend Open Studio for MDM – ferramenta gratuita e opensource desenvolvida pela Talend com muitos recursos interessantes, tais como:

• Design and productivity tools: Ferramentas de desenvolvimento baseadas em Eclipse e designer de tarefas, exportação e execução de tarefas independentes em ambientes de tempo de execução, validações de dados incorporadas e regras de negócios, integração automática de dados com modelos MDM;
• MDM Web Application: Repositório de dados mestre, ambiente MDM totalmente funcional, interface com o utilizador da Web completa para gestão de dados principais, interface com o utilizador orientada por modelo;
• Connectors: Cloud – Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform; RDBMS – Oracle, Teradata, Microsoft SQL Server; SaaS – Marketo, Salesforce, NetSuite; Packaged Apps – SAP, Microsoft Dynamics, Sugar CRM; Technologies – Dropbox, Box, SMTP, FTP/SFTP, LDAP; Web services: SOAP, REST/HTTP;
• Componentes: Controlar e orquestrar fluxos de dados e integração de dados com jobs mestres; correspondência básica e agrupamento de entidade; mapear, agregar, classificar, enriquecer e mesclar dados;

2) Talend Master Data Management Platform – sob um modo de assinatura licenciada. Tem todas as ferramentas disponíveis no Talend Open Studio para MDM e mais algumas:

• Data quality and Governance: perfil de dados e analítica com gráficos e dados de drill-down, automatizar a resolução de erros de qualidade de dados e impor regras, ocultação de dados;
• Data preparation and Stewardship: Importar, exportar e combinar dados do arquivo Excel ou CSV, exportar para o Tableau.
• Master data management: Modelagem visual e importação / exportação de modelos de dados, fluxos de trabalho integrados para administração de dados e governança; Linguagem de consulta do MDM para consumir acesso a dados REST; Pesquisa de texto completo de dados mestres e consultas ad-hoc, Análise de impacto, trilha de auditoria e fiscalização de dependências; Painel de monitoramento de atividades do MDM, gestão de hierarquias múltiplas e recursivas; Segurança baseada em função e integração do Active Directory;
• Advanced Data Profiling: Deteção de padrões de fraude usando Benford Law, análise de conjunto de colunas, análise de correspondência avançada, análise de correlação de colunas de tempo.

Neste artigo, explicaremos a instalação do Talend Open Studio para a versão do MDM e do Talend MDM Server.

A versão mencionada está disponível no site da Talend:

https://www.talend.com/products/mdm/mdm-open-studio/

talend open studio mdm

 

1.1.1. PASSOS PARA INSTALAR TALEND OPEN STUDIO PARA MDM

O download tem dois arquivos. Será necessário descompactar o arquivo ZIP em um local específico no seu PC ou servidor:

talend open studio mdm

 

A versão adquirida é o TOS_MDM_Studio 6.4.1 que nós vamos descompactar na unidade C:

talend open studio mdm

 

1.1.2. PASSOS PARA INSTALAR TALEND MDM SERVER

1) Quando executar o arquivo .exe, será avisado na Plataforma Java, permita acesso (Talend é baseado em Java e necessário para executar o servidor de aplicativos Tomcat):

talend open studio mdm

 

2) Clique em OK para selecionar o idioma de instalação:

talend open studio mdm

 

3) Clique Next para iniciar a instalação Talend MDM Server 6.4.1:

talend open studio mdm

 

4) Clique em Avançar para aceitar os termos do contrato de licença:

talend open studio mdm

 

5) Clique em Avançar depois de ler as informações sobre a licença Java e MIT:

talend open studio mdm

 

6) Selecione os pacotes para instalar:

talend open studio mdm

 

Esta etapa é importante porque aqui decidimos se desejamos instalar o aplicativo Talend MDM e o Apache Tomcat Server. Se já tivermos o Apache Tomcat instalado no nosso servidor / máquina, não precisamos de instalá-lo novamente. Neste caso, desde que instalamos o Talend MDM na nossa máquina local, também instalamos o Apache Tomcat para o MDM Server.

7) Selecione o caminho da instalação para o MDM Server:

talend open studio mdm

 

8) Defina a porta para o serviço do MDM Server:

talend open studio mdm

 

9) Selecione o tipo de base de dados (H2 Embedded é a única opção disponível):

talend open studio mdm

 

10) Defina o nome de utilizador e senha para aceder à base de dados:

talend open studio mdm

 

Exemplo: (password:talend)

11) Defina o diretório de índice do base de dados:

talend open studio mdm

 

12) Conclua a instalação concordando com os pacotes de instalação e o caminho:

talend open studio mdm

 

Importante: para que o MDM Server funcione, precisamos garantir que a variável JAVA_HOME esteja a apontar para o local correto da instalação do Java Runtime Environment, conforme imagem abaixo:

talend open studio mdm

 

talend open studio mdm

 

Essa configuração deve existir no arquivo catalina.bat no caminho da instalação do Tomcat, conforme imagem abaixo:

talend open studio mdm

 

Depois que o servidor iniciar com sucesso, receberá a mensagem de início do servidor como a imagem acima.

TALEND OPEN STUDIO PARA MDM – USE CASE

No Use case a seguir, mostraremos um exemplo da ingestão de uma tabela manual por meio de um arquivo do Excel.

Primeiro, é importante definir os principais termos usados no Talend Open Studio para MDM e na Talend MDM Web User Interface. Vamos concentrar-nos nas mais importantes, que são exploradas abaixo:

1) Data Container: contém dados de uma ou várias entidades de negócios. Os agregadores de dados geralmente são usados para separar domínios de dados principais.
2) Data Model: define os atributos, direitos de acesso do utilizador e relacionamentos de entidades dominadas pelo MDM Hub. O modelo de dados é o componente central do Talend MDM e mapeia para uma única entidade que pode ser explicitamente definida.
a. Entity: descreve os dados reais, a sua fonte, a sua estrutura e os seus relacionamentos. Um modelo de dados pode ter várias entidades.
b. Record: uma instância de dados definida por um modelo de dados no MDM Hub. Por exemplo, dois registos considerados semelhantes ou uma correspondência próxima podem ser agrupados.

3) View: uma visão completa ou subconjunto de um registo. Uma visão completa mostra todos os elementos ou colunas em uma entidade, enquanto uma visão de subconjunto mostra alguns dos elementos ou colunas de uma entidade. Uma visualização pode restringir o acesso aos atributos de um registo, dependendo de quem ou o que está a solicitar os dados.

Para este Use Case, nós definimos um Data Model, Data Container e uma View com o nome da tabela de ingestão jde812_m_route_code.

1)  Data Container

 

talend open studio mdm

 

2)  Data Model

talend open studio mdm

 

Dentro do Data Model nós definimos uma Entity chamada jde812_m_route_code com vários Business Elementos para serem alinhados com os dados ingeridos por um ficheiro de Excel, que incluem:

a) jde812_m_route_code_id (key)
b) cod_source_type
c) load_dttm
d) update_dttm
e) load_user
f) update_user
g) cod_load_type
h) cod_sector
i) cod_distribution
j) cod_route
k) cod_urgent_type
l) cod_entry_cut_off
m) cod_ship_cut_off
n) cod_delivery_cut_off
o) cod_delivery_cut_off_days
p) data_effective
q) data_end

3)  View

talend open studio mdm

Como mencionado anteriormente, quando definimos uma visão, podemos selecionar quais os Elementos de Negócio que estarão visíveis na Interface de Utilizador da Web do Talend MDM. Para este Use Case, mantivemos todos os objetos de negócios visíveis.

FAZER DEPLOY DE OBJETOS PARA MDM SERVER

Após a criação dos objetos no Studio, precisamos implementá-los no Talend MDM Server. Seguem abaixo as etapas necessárias para publicar objetos de estúdio no servidor MDM.

1) Configure a conexão do Studio para o servidor:

talend open studio mdm

 

Isso é feito na tab Server Explorer existente na parte inferior da interface do Studio.

2) Publicar os objetos no Talend MDM Server:

talend open studio mdm

 

 

 

TALEND MDM WEB USER INTERFACE

Depois de publicarmos os objetos criados no Talend Studio, podemos importar o modelo na Interface de Utilizador do Talend MDM.

Primeiro, nós acedemos à interface do Utilizador da web:

talend open studio mdm

 

As três visualizações mais importantes na interface do utilizador da Web são:

1) Welcome: esta é a página padrão quando entramos na interface do utilizador da web

talend open studio mdm

 

Importante: no lado direito dessa visualização, já podemos ver o Data Container e o Data Model enviados para o servidor.

2) Master Data Browser: Nesta visão, podemos ver, excluir e atualizar todos os registos que pertencem a cada Entidade. Também podemos importar e exportar registos para a visão selecionada (explicada abaixo).

talend open studio mdm

Nota 1 – A imagem acima está mascarada visto que é baseada em dados reais

IMPORTAR UM FICHEIRO EXCEL PARA O TALEND MDM WEB USER INTERFACE

O processo para importar um ficheiro Excel, após a criação dos objetos no Talend Studio, é muito simples, conforme é descrito abaixo:

a) Em Master Data Browser, escolher Import

talend open studio mdm

b) Escolher o ficheiro para importar:

talend open studio mdm

 

c) Clicar em Submit depois de escolher o ficheiro:

talend open studio mdm

 

Mensagem de sucesso é apresentada.

talend open studio mdm

 

Os dados estão agora disponíveis na interface do utilizador da Web e os utilizadores finais podem criar novos registos, atualizar ou excluir os existentes:

talend open studio mdm

Nota 2 – A imagem acima está mascarada visto que é baseada em dados reais

3) Journal: Nesta visualização, podemos acompanhar todas as alterações aplicadas a um modelo de dados e / ou entidade específico, filtradas por data, tipo de operação, fonte ou chave:

talend open studio mdm

Nota 3 – A imagem acima está mascarada visto que é baseada em dados reais

POTENCIALIDADES / VANTAGENS USANDO O TALEND MDM

Os dados mestre são um dos vários pilares em que as empresas se posicionam para alcançar o sucesso. A exploração de ferramentas que lhes dão mais controle sobre os seus dados é, ou deveria ser, uma das prioridades de cada empresa. Com a experiência adquirida a trabalhar num projeto com uma das maiores empresas farmacêuticas do mundo, é que, quanto melhor controlamos os dados e as suas fontes, mais facilmente obtemos melhores informações sobre os dados fornecidos. O Talend MDM é uma ferramenta disponível no mercado que fornece esse tipo de controlo, de várias maneiras, como:

1) Segurança: ter os dados centralizados com as ferramentas do Talend MDM, permite-nos ter um repositório central com dados controlados;
2) Change logs: Talend MDM Web User Interface tem um journal que guarda todas as alterações efetuadas nos dados;
3) Manutenção: Talend MDM Web User Interface permite manter dados - criar, atualizar e excluir - diretamente na interface web, sendo um ambiente mais controlado para aplicar alterações de dados;
4) Import/Export: Talend MDM Web User Interface possui vários conectores permitindo a importação e exportação de informações com múltiplas aplicações.

talend open studio mdm

 

 

 

 

talend open studio mdm