23 Junho 2021

Analítica Moderna com AWS

As tecnologias de computação e banco de dados deram às empresas os meios para armazenar, operacionalizar e analisar dados para obter insights sobre os seus negócios, no entanto, ao custo de um grande investimento em hardware e equipas de TI dedicadas.

À medida que os negócios mudam, os recursos de TI também mudam, e nas instalações isso significa um processo lento e arriscado, exigindo resposta sobre – que infraestrutura devemos arranjar hoje para responder às nossas necessidades de amanhã – e a resposta errada pode levar à falta de recursos, por um lado, ou ao desperdício de investimento em recursos ociosos, por outro.

De pequenas a empresas globais, a AWS fornece as ferramentas para criar ambientes de ajuste personalizados para hospedar a sua plataforma e workload, a fim de responder às exigências do seu negócio, e à medida que mudam, também muda a infraestrutura que os hospeda, garantindo uma plataforma económica e de alta disponibilidade.

A AWS tem muitos serviços que podem ajudar os clientes a processar, armazenar e obter informações a partir dos dados – seguindo-se de uma arquitetura de estrutura para responder às necessidades de análise da maioria dos clientes.

FIG 1. Estrutura de análise modular da AWS

 

Esta arquitetura permite o desenvolvimento de um ecossistema de análise robusto que pode oferecer diferentes níveis de integração de dados, de um Data Lake totalmente robusto a um Datawarehouse de alto desempenho.

Uma camada de controle pode conter os metadados para todo o data lake e definir restrições de nível de célula no acesso a dados para diferentes perfis de utilizador na Camada de Consumo.

 

LIDAR COM O CRESCIMENTO DE DADOS E O AUMENTO DO RISCO DE ERRO HUMANO

Graças à sua abordagem modular, esta estrutura pode ser adaptada para responder aos requisitos de cada caso de uso, como o descrito de seguida.

A Mota-Engil é líder em Portugal com uma posição consolidada nos 25 maiores grupos de construção europeus, com três áreas geográficas distintas – Europa, África e América Latina e com atividades em Engenharia e Construção, Gestão de Resíduos, Energia, Multisserviços, Concessões de Transporte, Mineração e Logística.

Como referência internacional nos setores em que atua, o foco na inovação contínua é evidente e a mesma filosofia estende-se às suas operações internas, visando uma maior automação, confiabilidade e disponibilidade do seu workload analítico. De seguida, apresentamos um exemplo dessa modernização.

Filiais e mercados locais espalhados pelo mundo inteiro nos locais de construção da Mota-Engil enriquecem os conjuntos de dados operacionais usando ficheiros MS Excel, posteriormente mesclados centralmente para análise de dashboards analíticos.

Inicialmente, esta solução oferecia uma maneira rápida e fácil de armazenar e partilhar informações. No entanto, com o passar dos anos, à medida que os dados cresciam, também crescia o esforço manual e o risco de erro humano ao mesclar e manter os dados consolidados.

Cada mercado enviaria mais de 600 conjuntos de dados em colunas que precisariam de ser anexados e transformados, tornando o processo de memória intensivo e, eventualmente, impossível devido às limitações do MS Excel.

Para modernizar este processo, o objetivo seria o de criar um processo escalonável e sem servidor que processasse estes arquivos de Excel, normalizasse os conjuntos de dados e os anexasse aos dados existentes num data lake central. Em última instância, criar visões de negócio sobre o data lake que seriam acessíveis por MS PowerBI e MS Excel.

Usando a estrutura apresentada acima (figura 1), usamos a sua abordagem modular para selecionar, implementar e adaptar os componentes necessários, conforme mostrado a seguir (figura 2).

FIG 2. Componentes da estrutura implementada

 

TRANSFORMAR OS DADOS E AUTOMATIZAR OS PROCESSOS MANUAIS

A equipa anteriormente responsável pelo esforço manual de juntar todos os arquivos existentes do MS Excel agora só tem que simplesmente carregá-los num S3 Bucket.

Isto aciona automaticamente um Amazon Lambda que adicionará uma solicitação à fila de processamento no Amazon SQS, que por sua vez iniciará uma instância do orquestrador na AWS Step Function.

A execução da AWS Step Function (figura 3) orquestra uma sequência de trabalhos AWS Glue que irão limpar e transformar os dados provenientes desse arquivo recém-processado, armazenando-os em camadas superiores do Data Lake de acordo com o seu refinamento de nível e usar o Amazon SNS para notificar os utilizadores do resultado do processo.

FIG 3. Exemplo de fluxo de trabalho de funções AWS STEP

 

ALCANÇAR UMA SOLUÇÃO ESCALÁVEL E MODULAR AO REDUZIR A MANUTENÇÃO HUMANA

As visualizações do Amazon Athena refletem a importância da análise de negócio, onde o data lake é dividido de forma a permitir o mínimo de esforço de transformação sempre que um novo arquivo é carregado, mantendo as visualizações o mais atualizadas possível, sempre.

O PowerBI conecta-se agora com o data lake através do Amazon Athena, tendo acesso aos dados brutos, os dados padronizados e visualizações do negócio.

Esta solução proporcionou à Mota-Engil um processo totalmente sem servidor, orientado para eventos, muito escalável, sem necessidade de manutenção, um modelo de pagamento por utilização sem custos fixos mensais e o mais importante – pela sua abordagem modular – a possibilidade de adições posteriores a este ecossistema no seu trajeto de modernização e inovação.

       Hugo Lopes
Specialist Consultant
Blog