3 Julho 2019

Power BI Dataflows

O que é?

À medida que o volume de dados vai aumentando, aumenta também a dificuldade de fazer com que os mesmos se mantenham bem estruturados durante todo o processo de ETL. Todo este processo é crítico para que os dados estejam na melhor condição possível a fim de serem consultados, analisados e reportados. Existem vários processos onde pode haver perda de compatibilidade entre dados, aumento de custos com novas fontes de dados, aumento de custos a corrigir conexões de dados, entre outros problemas.

Como resposta a todos estes problemas é-nos apresentado o Dataflows, ferramenta de preparação de dados incluída no Microsoft Power BI que permite mitigar grande parte dos problemas com fontes de dados diversas, como iremos mostrar no próximo ponto.

 

Para que serve?

O Dataflows permite às organizações a ingestão de dados de fontes díspares, tornando todo o processo de modelação mais fácil através de orquestração automática das transformações. Dado o seu poder, além de usada para o processo de ETL, esta ferramenta é também usada para self-service data warehousing, automação dos horários de atualização, ingestão de dados das mais variadas fontes cloud-based, tais como, Dynamics 365, Salesforce, Azure SQL Database, Excel, SharePoint, bem como de fontes de dados on-premises, usando Gateways para importar os dados e manter compatibilidade com tecnologias mais antigas, como por exemplo cubos SSAS.

Todo o processo de modelação é facilitado através do Power Query UI, contudo, M é a linguagem de programação que está implícita na definição de todas as entidades. Na prática, uma entidade é uma tabela com uma fórmula associada e o dataflow é o que leva essa tabela da fonte ao ADLS (Gen2) depois de uma série de processos de orquestração; caso se trate de uma subscrição Premium, as entidades podem também relacionar-se no mesmo workspace ou entre workspaces.

Contudo, a  grande vantagem de usar Dataflows reside no facto de haver uma única fonte de dados organizacional onde se podem preparar os dados e mais tarde reutiliza-los em diferentes apps da organização. Quando se ligam entidades entre dataflows, é também possível reutilizar entidades que foram já ingeridas, limpas e transformadas por outros dataflows sem a necessidade de manter os dados, tornando mais eficiente a gestão dos recursos e evitando a duplicação de dados.

 

Power BI Pro Vs. Premium?

Além de todas a funcionalidades disponíveis no Power BI Pro, o Power BI Premium dispõe também de: atualização incremental, o que torna muito mais eficiente o processo de ETL, especialmente para grandes volumes de dados não tendo de carregar todos os dados de novo, apenas as diferenças; entidades computadas, reduzindo assim toda a carga de orquestrar múltiplos processos de preparação de dados, ou seja, estas entidades referenciam uma outra entidade dentro de outro dataflow do Power BI, fazendo com que seja possível estabelecer relações entre dataflows. Além de todas das funcionalidades acima descritas estão também no quadro em baixo comparadas lado a lado as modalidades de Power BI disponíveis.

 

Capacidades Pro Premium
Conectividade Todos os conectores para todas  as fontes Todos os conectores para todas  as fontes
Armazenamento

10GB por utilizador

100TB para P1 ou nós maiores
Ingestão de dados Ingestão em série de entidades, atualizando mais lentamente os dados Ingestão paralela de entidades
Atualização Incremental Não disponível Disponível
Referências para entidades no mesmo Workspace Não disponível

 

Disponível, permitindo a criação de complexos processos de preparação usando múltiplos dataflows.
Referências para entidades entre Workspaces

 

Não disponível Disponível, permitindo consistência total entre os dados
Motor de Cálculo Não disponível, uma vez que as entidades não conseguem referenciar outras entidades, entidades computadas não podem ser criadas Disponível, permitindo entidades computadas para projectos de preparação de dados complexos com múltiplos passos de limpeza e enriquecimento

 

Devido à ingestão de dados paralela, uma capacidade de armazenamento superior no ADLS (Gen2), o uso de linked e computed entities, o Power BI Premium acaba por tornar-se muito melhor opção para uso corporativo. Caso o volume de dados não justifique, o Power BI Pro é a solução mais em conta para tratar de todo o processo ETL, uma vez que a capacidade de armazenamento é menor e feita por utilizador, mantendo todos conectores para as fontes de dados e uma taxa de atualização suficiente para volumetrias de dados mais pequenas.

 

Requisitos
  • Conta Microsoft Power BI Pro ou Power BI Premium.

 

    Paulo Alpoim BI4ALL
        João Feneja         
Associate Consultant