26 Setembro 2017

O que é o Big Data?

Quando se começou a falar sobre Big Data, era um termo tecnológico moderno que se pensava que seria falado por apenas algum tempo, até que o próximo grande sucesso tecnológico surgisse. Não foi o caso e neste momento muitas das buzzwords tecnológicas têm o Big Data como força motriz.

 

Desde a criação dos primeiros computadores nos anos 40, até à primeira release do Hadoop, passaram 60 anos. Neste período definiu-se o que é o Business Intelligence, surgiu o primeiro computador pessoal, apareceu o Lotus 1-2-3, seguido pelo Excel onde as pessoas passaram a conseguir fazer de uma melhor forma as suas análises e passaram a ser capazes de recolher os seus dados. Logo depois, nos anos 90, surgem os Dashboards e a Analítica Avançada, onde através de ferramentas de BI passou-se a ter um acesso fácil e apresentável à informação.

Depois surgiu a Internet e mudou tudo.

Aumentou o número de computadores e de utilizadores da internet e foram criadas tecnologias capazes de capturar informações do mundo real e físico em que vivemos e convertê-lo em dados digitais (IoT). Passou-se a gerar grandes volumes de informação nunca antes vistos, a título de exemplo dos 16 milhões de utilizadores de internet em 1995, passámos para 3.8 biliões em 2017. Estamos constantemente a gerar dados, seja quando, transportamos os nossos smartphones equipados com GPS, quando comunicamos com os nossos amigos através de redes sociais ou quando fazemos compras. Cada vez mais deixamos um rasto digital em tudo o que fazemos. Máquinas e fábricas por todo o mundo estão cada vez mais equipadas com sensores que reúnem e transmitem dados. Um motor de um avião numa viagem de Londres para Singapura, pode gerar até 1PB de dados de sensores e um avião normalmente tem 4 motores.

Atualmente vivemos numa "Era" em que, a cada ano e meio, são gerados a mesma quantidade de dados já criados pela humanidade em todos os tempos.

O Big Data é uma referência à enorme quantidade (Big) de dados (Data) e a um conjunto de tecnologias que está a evoluir e que permitem aceder à informação de uma forma que antes não era possível.

O que pode fazer o Big Data?

As vertentes de aplicação de Big Data vão muito além da experiência com o Cliente, é possível, por exemplo reduzir custos, otimizar processos, prever necessidade de manutenções ou aumentar a segurança na infraestrutura de TI.

Ter acesso a informação chave, como as tendências de mercado, antes da concorrência, pode significar toda a diferença entre o sucesso e a falência no universo corporativo. E é aqui que entra o segredo do sucesso no trabalho com Big Data.

Segundo um estudo recente da IDC, o mercado de Big Data deve crescer 600% a mais que as TI até 2018.

Cada vez mais dados são gerados na forma de imagens e vídeos, desde imagens de satélite até fotografias carregadas no Facebook ou no Twitter, bem como em comunicações por e-mail, mensagens instantâneas e chamadas telefónicas gravadas. Esta forma não estruturada pode ser facilmente colocada em tabelas estruturadas com linhas e colunas, mas continua a ser necessário entender estes dados, por isso, alguns projetos de Big Data geralmente usam análises de ponta envolvendo inteligência artificial e machine learning, para reconhecimento de imagem ou do processamento de linguagem natural, por exemplo – para aprender a detetar padrões de forma muito mais rápida e confiável do que os humanos. Diversas tecnologias foram desenvolvidas e muitas outras estão em desenvolvimento, é um processo constante de evolução tecnológica para conseguir lidar com a necessidade crescente de interpretação dos dados existentes.

Como referência, o Grupo Pão de Açúcar, passou a utilizar, em 2015, ferramentas de análise de dados para fidelizar os seus Clientes. O sistema identifica antigos Clientes que deixaram de frequentar as suas lojas e em seguida, realiza uma análise das preferências de cada um deles. Esta descoberta permite à empresa direcionar campanhas personalizadas, oferecendo promoções especiais e distintas a cada Cliente e, assim, incentivar o consumidor a regressar às suas lojas.

Cada ação de Marketing deve ser acompanhada por ferramentas de monitorização das redes sociais, porque se uma campanha não provoca o efeito esperado ou, pior que isso, gera um feedback negativo, essa falha deve ser detetada rapidamente, a fim de que a empresa tome as medidas corretivas.

Monitorizar os comportamentos de uma população em redes sociais – em consonância com a agregação de dados de pesquisas de campo e análises estatísticas, pode por exemplo ajudar a antecipar a possibilidade de eclosão de uma epidemia, dando tempo às instituições de saúde a se adequarem aos aumentos súbitos da procura de ajuda médica ou medicamentos.

Porquê agora?

Em 2003, a Google publicou um papper "Google File System” que foi a genesis do Hadoop. Em 2006 saiu a primeira release do software e 2 anos depois já a Yahoo carregava para os seus clusters, 10TB de dados por dia. As pessoas e empresas acreditaram no projeto, empresas como Facebook, LinkedIn, eBay e IBM contribuíram e ainda contribuem com milhares de linhas de código para o projeto. Agora, por exemplo, o cluster da Yahoo tem 42k nós e centenas de PB em storage.

O software Hadoop é uma framework que permite um processamento distribuído de grandes volumes de dados por vários computadores, usando modelos simples de programação. É facilmente escalável, onde cada máquina oferece espaço e capacidade de computação. Foi desenhado de maneira a detetar e agir sobre as máquinas que falham no cluster, garante alta disponibilidade e tudo isto por um custo mais baixo comparando com as arquiteturas atuais.

Além de ser open source é suportado por dezenas de grandes empresas e milhares de programadores por todo o mundo, que contribuem para o desenvolvimento do projeto e o surgimento de novas tecnologias.

Com esta capacidade de armazenamento e processamento, atualmente uma empresa em vez de tomar a opção de não carregar todos os eventos de um ano, por falta de capacidade, pode agora carregar anos de histórico e, ainda assim, aceder à informação.

Como é que me afeta?

Quando se entra no ecossistema de Big Data, encontramos um conjunto de tecnologias e não um produto único. São várias componentes, open source, desenvolvidas com propósitos específicos e que, em conjunto, permitem que o ecossistema Big Data funcione. Não é um ERP, não é um Data Warehouse. São tecnologias que podem complementar os sistemas que existem, ou desbravar o terreno para novas ideias e sistemas.

Comparando um pouco o Big Data com o Business Intelligence, podemos verificar que não são idênticos, contudo complementam-se:

Business Intelligence (BI)
• É orientado à recolha, transformação e disponibilização de dados estruturados;
• Analisa o que já existe;
• Ideal para quando já se conhece as variáveis (dimensões) para as perguntas;
• É mais específico;
• Normalmente reflete-se na criação de um Data Warehouse

Big Data
• Focado no processamento de dados estruturados e não estruturados, bem como nas correlações e descobertas que desse processamento podem advir;
• Analisa o que já existe e o que está por vir, descobrindo novos caminhos;
• Ideal para quando se quer explorar novas possibilidades, descobrir novos padrões e explorar perguntas que ainda não haviam sido feitas;
• Mais amplo, voltado não apenas para negócios, mas para qualquer área/segmento.

Podemos usar a tecnologia para simplesmente servir de armazenamento, com a vantagem de ser mais barato, acessível, e para assim não descartar informação. Podemos usar a tecnologia para servir de staging para um Data Warehouse. Podemos usar a tecnologia para processar eventos em tempo real ou para conseguir criar modelos estatísticos com uma elevada quantidade de dados, ou variáveis. O caminho é a coexistência destes dois mundos.

 

Esta área "Big Data" permitirá aos Data Scientists mergulhar nos dados, procurar padrões e criar modelos.

Uma abordagem de um Data Warehouse lógico, composto por um Data Warehouse corporativo e uma componente de Big Data, com uma camada analítica para facilitar a análise sobre a toda a solução, permitirá endereçar as questões que antes não eram possíveis colocar.

As questões certas é o que importa, muitos dos projetos de Big Data falham porque o resultado final não fez muita diferença perante o que já existia. Sem as questões certas não se consegue o conhecimento pretendido.

Conclusão

O Big data não é um novo sistema ou um produto que foi criado para substituir algo que já existe e está consolidado. Trata-se de uma evolução tecnológica, um conjunto de ferramentas, que além de permitirem acesso à informação como nunca foi possível, é open source.

A meu ver, é mais um caminho que podemos seguir, e que nos irá marcar nos próximos tempos. Mais do que substituir sistemas, o Big Data servirá para complementar os que existem.

A quantidade de dados disponíveis só vai aumentar, e a tecnologia analítica irá tornar-se cada vez mais capaz. Então, se o Big Data é capaz de tudo isto hoje, imagine do que será capaz amanhã.

 

 

 

 

 

     Pedro Duran