10 Dezembro 2018

Como construir Análises Avançadas?

Podemos considerar a metodologia CRISP-DM (Cross-industry standard process for data mining) como o processo de referência para a construção análises avançadas.

análises avançadas

Contudo, no contexto das organizações deveremos interpretar a fase de Deployment como algo que pode envolver também a inclusão nas análises tradicionais (dashboard, reports) do conhecimento obtido pelo processo.

Vejamos o sumário das atividades previstas em cada fase desta metodologia, com um pequeno exemplo.

Requisito: A organização pretende criar um modelo que preveja a probabilidade de um cliente deixar de ser fidelizado no futuro.

Atividades previstas em cada fase da metodologia:

1. Business Understanding e Data Understanding

  • Compreensão do negócio da organização e definição dos respetivos requisitos. Por exemplo, podemos definir que em termos de histórico de dados, um cliente que não tem compras há mais de 3 meses deixa de ser considerado cliente fidelizado. Esta definição é o driver para contruir um dataset de treino em que catalogamos todos os clientes como fidelizados e não fidelizados;
  • Análise, exploração e compreensão do universo de dados existentes;
  • Análise à qualidade dos dados;
  • Utilização de técnicas estatísticas de Análise Exploratória de dados e outras técnicas, para descrever a natureza dos dados disponíveis na organização:

– Análise de métricas de localização e dispersão;
– Análise de correlações;
– Análise de componentes principais (redução de dimensionalidade);
– Análise de clusters – a análise de clusters é também muito usada quando pretendemos obter alguma forma de representação dos dados que ainda não conhecemos;
– Outras.

2. Data Preparation

  •  Construção de um dataset que servirá de base para o treino do modelo de previsão/classificação;
  •  Este dataset deve considerar todo o conhecimento recolhido na fase anterior e deve incluir tratamento à qualidade de dados (ex: tratamento de NAs). Deve incorporar as conclusões tiradas sobre a natureza dos dados (ex: distribuição dos dados, análise de correlações, redução de dimensionalidade, escolha de variáveis independentes, etc);
  • O dataset construído deve idealmente ser a melhor representação possível do universo de clientes em análise (amostra). Deve incluir um conjunto de atributos (variáveis independentes) que descrevem o universo de dados.

3. Modeling

  • Nesta fase são avaliados diversos algoritmos de mining que permitem prever a variável dependente (probabilidade dum cliente deixar de ser fidelizado no futuro);
  • São ponderadas a utilização de técnicas de Model Ensemble e a utilização de algoritmos diferentes (SVM, RandomForests, GLM, Naive Bayes, …);
  • A natureza do problema irá determina a lista algoritmos potencias a considerar;
  • É usado um dataset de treino (dados históricos do cliente) determinar os melhores parâmetros de cada modelo, e para suportar a escolha do mesmo.

4. Evaluation

  • Testar se o modelo atinge os objetivos propostos (prever probabilidade de um cliente deixar de ser fidelizado no futuro);
  • Estima-se nesta fase a performance do modelo usando um conjunto de técnicas tradicionais no data mining (ex: bootstrap);
  • Com base nos resultados obtidos avalia-se o modelo e decide-se sobre a sua implementação.

5. Deployment

  • Implementação do modelo em ambiente de produção (automatizar e sistematizar a utilização do modelo);
  • A implementação pode também envolver a inclusão do novo conhecimento (previsão da probabilidade dum cliente deixar de ser fidelizado no futuro) em Dashboards ou Reports já existentes, ou mesmo nas ferramentas de CRM;
  • Por exemplo, com este modelo a linha de suporte ao cliente pode no momento do atendimento saber antecipadamente se este cliente tem forte probabilidade ou não em deixar de ser fidelizado, usando esta informação para decidir sobre a oferta de novas promoções ou descontos que possam manter a fidelização.

Este exemplo clássico ilustra uma metodologia que tem já mais de 20 anos, mas que não deixa de ser uma boa referência para boas práticas na construção deste tipo de análises.

Convém também referir que muitas das técnicas de análise avançadas referidas são muitas vezes usadas isoladamente em algumas fases do CRISP-DM. O exemplo mais típico é a diversidade de técnicas usadas na fase de Data Understanding. Como exemplo:

  • Visualização avançada – é usada como uma das ferramentas chave na análise de grandes volumes de dados ou dados com grande dimensionalidade. Exemplos:

– Sistemas de Coordenadas Paralelas para análise de dados multidimensionais

construir análises avançadas

Fonte: https://community.powerbi.com/t5/Best-Visual-Contest/Parallel-Coordinates-for-Power-BI-by-Dhanda/cns-p/7762

– Matriz de Correlação

análises avançadas

Fonte: https://beta.observablehq.com/@mbostock/d3-scatterplot-matrix

  • Análise de Redes (Socias ou outras redes) para a deteção de comunidades ou relações desconhecidas (usadas no famoso caso dos Panama Papers)

análises avançadas

Fonte: http://www.visualcomplexity.com/vc/project_details.cfm?id=978&index=978&domain

Uma referencia final à Análise Preditiva

No contexto das Análises Avançadas a Análise Preditiva pode ser considerada como a disciplina que melhor sintetiza todas as técnicas. A análise preditiva engloba a utilização de todas as técnicas de estatística, Data Mining/ Data Science e Machine Learning na análise de dados atuais e históricos para contruir modelos de previsão sobre o futuro.

Podemos assim considerar que a Análise Preditiva é a disciplina de base que suporta as Análises Avançadas.

Conclusão

As análises avançadas representam a nova era no Business Intelligence & Analytics nas organizações. São um complemento fundamental para as análises tradicionais, e permitem fazer uma gestão da organização mais preventiva ou preditiva, em oposição a uma gestão por reação (baseada em análise do passado).

Criar análises avançadas numa organização exige recursos humanos com conhecimentos mais especializados nas técnicas referidas, e uma mudança de cultura nas organizações (mudança de uma gestão por reação para uma gestão mais preventiva/preditiva).

As organizações não podem prever o futuro, mas se conseguirem detetar padrões que se repetem, poderão preparar-se e orientar-se previamente para retirar os devidos ganhos no futuro.

David Ferreira
   Manager