23 Fevereiro 2018

Introdução ao Data Mining e aos algoritmos de K-MEANS e K-MEDOIDS

Nos dias de hoje, devido à enorme concorrência, as empresas tentam desesperadamente afirmar a sua posição no mercado. A concorrência é um ponto assente, mas a forma como as empresas a ultrapassam pode ser o fator que as conduz ao sucesso. Há muitos anos que as empresas apostam nas vantagens competitivas, de forma a conseguirem ganhar quota de mercado.

Para conseguirem ganhar quota de mercado, há muitos anos que as empresas apostam em vantagens competitivas, e um dos grandes objetivos passa por manter os clientes fieis e satisfeitos à marca. Assim, o consumidor desenrola um papel preponderante nas decisões estratégicas e nos rumos das empresas, tendo em sua posse a possibilidade de escolha, enquanto que as marcas têm a missão de cativar o seu interesse.

As empresas tentam desta forma agradar cada vez mais os clientes, querendo estimular o interesse e a lealdade destes. Assistimos durante anos ao lançamento de cartões de cliente, descontos, promoções, concursos, etc. Porém, muitas das vezes, campanhas que acabavam por ser demasiado abrangentes e pouco personalizados, falhavam em captar a atenção e a responder às necessidades do cliente. Demonstrando, assim, que nem sempre eram campanhas eficazes.

Atualmente, devido ao avanço das tecnologias, é possível armazenar um grande número de registos nas bases de dados e trabalhar esses mesmos dados de forma a produzir resultados que possam auxiliar e orientar a estratégia de uma empresa. Assim, conseguimos traçar perfis quase exatos dos nossos clientes, definir áreas de atuação, definir as preferências, estabelecer associações de consumo (quando compra x acaba por comprar y), ou seja, um perfil muito próximo do verdadeiro. Esta capacidade de traçar um perfil de um cliente, saber cativá-lo e mantê-lo fiel à marca, reflete-se numa das maiores vantagens competitivas dos nossos tempos.

Desta forma, utilizando uma modelação descritiva de Data Mining, é possível uma empresa segmentar os seus clientes com base no seu comportamento e padrões de compra. Isto ajuda a perceber melhor os clientes e permite lançar campanhas específicas e mais apropriadas a segmentos de clientes, conseguindo com isto maximizar os lucros da empresa.

A modelação descritiva de Data Mining tem várias fases:

1) Preparação dos Dados
2) Pré-processamento dos Dados
3) Análise de Clusters
4) Concatenação de Clusters (Profiling)
5) Estratégia

Na Preparação de Dados existe uma primeira análise das variáveis existentes na base de dados. São rejeitadas variáveis irrelevantes, imputados valores dentro das variáveis relevantes, como no caso de alguns outliers desde que a variável em si não apresente inconsistências e são feitos outros tipos de preparação de dados de forma a poder inserir variáveis com uma melhor qualidade de dados no modelo.

O Pré-processamento dos dados consiste em transformar variáveis de forma a enriquecer o estudo. Agrupar variáveis que pertencem à mesma categoria de produtos ou criar variáveis que meçam os valores monetários são exemplos de transformações que podem vir a melhorar o modelo.

Na Análise de Clusters, entramos numa das partes mais cruciais do modelo de segmentação. Ao segmentar os dados, estamos a criar grupos homogéneos dentro de si e heterógenos entre si, isto significa que queremos agrupar indivíduos ou grupos de dados onde entre si as características são semelhantes e relativamente aos outros grupos as características são maioritariamente diferenciadoras. É importante referir que o grande objetivo desta segmentação é conseguir minimizar a distância dentro dos clusters e maximizar a distância entre clusters.

Os algoritmos de K-MEANS e K-MEDOIDS permitem fazer o agrupamento dos clientes (clustering) com base nas variáveis preparadas nas fases anteriores.

O algoritmo de K-MEANS passa por um conjunto de etapas. De forma a exemplificar imaginemos um modelo de dados com apenas 2 variáveis num plano cartesiano com 2 eixos de coordenadas (X,Y):

 

Cada ponto cinzento representa um indivíduo (N).

Primeiro Passo:

Definir o número de sementes (K), sendo K ≤ N, e atribuir as sementes aleatoriamente pelo plano cartesiano.

 

Cada estrela é uma semente.

Segundo Passo:

Iniciação das iterações - cada indivíduo é associado à semente mais próxima.

 

Terceiro Passo:

Calcular os centroids dos clusters formados com base na distância média dos indivíduos dos seus respetivos clusters.

 

As estrelas azuis representam o novo centroid (semente centralizada).

 

Quarto Passo:

Voltar ao Segundo Passo e associar os indivíduos às sementes mais próximas.

 

Os indíviduos assinalados com um quadrado passaram a pertencer ao cluster da cor assinalada.

Quinto Passo:

As iterações continuam e só terminam quando os centroids não poderem ser mais centrados. Nessa fase, teremos os 4 clusters finalizados.

O algoritmo de K-MEDOIDS comporta-se de uma maneira muito semelhante ao K-MEANS, mas ao invés do centroid mover-se com base na média da distância dos indivíduos, o centroid passa a ser o indivíduo que está mais próximo do centro.

Assim, no Terceiro Passo do exemplo do K-MEANS, em vez da semente mover-se para a posição da estrela azul, irá mover-se para a posição do indivíduo mais próximo do centro (representado pelo quadrado roxo):

 

A Concatenação de Clusters (Profiling) consiste na junção e no cruzamento de informação dos segmentos de clusters previamente criados e selecionados com base numa análise aprofundada utilizando técnicas como o Elbow Graphic e distribuição de clusters dada o número de sementes selecionado.

A Estratégia é o passo final e permite à empresa realizar estratégias de Marketing e campanhas de promoção direcionadas a cada cluster que representa um conjunto de clientes com características e padrões de compra semelhantes.

Conclusão

O Data Mining permite às empresas obterem padrões de informação acerca dos seus clientes com o auxílio de algoritmos de segmentação aplicados a modelos descritivos. Estas informações levam a um melhor conhecimento dos clientes, o que representa uma grande vantagem competitiva no mercado, essencial para manter ou aumentar a quota de mercado.