A lo largo de esta práctica veremos como aplicar distintas técnicas no supervisadas así como algunas de sus aplicaciones reales:
Para ello vamos a necesitar las siguientes librerías:
import random
import numpy as np
import pandas as pd
from sklearn import cluster # Algoritmos de clustering.
from sklearn import datasets # Crear datasets.
from sklearn import manifold # Algoritmos de reduccion de dimensionalidad.
# Visualizacion.
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
Vamos a partir de un dataset de clientes en un negocio retail cualquiera (en el fichero pec2_1.p un DataFrame de pandas en formato pickle o pec2_1.csv en formato CSV).
Para cada cliente se cuenta con 3 variables:
avg_month_turnover: el gasto medio de un cliente al mes.
Primero se pide visualizar las variables para entender como están distribuidas y preprocesarlas para aplicar un k-means.
df = pd.read_csv("pec2_1.csv")
print("Visualizo las variables y su frecuéncia. ")
df.hist()
plt.tight_layout()
print("Primer análisis de los datos")
display(df.head())
print("Descripción de los datos")
display(df.describe())
print("El número de líneas es: " + str(df.shape[0]) + " y el número de columnas: "+ str(df.shape[1]))
print("No existe ningún null")
display(df.isnull().sum())
print("Normalizo las variables")
from sklearn.preprocessing import MinMaxScaler
#importante la copia, sino realizo las modificaciones sobre df.
datos_normalizado = df.copy()
for col in df.columns:
datos_normalizado[col] = MinMaxScaler().fit_transform( datos_normalizado[col].values.reshape(-1, 1))
display(datos_normalizado.head())
Se pide estimar el número de clusters a detectar por k-means. Una técnica para estimar k es, como se explica en la teoría:
Los criterios anteriores (minimización de distancias intra grupo o maximización de distancias inter grupo) pueden usarse para establecer un valor adecuado para el parámetro k. Valores k para los que ya no se consiguen mejoras significativas en la homogeneidad interna de los segmentos o la heterogeneidad entre segmentos distintos, deberían descartarse.
Lo que popularmente se conocer como regla del codo.
Primero es necesario calcular la suma de los errores cuadráticos (SSE) que consiste en la suma de todos los errores (distancia de cada punto a su centroide asignado) al cuadrado.
Donde K es el número de clusters a buscar por k-means, son los puntos que pertenecen a i-ésimo cluster, es el centroide del cluster (al pertenece el punto x), y euclidean es la distancia euclídea.
Este procedimiento realizado para cada posible valor k, resulta en una función monótona decreciente, donde el eje x representa los distintos valores de k, y el eje y el SSE. Intuitivamente se podrá observar un significativo descenso del error, que indicará el valor idóneo de k.
Se pide realizar la representación gráfica de la regla del codo junto a su interpretación, utilizando la librería matplotlib
y la implementación en scikit-learn de k-means.
# Metodo del Codo para encontrar el numero optimo de clusters
features=['avg_month_turnover', 'n_days_per_week','n_month_purchases']
x = datos_normalizado.loc[:, features].values
from sklearn.cluster import KMeans
wcss = []
x_label = []
for i in range(1, 20):
kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
kmeans.fit(x)
wcss.append(kmeans.inertia_)
x_label.append(i)
# Grafica de la suma de las distancias
plt.plot(range(1, 20), wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.xticks(x_label)
plt.ylabel('WCSS')
plt.show()
En la gráfica se observa una disminución muy importante para el valor k=4, es decir, la subdivisión en 4 clústers es la opción más acertada para resolver el problema. A partir de ese valor la disminución del error es muy poco relevante.
Utilizando otra métrica, por ejemplo, se podría utilizar una técnica para maximizar la suma de distancias entre segmentos. Utilizando una tecnica que uniera la minimización de distancias intra- grupo y la maximización de distancias intergrupo obtendríamos mejores resultados.
kmeans = KMeans(n_clusters = 4, init = 'k-means++', random_state = 42)
kmeans.fit(x)
centroids = kmeans.cluster_centers_
print(datos_normalizado.columns)
display(centroids)
Representan la siguiente tipología de clientes:
# for 3D projection to work
from mpl_toolkits.mplot3d import Axes3D
import warnings
random.seed(10)
warnings.simplefilter('ignore')
estimators = [('k_means_4', KMeans(n_clusters=4)),
]
print('Visualización del dataset en 3 dimensiones')
titles = ['4 clusters']
for name, est in estimators:
fig = plt.figure().gca(projection='3d')
est.fit(x)
labels = est.labels_
fig.scatter(datos_normalizado['n_days_per_week'], datos_normalizado['n_month_purchases'], datos_normalizado['avg_month_turnover'],
c=labels.astype(np.float), edgecolor='k')
fig.set_xlabel('n_days_per_week')
fig.set_ylabel('n_month_purchases')
fig.set_zlabel('avg_month_turnover')
fig.set_title(titles[0])
plt.tight_layout()
plt.show()
De forma optativa se plantea realizar el apartado anterior con una implementación propia del algoritmo k-means.
import copy
import random
random.seed(10)
data=x
# Number of clusters
k = 4
# Number of training data
n = data.shape[0]
# Number of features in the data
c = data.shape[1]
# Generate random centers, here we use sigma and mean to ensure it represent the whole data
mean = np.mean(data, axis = 0)
std = np.std(data, axis = 0)
centers = np.random.randn(k,c)*std + mean
centers_old = np.zeros(centers.shape) # to store old centers
centers_new = copy.deepcopy(centers) # Store new centers
data.shape
clusters = np.zeros(n)
distances = np.zeros((n,k))
error = np.linalg.norm(centers_new - centers_old)
# When, after an update, the estimate of that center stays the same, exit loop
while error != 0:
# Measure the distance to every center
for i in range(k):
distances[:,i] = np.linalg.norm(data - centers[i], axis=1)
# Assign all training data to closest center
clusters = np.argmin(distances, axis = 1)
centers_old = copy.deepcopy(centers_new)
# Calculate mean for every cluster and update the center
for i in range(k):
centers_new[i] = np.mean(data[clusters == i], axis=0)
error = np.linalg.norm(centers_new - centers_old)
print(centers_new)
print("Comparación de centroides")
print("Algoritmo kmeans libreria python")
kmeans = KMeans(n_clusters = 4, init = 'k-means++', random_state = 42)
kmeans.fit(x)
centroids = kmeans.cluster_centers_
print(datos_normalizado.columns)
display(centroids)
print("Implementado manualmente")
print(centers_new)
print('Visualización de lo centroides')
from mpl_toolkits.mplot3d import Axes3D
titles = ['4 clusters']
for name, est in estimators:
fig = plt.figure().gca(projection='3d')
est.fit(x)
fig.scatter(datos_normalizado['n_days_per_week'], datos_normalizado['n_month_purchases'], datos_normalizado['avg_month_turnover'],
alpha=.1 )
fig.scatter(centers_new[:,1], centers_new[:,2],centers_new[:,0], marker='*',alpha=1, c='g', s=[400,400,400,400])
fig.set_xlabel('n_days_per_week')
fig.set_ylabel('n_month_purchases')
fig.set_zlabel('avg_month_turnover')
fig.set_title(titles[0])
#for i in range(k):
# points = np.array([datos_normalizado[j] for j in range(len(datos_normalizado[j])) if clusters[j] == i])
# ax.scatter(points[:, 0], points[:, 1], s=7, c=colors[i])
plt.tight_layout()
plt.show()
En este caso, con 2 dimensiones, es muy sencillo inferir el número de clusters visualizando los datos. Pero este método es de gran utilidad cuando se cuenta con datos de alta dimensionalidad.
Pero no todos los datasets son como los del ejercicio anterior. Para esta segunda parte vamos a emplear el siguiente conjunto de datos:
data_circles = ('circles', *datasets.make_circles(n_samples=1000, factor=.5, noise=.05))
Donde data_circles es una tupla con tres posiciones: el nombre del dataset y los dos valores devueltos por la función que genera el dataset:
#datasets.make_circles?
fig, ax = plt.subplots(1, 1, figsize=(5, 5))
ax.scatter(data_circles[1][:,0], data_circles[1][:,1], c=data_circles[2], s=2)
ax.set_title('Dataset {}'.format(data_circles[0]))
plt.tight_layout()
# Metodo del Codo para encontrar el numero optimo de clusters
x=data_circles[1][:, [0,1]]
from sklearn.cluster import KMeans
wcss = []
for i in range(1, 20):
kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
kmeans.fit(x)
wcss.append(kmeans.inertia_)
x_label.append(i)
# Grafica de la suma de las distancias
plt.plot(range(1, 20), wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.xticks(range(1, 20))
plt.ylabel('WCSS')
plt.show()
# Metodo del Codo para encontrar el numero optimo de clusters
x=data_circles[1][:, [0,1]]
from sklearn.cluster import KMeans
wcss = []
for i in range(1, 7):
kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
kmeans.fit(x)
wcss.append(kmeans.inertia_)
x_label.append(i)
# Grafica de la suma de las distancias
plt.plot(range(1, 7), wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.xticks(range(1, 7))
plt.ylabel('WCSS')
plt.show()
print('La k escogida óptima es 3')
# for 3D projection to work
from mpl_toolkits.mplot3d import Axes3D
import warnings
random.seed(10)
warnings.simplefilter('ignore')
estimators = [('k_means_3', KMeans(n_clusters=3)),
]
print('Visualización del dataset en 3 dimensiones')
titles = ['3 clusters']
for name, est in estimators:
fig = plt.figure().gca(projection='3d')
est.fit(x)
labels = est.labels_
fig.scatter( x[:, 1], x[:, 0],
c=labels.astype(np.float), edgecolor='k')
fig.set_xlabel('x')
fig.set_ylabel('y')
fig.set_title(titles[0])
plt.tight_layout()
plt.show()