A lo largo de esta práctica veremos como aplicar distintas técnicas no supervisadas así como algunas de sus aplicaciones reales:
Para ello vamos a necesitar las siguientes librerías:
import random
import numpy as np
import pandas as pd
from sklearn import cluster # Algoritmos de clustering.
from sklearn import datasets # Crear datasets.
from sklearn import manifold # Algoritmos de reduccion de dimensionalidad.
# Visualizacion.
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
Vamos a partir de un dataset de clientes en un negocio retail cualquiera (en el fichero pec2_1.p un DataFrame de pandas en formato pickle o pec2_1.csv en formato CSV).
Para cada cliente se cuenta con 3 variables:
avg_month_turnover: el gasto medio de un cliente al mes.
Primero se pide visualizar las variables para entender como están distribuidas y preprocesarlas para aplicar un k-means.
df = pd.read_csv("pec2_1.csv")
print("Visualizo las variables y su frecuéncia. ")
df.hist()
plt.tight_layout()
print("Primer análisis de los datos")
display(df.head())
print("Descripción de los datos")
display(df.describe())
print("El número de líneas es: " + str(df.shape[0]) + " y el número de columnas: "+ str(df.shape[1]))
print("No existe ningún null")
display(df.isnull().sum())
print("Normalizo las variables")
from sklearn.preprocessing import MinMaxScaler
#importante la copia, sino realizo las modificaciones sobre df.
datos_normalizado = df.copy()
for col in df.columns:
datos_normalizado[col] = MinMaxScaler().fit_transform( datos_normalizado[col].values.reshape(-1, 1))
display(datos_normalizado.head())
Se pide estimar el número de clusters a detectar por k-means. Una técnica para estimar k es, como se explica en la teoría:
Los criterios anteriores (minimización de distancias intra grupo o maximización de distancias inter grupo) pueden usarse para establecer un valor adecuado para el parámetro k. Valores k para los que ya no se consiguen mejoras significativas en la homogeneidad interna de los segmentos o la heterogeneidad entre segmentos distintos, deberían descartarse.
Lo que popularmente se conocer como regla del codo.
Primero es necesario calcular la suma de los errores cuadráticos (SSE) que consiste en la suma de todos los errores (distancia de cada punto a su centroide asignado) al cuadrado.
Donde K es el número de clusters a buscar por k-means, son los puntos que pertenecen a i-ésimo cluster, es el centroide del cluster (al pertenece el punto x), y euclidean es la distancia euclídea.
Este procedimiento realizado para cada posible valor k, resulta en una función monótona decreciente, donde el eje x representa los distintos valores de k, y el eje y el SSE. Intuitivamente se podrá observar un significativo descenso del error, que indicará el valor idóneo de k.
Se pide realizar la representación gráfica de la regla del codo junto a su interpretación, utilizando la librería matplotlib
y la implementación en scikit-learn de k-means.
# Metodo del Codo para encontrar el numero optimo de clusters
features=['avg_month_turnover', 'n_days_per_week','n_month_purchases']
x = datos_normalizado.loc[:, features].values
from sklearn.cluster import KMeans
wcss = []
x_label = []
for i in range(1, 20):
kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
kmeans.fit(x)
wcss.append(kmeans.inertia_)
x_label.append(i)
# Grafica de la suma de las distancias
plt.plot(range(1, 20), wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.xticks(x_label)
plt.ylabel('WCSS')
plt.show()
En la gráfica se observa una disminución muy importante para el valor k=4, es decir, la subdivisión en 4 clústers es la opción más acertada para resolver el problema. A partir de ese valor la disminución del error es muy poco relevante.
Utilizando otra métrica, por ejemplo, se podría utilizar una técnica para maximizar la suma de distancias entre segmentos. Utilizando una tecnica que uniera la minimización de distancias intra- grupo y la maximización de distancias intergrupo obtendríamos mejores resultados.
kmeans = KMeans(n_clusters = 4, init = 'k-means++', random_state = 42)
kmeans.fit(x)
centroids = kmeans.cluster_centers_
print(datos_normalizado.columns)
display(centroids)
Representan la siguiente tipología de clientes:
# for 3D projection to work
from mpl_toolkits.mplot3d import Axes3D
import warnings
random.seed(10)
warnings.simplefilter('ignore')
estimators = [('k_means_4', KMeans(n_clusters=4)),
]
print('Visualización del dataset en 3 dimensiones')
titles = ['4 clusters']
for name, est in estimators:
fig = plt.figure().gca(projection='3d')
est.fit(x)
labels = est.labels_
fig.scatter(datos_normalizado['n_days_per_week'], datos_normalizado['n_month_purchases'], datos_normalizado['avg_month_turnover'],
c=labels.astype(np.float), edgecolor='k')
fig.set_xlabel('n_days_per_week')
fig.set_ylabel('n_month_purchases')
fig.set_zlabel('avg_month_turnover')
fig.set_title(titles[0])
plt.tight_layout()
plt.show()
De forma optativa se plantea realizar el apartado anterior con una implementación propia del algoritmo k-means.
import copy
import random
random.seed(10)
data=x
# Number of clusters
k = 4
# Number of training data
n = data.shape[0]
# Number of features in the data
c = data.shape[1]
# Generate random centers, here we use sigma and mean to ensure it represent the whole data
mean = np.mean(data, axis = 0)
std = np.std(data, axis = 0)
centers = np.random.randn(k,c)*std + mean
centers_old = np.zeros(centers.shape) # to store old centers
centers_new = copy.deepcopy(centers) # Store new centers
data.shape
clusters = np.zeros(n)
distances = np.zeros((n,k))
error = np.linalg.norm(centers_new - centers_old)
# When, after an update, the estimate of that center stays the same, exit loop
while error != 0:
# Measure the distance to every center
for i in range(k):
distances[:,i] = np.linalg.norm(data - centers[i], axis=1)
# Assign all training data to closest center
clusters = np.argmin(distances, axis = 1)
centers_old = copy.deepcopy(centers_new)
# Calculate mean for every cluster and update the center
for i in range(k):
centers_new[i] = np.mean(data[clusters == i], axis=0)
error = np.linalg.norm(centers_new - centers_old)
print(centers_new)
print("Comparación de centroides")
print("Algoritmo kmeans libreria python")
kmeans = KMeans(n_clusters = 4, init = 'k-means++', random_state = 42)
kmeans.fit(x)
centroids = kmeans.cluster_centers_
print(datos_normalizado.columns)
display(centroids)
print("Implementado manualmente")
print(centers_new)
print('Visualización de lo centroides')
from mpl_toolkits.mplot3d import Axes3D
titles = ['4 clusters']
for name, est in estimators:
fig = plt.figure().gca(projection='3d')
est.fit(x)
fig.scatter(datos_normalizado['n_days_per_week'], datos_normalizado['n_month_purchases'], datos_normalizado['avg_month_turnover'],
alpha=.1 )
fig.scatter(centers_new[:,1], centers_new[:,2],centers_new[:,0], marker='*',alpha=1, c='g', s=[400,400,400,400])
fig.set_xlabel('n_days_per_week')
fig.set_ylabel('n_month_purchases')
fig.set_zlabel('avg_month_turnover')
fig.set_title(titles[0])
#for i in range(k):
# points = np.array([datos_normalizado[j] for j in range(len(datos_normalizado[j])) if clusters[j] == i])
# ax.scatter(points[:, 0], points[:, 1], s=7, c=colors[i])
plt.tight_layout()
plt.show()
En este caso, con 2 dimensiones, es muy sencillo inferir el número de clusters visualizando los datos. Pero este método es de gran utilidad cuando se cuenta con datos de alta dimensionalidad.
Pero no todos los datasets son como los del ejercicio anterior. Para esta segunda parte vamos a emplear el siguiente conjunto de datos:
data_circles = ('circles', *datasets.make_circles(n_samples=1000, factor=.5, noise=.05))
Donde data_circles es una tupla con tres posiciones: el nombre del dataset y los dos valores devueltos por la función que genera el dataset:
#datasets.make_circles?
fig, ax = plt.subplots(1, 1, figsize=(5, 5))
ax.scatter(data_circles[1][:,0], data_circles[1][:,1], c=data_circles[2], s=2)
ax.set_title('Dataset {}'.format(data_circles[0]))
plt.tight_layout()
# Metodo del Codo para encontrar el numero optimo de clusters
x=data_circles[1][:, [0,1]]
from sklearn.cluster import KMeans
wcss = []
for i in range(1, 20):
kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
kmeans.fit(x)
wcss.append(kmeans.inertia_)
x_label.append(i)
# Grafica de la suma de las distancias
plt.plot(range(1, 20), wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.xticks(range(1, 20))
plt.ylabel('WCSS')
plt.show()
# Metodo del Codo para encontrar el numero optimo de clusters
x=data_circles[1][:, [0,1]]
from sklearn.cluster import KMeans
wcss = []
for i in range(1, 7):
kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
kmeans.fit(x)
wcss.append(kmeans.inertia_)
x_label.append(i)
# Grafica de la suma de las distancias
plt.plot(range(1, 7), wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.xticks(range(1, 7))
plt.ylabel('WCSS')
plt.show()
print('La k escogida óptima es 3')
# for 3D projection to work
from mpl_toolkits.mplot3d import Axes3D
import warnings
random.seed(10)
warnings.simplefilter('ignore')
estimators = [('k_means_3', KMeans(n_clusters=3)),
]
print('Visualización del dataset en 3 dimensiones')
titles = ['3 clusters']
for name, est in estimators:
fig = plt.figure().gca(projection='3d')
est.fit(x)
labels = est.labels_
fig.scatter( x[:, 1], x[:, 0],
c=labels.astype(np.float), edgecolor='k')
fig.set_xlabel('x')
fig.set_ylabel('y')
fig.set_title(titles[0])
plt.tight_layout()
plt.show()
En este punto del ejercicio hemos utilizado Kmeans con distancia euclídea. Esta métrica se basa en la distancia entre los puntos, por lo tanto, el cálculo no tiene en cuenta que existen dos circulos y los tendria que interpretar como diferentes unidades.
Para llevar a cabo este ejercicio sería conveniente utilizar otra métrica, como por densidad para ver si mejora el resultado.
En este apartado se pide aplicar clustering por densidad como DBSCAN al dataset anterior para poder encontrar los dos clusters iniciales.
warnings.simplefilter('ignore')
model = cluster.DBSCAN(eps=.1, n_jobs=-1)
fit = model.fit(data_circles[1])
x=data_circles[1][:, [0,1]]
fig = plt.figure(figsize=((10,8))).gca(projection='3d')
labels = fit.labels_
fig.scatter( x[:, 1], x[:, 0],
c=labels.astype(np.float), edgecolor='k')
fig.set_xlabel('x')
fig.set_ylabel('y')
fig.set_title('DBSCAN')
plt.tight_layout()
plt.show()
Con el algoritmo DBSCAN se pueden identificar ambas circunferencias correctamente. Esto es debido a que utilizamos un algoritmo de agrupamiento basado en densidad (density-based clustering) y con los datos proporcionados ha conseguido encontrar un número de grupos (clusters) utilizando la densidad de los puntos.
En este apartado se pide visualizar mediante un dendrograma la construcción progresiva de los grupos mediante un algoritmo jerárquico aglomerativo (estrategia bottom-up). Con ello se pretende encontrar un método gráfico para entender el comportamiento del algoritmo y encontrar los dos clusters.
from scipy.spatial.distance import pdist
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
fig = plt.figure()
dendrogram(linkage(pdist(x), 'complete') )
plt.title('Denograma con criterios de enlace completo')
plt.ylabel('distance')
plt.tight_layout()
plt.show()
print('La distribución muestras 6 clusters, es decir, no ha funcionado. ')
from scipy.spatial.distance import pdist
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
fig = plt.figure()
dendrogram(linkage(pdist(x), 'single') )
plt.title('Denograma con criterios de enlace singl')
plt.ylabel('distance')
plt.tight_layout()
plt.show()
print('La distribución muestras 2 clusters, es decir, lo deseado. ')
from scipy.spatial.distance import pdist
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
fig = plt.figure()
cluster = fcluster(linkage(pdist(data_circles[1]), 'complete'), t=.2, criterion='distance')
plt.scatter( x[:, 1], x[:, 0],
c=cluster, edgecolor='k')
plt.tight_layout()
plt.show()
print('La distribución muestras 4 clusters. ')
from scipy.spatial.distance import pdist
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
fig = plt.figure()
cluster = fcluster(linkage(pdist(data_circles[1]), 'single'), t=.2, criterion='distance')
plt.scatter( x[:, 1], x[:, 0],
c=cluster, edgecolor='k')
plt.tight_layout()
plt.show()
print('Correcto')
En nuestro dataset el enlace simple nos ha permitido una mejor clasificación por clusters que el enlace completo. Esto es debido a que el algoritmo ha juntado los puntos más próximos entre sí obteniendo la división deseada. Si los círculos estuvieran más juntos no hubiera sido posible.
Por otra parte, el enlace completo busca máximos, es decir, los que están más alejados, obteniendo como resultado una clasificación peor.
Ha conseguido encontrar ambos círculos debido a que la densidad es constante y están bastante separados entre ellos.
Algunos de los algoritmos anteriores se basan en unas suposiciones que no cumplían en el dataset. Muchas veces en lugar de optar por algoritmos más complejos o que requieren mayor cómputo, se pueden transformar los datos para poder aplicar con éxito técnicas más simples. Esto es un claro ejemplo de feature engineering.
import math
from sklearn.preprocessing import MinMaxScaler
# Distance function
def distance(xi,xii,yi,yii):
sq1 = (xi-xii)*(xi-xii)
sq2 = (yi-yii)*(yi-yii)
return np.sqrt(sq1 + sq2)
radio = np.apply_along_axis(lambda x: distance(x[0], 0,x[1], 0), 1, x)
angulo = np.apply_along_axis(lambda x: math.acos(x[0] / distance(x[0], 0,x[1], 0)), 1, x)
radio = MinMaxScaler().fit_transform(radio.reshape(-1, 1))
angulo = MinMaxScaler().fit_transform(angulo.reshape(-1, 1))
fig = plt.figure()
plt.scatter(radio, angulo, s=4)
plt.tight_layout()
plt.show()
Ahora si que se puede aplicar la distancia euclídea correctamente, es decir, podemos aplciar el algoritmo sin problemas.
fig = plt.figure()
from sklearn import cluster # Algoritmos de clustering.
kmeans = cluster.KMeans(n_clusters=2)
kmeans.fit_transform(np.hstack([radio , angulo]))
labels = kmeans.labels_
plt.scatter(x[:, 1], x[:, 0],
c=labels.astype(np.float), edgecolor='k')
plt.tight_layout()
plt.show()
Las imágenes en color se componen de píxeles que tienen tres componentes (roja, azul y verde), destinando 1 byte a cada canal. Pudiendo representar rojos, verdes y azules. Con un total de colores representables en cada píxel.
Entre mayor sea el número de colores representables, más memoria será necesaria para almacenar la imagen. Por tanto, una estrategia para comprimir una imagen puede ser disminuir los colores representables en cada píxel, necesitando menos bits para guardar el valor de un píxel. Este método no es reversible, es decir, no se puede volver a recuperar la imagen original a partir de la comprimida. Por tanto, este tipo de compresiónse denomina comprensión con pérdidas.
Pero ¿cómo seleccionamos los "píxeles parecidos" en la imagen original y determinamos su color en la imagen comprimida?. Una opción es utilizar k-means donde k será el número de colores representables, los puntos que pertenecen a cada cluster equivaldrían a los "píxeles parecidos" y las coordenadas de los centroides actuarán como los colores finales a los que se aproximarán los "píxeles parecidos".
Como resultado del clustering, se obtiene una paleta de colores reducida (coordenadas de los centroides) donde cada píxel de la imagen hará referencia a uno de estos colores (cluster al que pertenece). El uso de paletas de colores o colores indexados es un recurso empleado por distintos formatos de imagen como PNG, GIF o TIFF.
Si no dispones de la librería skimage
puedes instalarla:
conda install scikit-image
pip install scikit-image
from skimage import io, transform
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
photo = (transform.resize(
io.imread('https://upload.wikimedia.org/wikipedia/en/7/7d/Lenna_%28test_image%29.png'),
(256, 256), mode='edge') * 255).astype(np.uint8)
plt.imshow(photo) # np.array con shape (256, 256, 3), alto por ancho por 3 (los tres canales: rojo, verde y azul), donde cada valor ocupa un byte.
X = photo.reshape(-1, 3) # np.array con shape (65536, 3), cada pixel con sus 3 canales
print('Imagen con {
} pixeles ({} bytes)'.format(X.shape[0], X.shape[0] * 3))
Para facilitar la tarea, la imagen anterior está guardada en un array con tantas filas como píxeles y columnas como canales (rojo, verde y azul). De forma que cada "muestra" equivale al valor de un píxel.
Se puede volver a recomponer la imagen original con:
plt.imshow(X.reshape(photo.shape))
Podemos ver cada píxel como un punto en un sistema de coordenadas de 3 dimensiones donde una es su cantidad de rojo, otra su cantidad de verde y por último su cantidad de azul. Por lo que podemos realizar una visualización en 3 dimensiones de los píxeles sobre la que se probará el algoritmo de clustering:
X
Para visualizar la animación de la representación 3D de los píxeles es necesario instalar la librería ffmpeg
.
Si tienes un entorno virtual de conda, lo puedes instalar con: conda install -c conda-forge ffmpeg
.
Si tienes un error, puedes ver una representación estática 2 celdas más adelante.
Visualización estática del valor de los píxeles:
idx = np.random.randint(X.shape[0], size=int(X.shape[0] * .3))
fig = plt.figure(figsize=(8, 6))
ax = Axes3D(fig)
ax.scatter(X[idx,0], X[idx,1], X[idx,2], s=1, c=X[idx,:] / 255, alpha=.3)
ax.set_xlabel('rojo')
ax.set_ylabel('verde')
ax.set_zlabel('azul')
ax.view_init(20, 350)
plt.show()
En la visualización anterior se ha representado cada píxel con su color, donde sus coordenadas en los 3 colores oscilan entre 0 (carece de esa componente) y 1. Podemos comprobar como los píxeles en coordenadas (255, 255, 255) son píxeles blancos y los situados en (0, 0, 0) son píxeles negros. También se observan 4 estructuras de píxeles: la pluma del sombrero, el sombrero, la piel de la modelo (Lenna) y el fondo.
from PIL import Image
from sklearn.cluster import KMeans
im = Image.open("lena.png")
# display image
display(im)
# get pixels of the image
pixel_np = np.asarray(im)
# reshape array (remove rows and columns)
image_height = im.height
image_width = im.width
pixel_np = np.reshape(pixel_np, (image_height * image_width, 3))
# display as df
display(pd.DataFrame(pixel_np, columns=["r", "g", "b"]).head())
# run k-means clustering on the pixel data
num_of_centroids = 3#3 # a 4-bit image is represented by 2^4 colours
num_of_runs = 10 # number of times to run the k-means algorithm before determining the best centroids
max_iterations = 300 # number of iterations before k-means comes to an end for a single run
verbosity = 0 # show what's going on when the algorithm is running
# initiate a kmeans object
compressor = KMeans(n_clusters=num_of_centroids, n_init=num_of_runs, max_iter=max_iterations, verbose=verbosity)
# run k-means clustering
compressor.fit(pixel_np)
display(compressor.cluster_centers_)
# create an array replacing each pixel label with its corresponding cluster centroid
pixel_centroid = np.array([list(compressor.cluster_centers_[label]) for label in compressor.labels_])
# convert the array to an unsigned integer type
pixel_centroid = pixel_centroid.astype("uint8")
# reshape this array according to the height and width of our image
pixel_centroids_reshaped = np.reshape(pixel_centroid, (image_height, image_width, 3), "C")
# create the compressed image
compressed_im = Image.fromarray(pixel_centroids_reshaped)
# save compressed image
compressed_im.save("bridge_compressed.jpeg")
plt.figure()
plt.imshow(pixel_centroids_reshaped)
plt.axis('off')
plt.title('3 clusters')
plt.tight_layout()
plt.show()
Por que hemos aplicado una cuantificación, es decir, hemos aplicado una técnica de compresión con pérdida que consiste en agrupar todo un rango de valores en uno solo. Si cuantificamos el color de una imagen, reducimos el número de colores necesarios para representarla y el tamaño del fichero de la misma disminuye.
El clústering es la técnica que nos permite llevar a cabo la compresión.
from PIL import Image
for clusters_utilizar in [ 128, 64, 32, 16, 8, 4 , 2,256]:
display(clusters_utilizar)
im = Image.open("lena.png")
# get pixels of the image
pixel_np = np.asarray(im)
# reshape array (remove rows and columns)
image_height = im.height
image_width = im.width
pixel_np = np.reshape(pixel_np, (image_height * image_width, 3))
# display as df
# run k-means clustering on the pixel data
num_of_centroids = clusters_utilizar
num_of_runs = 10 # number of times to run the k-means algorithm before determining the best centroids
max_iterations = 300 # number of iterations before k-means comes to an end for a single run
verbosity = 0 # show what's going on when the algorithm is running
# initiate a kmeans object
compressor = KMeans(n_clusters=num_of_centroids, n_init=num_of_runs, max_iter=max_iterations, verbose=verbosity)
# run k-means clustering
compressor.fit(pixel_np)
display(compressor.cluster_centers_)
# convert the array to an unsigned integer type
pixel_centroid = pixel_centroid.astype("uint8")
# reshape this array according to the height and width of our image
pixel_centroids_reshaped = np.reshape(pixel_centroid, (image_height, image_width, 3), "C")
# create the compressed image
compressed_im = Image.fromarray(pixel_centroids_reshaped)
plt.figure()
plt.imshow(pixel_centroids_reshaped)
plt.axis('off')
plt.title(clusters_utilizar)
plt.tight_layout()
display(plt.show())
Como ya se ha visto, el algoritmo t-SNE ideado por van der Maaten y Hinton difiere de PCA en que no trata de maximizar la varianza explicada. Intuitivamente, t-SNE trata de que la vecindad de un punto en baja dimensionalidad sea la misma que la original (mantenga las distancias). Partiendo de una localización aleatoria de cada punto, corrige su posición de forma iterativa tratando de minimizar la distancia a sus vecinos originales hasta converger.
Para ello, t-SNE dispone de diversos parámetros que pueden modificar drásticamente el resultado. Por lo que se recomienda conocer su funcionamiento antes de aplicar la técnica.
Partiendo de las distancias entre las provincias de la península ibérica, presentes en el fichero de datos (en pec2_2.p un DataFrame de pandas en formato pickle o pec2_2.csv en formato CSV). Se pide calcular la matriz cuadrada que contenga la distancia de cada provincia contra las demás.
df = pd.read_pickle('pec2_2.p')
provincias = np.unique(df['from'].values).tolist()
distancia = np.zeros((len(provincias), len(provincias)))
df.set_index(['from', 'to'], inplace=True)
for i, a in enumerate(provincias):
for j, b in enumerate(provincias):
distancia[i, j] = df.loc[a].loc[b].values[0]
Una vez que se cuenta con la matriz de distancias, t-SNE tratará de mantener esas distancias entre los distintos puntos en baja dimensionalidad (en este caso 2 dimensiones). Emplazando los puntos en el plano mientras intenta mantener las distancias indicadas.
Dado que la entrada a t-SNE se le pasa la matriz de distancias, no es necesario que las calcule. Por ello le indicaremos que la métrica a emplear es "precalculada".
Como t-SNE es un algoritmo estocástico (dos ejecuciones consecutivas con los mismos datos pueden conducir a resultados diferentes). Se pide realizar el proceso de ajuste con t-SNE 100 veces y quedarse con la ejecución con menor error (ver el atributo kl_divergence).
min_error = 1
coords = None
for i in range(100):
tsne = manifold.TSNE(n_components=2, metric='precomputed', perplexity=30, n_iter=10000)
new_coord = tsne.fit_transform(np.array(distancia))
if tsne.kl_divergence_ < min_error:
coords = new_coord
min_error = tsne.kl_divergence_
Una vez que se tienen las posiciones de las provincias en el plano, visualizar el resultado y analizar si el emplazamiento de las provincias calculado por t-SNE calculado en base a las distancias se parece al real.
fig, ax = plt.subplots()
ax.scatter(coords[:,0], coords[:,1])
for i, ciudad in enumerate(provincias):
ax.annotate(ciudad, (coords[i,0], coords[i,1]))
plt.show()
Sí, el algoritmo ha mantenido las distancias en el mapa. Porque sabe interpretar la distancia entre las provincia, aunque no sabe como están colocadas realmente en el mapa, es decir, aparece rotado con respecto a la realidad.