Análisis Numérico De Diferentes Criterios De Similitud En Algoritmos De Clustering.

A. J. Soto, Ignacio Ponzoni, Gustavo E. Vazquez

Abstract


En el presente trabajo se analizan diferentes metodologías y criterios para realizar análisis de agrupamiento sobre datos multivariados. El análisis de agrupamiento tiene por objetivo formar grupos de elementos, de manera tal que los pertenecientes a un mismo grupo sean parecidos entre sí y distintos a los miembros de los restantes grupos. Se describen consideraciones para los dos grandes tipos de métodos: jerárquicos y de partición. Los primeros proveen una estructura de grupos a diferentes niveles de granularidad según su nivel de similitud, mientras que los segundos dividen el conjunto muestral en grupos internamente homogéneos. En el caso de los métodos jerárquicos, se analiza en detalle las diferentes medidas de asociación y distancia utilizadas por el método, así como también el ligamiento usado para recalcular las distancias. La elección del índice de distancia es de suma importancia, dado que esta medida define el criterio por el cual dos elementos son considerados semejantes. Para los métodos de partición, se analizan las medidas de homogeneidad que definen la selección de los elementos dentro de cada grupo.
Nuestra propuesta tiene como objetivo, a mediano plazo, definir características comunes en los elementos, que nos permitan trabajar con modelos de predicción de propiedades fisicoquímicas, de manera que cada uno de los modelos difiera acorde al grupo sobre el cual fue clasificado. En particular para este trabajo nuestros experimentos se aplicaron sobre información multivariada de compuestos químicos para predicción de la propiedad logP (grado de hidrofobicidad de una sustancia). La técnica empleada en la predicción fueron redes neuronales y su validación fue realizada con otro conjunto de datos sin entrenar. Finalmente, se analiza la importancia de la justificación e interpretación de la clasificación seleccionada, así como también del grado de similaridad que cada grupo presenta

Full Text:

PDF



Asociación Argentina de Mecánica Computacional
Güemes 3450
S3000GLN Santa Fe, Argentina
Phone: 54-342-4511594 / 4511595 Int. 1006
Fax: 54-342-4511169
E-mail: amca(at)santafe-conicet.gov.ar
ISSN 2591-3522