Clustering algorithms and methods for diverse data

Boyko, N. I.; Tkachuk, O. A.

Please use this identifier to cite or link to this item: https://dspace.uzhnu.edu.ua/jspui/handle/lib/58076

Title:	Clustering algorithms and methods for diverse data
Other Titles:	Алгоритми та методи кластеризацiї для рiзноманiтних даних
Authors:	Boyko, N. I. Tkachuk, O. A.
Keywords:	expectation-maximization, Structural equation modeling, KAy-means for MIxedLArge data, Lowest common ancestor, self-organizing map, Adaptive resonance theory, Kernel Density Estimation, максимiзацiя очiкування, моделювання структурних рiвнянь, KAy- середнi для даних MIxedLArge, найменший спiльний предок, карта самоорганiзацiї, теорiя адаптивного резонансу, оцiнка щiльностi ядра
Issue Date:	2023
Publisher:	Видавництво УжНУ "Говерла"
Citation:	Boyko, N. I. Clustering algorithms and methods for diverse data / N. I. Boyko, O. A. Tkachuk // Науковий вісник Ужгородського університету : серія: Математика і інформатика / редкол. М. М. Маляр (гол. ред.), Г. І. Сливка-Тилищак, Ю. В. Андрашко та ін. – Ужгород : Говерла, 2023. – Т. 1, Вип. 42. – С. 129–147. – Рез.: англ., укр. – Бібліогр.: с. 145–147 (15 назв)
Series/Report no.:	Математика і інформатика;
Abstract:	The study is dedicated to the comprehensive investigation of clustering methods for diverse data. The research is focused on the problems of graphic format algorithms, which is conditioned by the presence of 12 different features for clustering, 7 of which were categorical. The data is presented along 12 axes in a graphical format. To solve the problem the PCA algorithm was applied with further transformation of categorical features into numerical for dimensionality reduction to 2 components and further orthogonal superimposition of clusters on them. Clustering using the k-prototype method was provided. A sixfold decrease in PCA algorithm has drawbacks such as enormous data loss which was presented. Based on the list of conducted experiments on hierarchical clustering the pros and cons can be seen for this approach. The complexity of clustering which consists in representation of results from the analysis of big data was provided. The KAMILA algorithm that is based on distributed computing models MapReduce and gives a significant advantage was described. Дослiдження присвячено комплексному вивченню методiв кластеризацiї рiзнотипових даних. Дослiджуються проблеми алгоритмiв графiчного формату, що зумовленi наявнiстю 12-ти рiзних ознак для кластеризацiї, 7 з яких були категорiальнi. Представлене подання даних по 12-ти осях в графiчному форматi. Було вирiшено застосувати алгоритм PCA з перетворенням категорiальних ознак в числовi для зменшення розмiрностi даних до 2-х компонент й подальшого ортогонального накладання кластерiв на них. Наводиться застосування кластеризацiї методу к-прототипiв. Показане використання PCA для зменшення розмiрностi в 6 разiв приводить до значної втрати iнформацiї. Проведенi експерименти щодо iєрархiчної кластеризацiї рiзнотипових даних, можна вiдзначити переваги й недолiки даного пiдходу. Наведена складнiсть проведення кластеризацiї, яка полягає у представленнi результатiв аналiзу великих даних. Описаний алгоритм KAMILA, який реалiзований на моделi розподiлених обчислень MapReduce i дає значну перевагу по швидкодiї.
Type:	Text
Publication type:	Стаття
URI:	https://dspace.uzhnu.edu.ua/jspui/handle/lib/58076
ISSN:	2616-7700
Appears in Collections:	2023 / Науковий вісник УжНУ. Серія: Математика і інформатика. Том 42 (1)

Files in This Item:

File	Description	Size	Format
CLUSTERING ALGORITHMS AND METHODS.pdf		1.26 MB	Adobe PDF	View/Open

Show full item record