Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: https://dspace.uzhnu.edu.ua/jspui/handle/lib/58076
Назва: Clustering algorithms and methods for diverse data
Інші назви: Алгоритми та методи кластеризацiї для рiзноманiтних даних
Автори: Boyko, N. I.
Tkachuk, O. A.
Ключові слова: expectation-maximization, Structural equation modeling, KAy-means for MIxedLArge data, Lowest common ancestor, self-organizing map, Adaptive resonance theory, Kernel Density Estimation, максимiзацiя очiкування, моделювання структурних рiвнянь, KAy- середнi для даних MIxedLArge, найменший спiльний предок, карта самоорганiзацiї, теорiя адаптивного резонансу, оцiнка щiльностi ядра
Дата публікації: 2023
Видавництво: Видавництво УжНУ "Говерла"
Бібліографічний опис: Boyko, N. I. Clustering algorithms and methods for diverse data / N. I. Boyko, O. A. Tkachuk // Науковий вісник Ужгородського університету : серія: Математика і інформатика / редкол. М. М. Маляр (гол. ред.), Г. І. Сливка-Тилищак, Ю. В. Андрашко та ін. – Ужгород : Говерла, 2023. – Т. 1, Вип. 42. – С. 129–147. – Рез.: англ., укр. – Бібліогр.: с. 145–147 (15 назв)
Серія/номер: Математика і інформатика;
Короткий огляд (реферат): The study is dedicated to the comprehensive investigation of clustering methods for diverse data. The research is focused on the problems of graphic format algorithms, which is conditioned by the presence of 12 different features for clustering, 7 of which were categorical. The data is presented along 12 axes in a graphical format. To solve the problem the PCA algorithm was applied with further transformation of categorical features into numerical for dimensionality reduction to 2 components and further orthogonal superimposition of clusters on them. Clustering using the k-prototype method was provided. A sixfold decrease in PCA algorithm has drawbacks such as enormous data loss which was presented. Based on the list of conducted experiments on hierarchical clustering the pros and cons can be seen for this approach. The complexity of clustering which consists in representation of results from the analysis of big data was provided. The KAMILA algorithm that is based on distributed computing models MapReduce and gives a significant advantage was described.
Дослiдження присвячено комплексному вивченню методiв кластеризацiї рiзнотипових даних. Дослiджуються проблеми алгоритмiв графiчного формату, що зумовленi наявнiстю 12-ти рiзних ознак для кластеризацiї, 7 з яких були категорiальнi. Представлене подання даних по 12-ти осях в графiчному форматi. Було вирiшено застосувати алгоритм PCA з перетворенням категорiальних ознак в числовi для зменшення розмiрностi даних до 2-х компонент й подальшого ортогонального накладання кластерiв на них. Наводиться застосування кластеризацiї методу к-прототипiв. Показане використання PCA для зменшення розмiрностi в 6 разiв приводить до значної втрати iнформацiї. Проведенi експерименти щодо iєрархiчної кластеризацiї рiзнотипових даних, можна вiдзначити переваги й недолiки даного пiдходу. Наведена складнiсть проведення кластеризацiї, яка полягає у представленнi результатiв аналiзу великих даних. Описаний алгоритм KAMILA, який реалiзований на моделi розподiлених обчислень MapReduce i дає значну перевагу по швидкодiї.
Тип: Text
Тип публікації: Стаття
URI (Уніфікований ідентифікатор ресурсу): https://dspace.uzhnu.edu.ua/jspui/handle/lib/58076
ISSN: 2616-7700
Розташовується у зібраннях:Науковий вісник УжНУ Серія: Математика і інформатика. Том 42 №1 - 2023

Файли цього матеріалу:
Файл Опис РозмірФормат 
CLUSTERING ALGORITHMS AND METHODS.pdf1.26 MBAdobe PDFПереглянути/Відкрити


Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.