Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://dspace.uzhnu.edu.ua/jspui/handle/lib/58076
Название: Clustering algorithms and methods for diverse data
Другие названия: Алгоритми та методи кластеризацiї для рiзноманiтних даних
Авторы: Boyko, N. I.
Tkachuk, O. A.
Ключевые слова: expectation-maximization, Structural equation modeling, KAy-means for MIxedLArge data, Lowest common ancestor, self-organizing map, Adaptive resonance theory, Kernel Density Estimation, максимiзацiя очiкування, моделювання структурних рiвнянь, KAy- середнi для даних MIxedLArge, найменший спiльний предок, карта самоорганiзацiї, теорiя адаптивного резонансу, оцiнка щiльностi ядра
Дата публикации: 2023
Издательство: Видавництво УжНУ "Говерла"
Библиографическое описание: Boyko, N. I. Clustering algorithms and methods for diverse data / N. I. Boyko, O. A. Tkachuk // Науковий вісник Ужгородського університету : серія: Математика і інформатика / редкол. М. М. Маляр (гол. ред.), Г. І. Сливка-Тилищак, Ю. В. Андрашко та ін. – Ужгород : Говерла, 2023. – Т. 1, Вип. 42. – С. 129–147. – Рез.: англ., укр. – Бібліогр.: с. 145–147 (15 назв)
Серия/номер: Математика і інформатика;
Краткий осмотр (реферат): The study is dedicated to the comprehensive investigation of clustering methods for diverse data. The research is focused on the problems of graphic format algorithms, which is conditioned by the presence of 12 different features for clustering, 7 of which were categorical. The data is presented along 12 axes in a graphical format. To solve the problem the PCA algorithm was applied with further transformation of categorical features into numerical for dimensionality reduction to 2 components and further orthogonal superimposition of clusters on them. Clustering using the k-prototype method was provided. A sixfold decrease in PCA algorithm has drawbacks such as enormous data loss which was presented. Based on the list of conducted experiments on hierarchical clustering the pros and cons can be seen for this approach. The complexity of clustering which consists in representation of results from the analysis of big data was provided. The KAMILA algorithm that is based on distributed computing models MapReduce and gives a significant advantage was described.
Дослiдження присвячено комплексному вивченню методiв кластеризацiї рiзнотипових даних. Дослiджуються проблеми алгоритмiв графiчного формату, що зумовленi наявнiстю 12-ти рiзних ознак для кластеризацiї, 7 з яких були категорiальнi. Представлене подання даних по 12-ти осях в графiчному форматi. Було вирiшено застосувати алгоритм PCA з перетворенням категорiальних ознак в числовi для зменшення розмiрностi даних до 2-х компонент й подальшого ортогонального накладання кластерiв на них. Наводиться застосування кластеризацiї методу к-прототипiв. Показане використання PCA для зменшення розмiрностi в 6 разiв приводить до значної втрати iнформацiї. Проведенi експерименти щодо iєрархiчної кластеризацiї рiзнотипових даних, можна вiдзначити переваги й недолiки даного пiдходу. Наведена складнiсть проведення кластеризацiї, яка полягає у представленнi результатiв аналiзу великих даних. Описаний алгоритм KAMILA, який реалiзований на моделi розподiлених обчислень MapReduce i дає значну перевагу по швидкодiї.
Тип: Text
Тип публикации: Стаття
URI (Унифицированный идентификатор ресурса): https://dspace.uzhnu.edu.ua/jspui/handle/lib/58076
ISSN: 2616-7700
Располагается в коллекциях:Науковий вісник УжНУ Серія: Математика і інформатика. Том 42 №1 - 2023

Файлы этого ресурса:
Файл Описание РазмерФормат 
CLUSTERING ALGORITHMS AND METHODS.pdf1.26 MBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.