Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
https://dspace.uzhnu.edu.ua/jspui/handle/lib/58076
Название: | Clustering algorithms and methods for diverse data |
Другие названия: | Алгоритми та методи кластеризацiї для рiзноманiтних даних |
Авторы: | Boyko, N. I. Tkachuk, O. A. |
Ключевые слова: | expectation-maximization, Structural equation modeling, KAy-means for MIxedLArge data, Lowest common ancestor, self-organizing map, Adaptive resonance theory, Kernel Density Estimation, максимiзацiя очiкування, моделювання структурних рiвнянь, KAy- середнi для даних MIxedLArge, найменший спiльний предок, карта самоорганiзацiї, теорiя адаптивного резонансу, оцiнка щiльностi ядра |
Дата публикации: | 2023 |
Издательство: | Видавництво УжНУ "Говерла" |
Библиографическое описание: | Boyko, N. I. Clustering algorithms and methods for diverse data / N. I. Boyko, O. A. Tkachuk // Науковий вісник Ужгородського університету : серія: Математика і інформатика / редкол. М. М. Маляр (гол. ред.), Г. І. Сливка-Тилищак, Ю. В. Андрашко та ін. – Ужгород : Говерла, 2023. – Т. 1, Вип. 42. – С. 129–147. – Рез.: англ., укр. – Бібліогр.: с. 145–147 (15 назв) |
Серия/номер: | Математика і інформатика; |
Краткий осмотр (реферат): | The study is dedicated to the comprehensive investigation of clustering methods for
diverse data. The research is focused on the problems of graphic format algorithms, which
is conditioned by the presence of 12 different features for clustering, 7 of which were categorical.
The data is presented along 12 axes in a graphical format. To solve the problem
the PCA algorithm was applied with further transformation of categorical features into
numerical for dimensionality reduction to 2 components and further orthogonal superimposition
of clusters on them. Clustering using the k-prototype method was provided. A
sixfold decrease in PCA algorithm has drawbacks such as enormous data loss which was
presented. Based on the list of conducted experiments on hierarchical clustering the pros
and cons can be seen for this approach. The complexity of clustering which consists in
representation of results from the analysis of big data was provided. The KAMILA algorithm
that is based on distributed computing models MapReduce and gives a significant
advantage was described. Дослiдження присвячено комплексному вивченню методiв кластеризацiї рiзнотипових даних. Дослiджуються проблеми алгоритмiв графiчного формату, що зумовленi наявнiстю 12-ти рiзних ознак для кластеризацiї, 7 з яких були категорiальнi. Представлене подання даних по 12-ти осях в графiчному форматi. Було вирiшено застосувати алгоритм PCA з перетворенням категорiальних ознак в числовi для зменшення розмiрностi даних до 2-х компонент й подальшого ортогонального накладання кластерiв на них. Наводиться застосування кластеризацiї методу к-прототипiв. Показане використання PCA для зменшення розмiрностi в 6 разiв приводить до значної втрати iнформацiї. Проведенi експерименти щодо iєрархiчної кластеризацiї рiзнотипових даних, можна вiдзначити переваги й недолiки даного пiдходу. Наведена складнiсть проведення кластеризацiї, яка полягає у представленнi результатiв аналiзу великих даних. Описаний алгоритм KAMILA, який реалiзований на моделi розподiлених обчислень MapReduce i дає значну перевагу по швидкодiї. |
Тип: | Text |
Тип публикации: | Стаття |
URI (Унифицированный идентификатор ресурса): | https://dspace.uzhnu.edu.ua/jspui/handle/lib/58076 |
ISSN: | 2616-7700 |
Располагается в коллекциях: | Науковий вісник УжНУ Серія: Математика і інформатика. Том 42 №1 - 2023 |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
CLUSTERING ALGORITHMS AND METHODS.pdf | 1.26 MB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.