Please use this identifier to cite or link to this item:
https://dspace.uzhnu.edu.ua/jspui/handle/lib/58081
Title: | Аналіз технік зменшення розмірності в машинному навчанні |
Other Titles: | Analysis of Dimensionality Reduction Techniques in Machine Learning |
Authors: | Кондрук, Наталія Емерихівна |
Keywords: | редукцiя, зменшення розмiрностi, вiзуалiзацiя даних, високорозмiрнi данi, reduction, dimensionality reduction, data visualization, high-dimensional data |
Issue Date: | 2023 |
Publisher: | Видавництво УжНУ "Говерла" |
Citation: | Кондрук, Н. Е. Аналіз технік зменшення розмірності в машинному навчанні / Н. Е. Кондрук // Науковий вісник Ужгородського університету : серія: Математика і інформатика / редкол. М. М. Маляр (гол. ред.), Г. І. Сливка-Тилищак, Ю. В. Андрашко та ін. – Ужгород : Говерла, 2023. – Т. 1, Вип. 42. – С. 181–187. – Рез.: укр., англ. – Бібліогр.: с. 185–187 (16 назв) |
Series/Report no.: | Математика і інформатика; |
Abstract: | Багато сучасних наборiв даних мають високу розмiрнiсть, яка може призводити
до проблем з перевантаженням моделей, зменшенням ефективностi обробки даних та
збiльшення часу навчання. Тому дослiдження застосування технiк зменшення розмiрностi даних є важливою задачею для покращення продуктивностi та швидкостi
аналiзу. В роботi проведено огляд та оцiнка ефективностi сучасних технiк для зменшення розмiрностi високорозмiрного ознакового простору даних з метою вiзуалiзацiї
та попередньої обробки даних. Для цього розроблено iнформацiйно-аналiтичну систему на Python, що реалiзує PSA, t-SNE, Isomap, UMAP. В якостi тестового набору
даних був обраний високорозмiрний набiр «DARWIN» з 451 ознакою. В результатi експерименту всi технiки в цiлому показали подiбнi результати вiзуалiзацiї даних. t-SNE
виявився найефективнiшим методом попередньої обробки даних для цього датасету,
покращивши точнiсть kNN на 21% i SVC на 4%. Отриманi результати доводять, що
застосування сучасних методiв зменшення розмiрностi даних може сприяти побудовi
бiльш ефективних моделей та прогнозiв. Майбутнi дослiдження передбачають оцiнку синергiї технiк аналiзу даних та машинного навчання для вирiшення конкретних
прикладних задач. Many modern datasets have high dimensionality, which can lead to issues such as model overload, decreased data processing efficiency, and increased training time. Therefore, researching the application of data dimensionality reduction techniques is an important task for improving productivity and analysis speed. This work provides an overview and evaluation of the effectiveness of contemporary techniques for reducing the dimensionality of high-dimensional feature spaces in data, aiming at data visualization and preprocessing. To accomplish this, an information analytics system was developed in Python, that implements PCA, t-SNE, Isomap, and UMAP. The "DARWIN" dataset with 451 features was selected as the test dataset. The experimental results showed similar data visualization outcomes for all techniques overall. t-SNE proved to be the most effective data preprocessing method for this dataset, improving the accuracy of kNN by 21% and SVC by 4%. The obtained results demonstrate that modern data dimensionality reduction methods can contribute to constructing more effective models and predictions. Future research will involve evaluating the synergy between data analysis techniques and machine learning to address specific applied problems. |
Type: | Text |
Publication type: | Стаття |
URI: | https://dspace.uzhnu.edu.ua/jspui/handle/lib/58081 |
ISSN: | 2616-7700 |
Appears in Collections: | Науковий вісник УжНУ Серія: Математика і інформатика. Том 42 №1 - 2023 |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
АНАЛIЗ ТЕХНIК ЗМЕНШЕННЯ РОЗМIРНОСТI.pdf | 471.79 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.