Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: https://dspace.uzhnu.edu.ua/jspui/handle/lib/58081
Назва: Аналіз технік зменшення розмірності в машинному навчанні
Інші назви: Analysis of Dimensionality Reduction Techniques in Machine Learning
Автори: Кондрук, Наталія Емерихівна
Ключові слова: редукцiя, зменшення розмiрностi, вiзуалiзацiя даних, високорозмiрнi данi, reduction, dimensionality reduction, data visualization, high-dimensional data
Дата публікації: 2023
Видавництво: Видавництво УжНУ "Говерла"
Бібліографічний опис: Кондрук, Н. Е. Аналіз технік зменшення розмірності в машинному навчанні / Н. Е. Кондрук // Науковий вісник Ужгородського університету : серія: Математика і інформатика / редкол. М. М. Маляр (гол. ред.), Г. І. Сливка-Тилищак, Ю. В. Андрашко та ін. – Ужгород : Говерла, 2023. – Т. 1, Вип. 42. – С. 181–187. – Рез.: укр., англ. – Бібліогр.: с. 185–187 (16 назв)
Серія/номер: Математика і інформатика;
Короткий огляд (реферат): Багато сучасних наборiв даних мають високу розмiрнiсть, яка може призводити до проблем з перевантаженням моделей, зменшенням ефективностi обробки даних та збiльшення часу навчання. Тому дослiдження застосування технiк зменшення розмiрностi даних є важливою задачею для покращення продуктивностi та швидкостi аналiзу. В роботi проведено огляд та оцiнка ефективностi сучасних технiк для зменшення розмiрностi високорозмiрного ознакового простору даних з метою вiзуалiзацiї та попередньої обробки даних. Для цього розроблено iнформацiйно-аналiтичну систему на Python, що реалiзує PSA, t-SNE, Isomap, UMAP. В якостi тестового набору даних був обраний високорозмiрний набiр «DARWIN» з 451 ознакою. В результатi експерименту всi технiки в цiлому показали подiбнi результати вiзуалiзацiї даних. t-SNE виявився найефективнiшим методом попередньої обробки даних для цього датасету, покращивши точнiсть kNN на 21% i SVC на 4%. Отриманi результати доводять, що застосування сучасних методiв зменшення розмiрностi даних може сприяти побудовi бiльш ефективних моделей та прогнозiв. Майбутнi дослiдження передбачають оцiнку синергiї технiк аналiзу даних та машинного навчання для вирiшення конкретних прикладних задач.
Many modern datasets have high dimensionality, which can lead to issues such as model overload, decreased data processing efficiency, and increased training time. Therefore, researching the application of data dimensionality reduction techniques is an important task for improving productivity and analysis speed. This work provides an overview and evaluation of the effectiveness of contemporary techniques for reducing the dimensionality of high-dimensional feature spaces in data, aiming at data visualization and preprocessing. To accomplish this, an information analytics system was developed in Python, that implements PCA, t-SNE, Isomap, and UMAP. The "DARWIN" dataset with 451 features was selected as the test dataset. The experimental results showed similar data visualization outcomes for all techniques overall. t-SNE proved to be the most effective data preprocessing method for this dataset, improving the accuracy of kNN by 21% and SVC by 4%. The obtained results demonstrate that modern data dimensionality reduction methods can contribute to constructing more effective models and predictions. Future research will involve evaluating the synergy between data analysis techniques and machine learning to address specific applied problems.
Тип: Text
Тип публікації: Стаття
URI (Уніфікований ідентифікатор ресурсу): https://dspace.uzhnu.edu.ua/jspui/handle/lib/58081
ISSN: 2616-7700
Розташовується у зібраннях:Науковий вісник УжНУ Серія: Математика і інформатика. Том 42 №1 - 2023

Файли цього матеріалу:
Файл Опис РозмірФормат 
АНАЛIЗ ТЕХНIК ЗМЕНШЕННЯ РОЗМIРНОСТI.pdf471.79 kBAdobe PDFПереглянути/Відкрити


Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.