Please use this identifier to cite or link to this item: https://dspace.uzhnu.edu.ua/jspui/handle/lib/47084
Title: Використання глибинного навчання у задачах класифiкацiї звукiв навколишнього середовища
Other Titles: Using deep learning for environmental sound's classi cation.
Authors: Добуляк, Л.П,
Фербей, Д.О.
Костенко, С.Б.
Keywords: класифiкацiя, звуки навколишнього середовища, збiльшення даних, спектрограма, згорткова нейронна мережа
Issue Date: 2022
Publisher: Вид-во УжНУ Говерла
Citation: Добуляк, Л. П. Використання глибинного навчання у задачах класифiкацiї звукiв навколишнього середовища / Л. П. Добуляк, Д. О. Фербей, С. Б. Костенко // Науковий вісник Ужгородського університету : серія: Математика і інформатика / редкол. М. М. Маляр. – Ужгород : Говерла, 2022. – Вип. 41, №2. – С. 118–127. – Бібліогр.: с. 125–126 (18 назв).
Series/Report no.: Математика і інформатика;
Abstract: У данiй статтi розглянуто рiзнi аспекти, пов’язанi з розпiзнаванням звукiв навколи- шнього середовища, що є прикладною задачею в багатьох сферах дiяльностi людини. На вiдмiну вiд музики та мови, звук навколишнього середовища насичений шумом i не має ритму та мелодiї музики або семантичної послiдовностi мови. Це ускладнює пошук спiльних рис серед звукових сигналiв навколишнього середовища. У даному до- слiдженнi розв’язання задачi розпiзнавання звукiв базуються на використаннi методiв класифiкацiї зображень. Для цього виконується перетворення кожного аудiо-запису вибiрки у спецiальнi зображення — спектрограму Мела, що є його компактним iнфор- мативним вiзуальним представленням. Щоб пiдвищити точнiсть розпiзнавання зву- кiв, дослiджуються рiзнi методи збiльшення навчального набору даних. В основi цих методiв лежить створення нових екземплярiв аудiозаписiв шляхом деформацiї iсную- чих. За допомогою такого пiдходу ми можемо збiльшити в рази кiлькiсть елементiв набору даних, таким чином вирiшити проблему його обмеженостi. Для класифiкацiї звукiв навколишнього середовища з набору аудiоданих UrbanSound8K було викори- стано глибинну згорткову нейронну мережу. Щоб оцiнити якiсть (точнiсть та втрати) представленої моделi було застосовано 10-кратну перехресну перевiрку. Ключовi слова: класифiкацiя, звуки навколишнього середовища, збiльшення даних, спектрограма, згорткова нейронна мережа.
Environmental sound recognition is an applied problem in many spheres of human activity. Unlike music and speech, ambient sound is saturated with noise and lacks the rhythm and melody of music or the semantic consistency of speech. This makes it difficult to find common features among environmental sound signals. In order to improve the accuracy of sound recognition, this paper proposes different methods for increasing the training data set. The basis of these methods is the creation of new instances of audio recordings by deformation of existing ones. Using this approach, we can increase the number of data set elements several times and solve the problem of its limitation. In order to convert the data sample into an image, the Mel spectrogram is used, which is a compact informative representation of the audio signal, which is convenient to use in further work. A deep convolutional neural network was used to classify environmental sound from the UrbanSound8K audio dataset. A 10-fold cross-validation was applied to assess the quality (accuracy and loss) of the presented model. Keywords: classification, environmental sounds, data augmentation, spectrogram, convolutional neural network.
Type: Text
Publication type: Стаття
URI: https://dspace.uzhnu.edu.ua/jspui/handle/lib/47084
ISSN: 2616-7700
2708-9568
Appears in Collections:Науковий вісник УжНУ Серія: Математика і інформатика. Том 41, №2. - 2022

Files in This Item:
File Description SizeFormat 
Використання глибинного навчання.pdf1.01 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.