Please use this identifier to cite or link to this item:
https://dspace.uzhnu.edu.ua/jspui/handle/lib/38100
Title: | Розпiзнавання математичних формул на базi даних CROHME |
Other Titles: | Object detection of the mathematical symbols based on the CROHME dataset. |
Authors: | Дяконюк, Л. М. Мудрик, А. С. Корольчук, Я. А. Кондор, М. І. |
Keywords: | розпiзнавання об’єктiв, Retina.Net, набiр даних, машинне навчання, CROHME |
Issue Date: | 2021 |
Publisher: | Видавництво УжНУ "Говерла" |
Citation: | Розпiзнавання математичних формул на базi даних CROHME [Текст] / Л. М. Дяконюк, А. С. Мудрик, Я. А. Корольчук, М. I. Кондор // Науковий вісник Ужгородського університету : серія Математика і Інформатика / редкол. М. М. Маляр. – Ужгород : Говерла, 2021. – Вип. 38№1. – С. 137-142. – Бібліогр.: с. 141-142 (9 назв). – Рез. укр., англ. |
Series/Report no.: | Математика і інформатика; |
Abstract: | The highest accuracy object detectors to date are based on a two-stage approach popu-
larized by R-CNN, where a classifier is applied to a sparse set of candidate object locations. In
contrast, one-stage detectors that are applied over a regular, dense sampling of possible object
locations have the potential to be faster and simpler but have trailed the accuracy of two-stage
detectors thus far. But with new extreme foreground-background class im- balance encountered during
training of dense detectors, one-stage detector wins by perfor- mance and accuracy. We use this
class imbalance by reshaping the standard cross-entropy loss such that it down-weights the loss
assigned to well-classified examples. In RetinaNet architecture, Focal Loss focuses training on a
sparse set of hard examples and prevents the vast number of easy negatives from overwhelming the
detector during training. We tested RetinaNet on a CROHME dataset that was increased by the default
image augmentation algorithm. Also, we compare two machine learning libraries: TensorFlow and
Torch. Our results show that when a model is trained with the focal loss RetinaNet shows very good
results and has a good speed. Also, we integrate the inference model into service as a part of
microservice architecture. As a database for user clients, we use MongoDB. As the main Web
framework, we use NodeJs and VueJs. We use AWS as a cloud service for deploying the application.
All functionality we deployed based on the AWS Lambda functions.
Keywords: one-stage detectors, object detection, RetinaNet, dataset, machine learning,
CROHME. У наш час найбiльш точнi моделi для розпiзнавання об’єктiв базуються на дво- ступеневому пiдходi, популяризованому як R-CNN. На вiдмiну вiд них, одноступеневi моделi, що застосовуються пiд час регулярного, детального вiдбору зразкiв, можуть бути швидшими та простiшими, але вони не досягають точностi двоступеневих моде- лей. Проте з новою функцiєю втрат, дисбаланс класу, який виникає пiд час тренування на наборi даних, зникає. Саме тому одноступенева модель має переваги в продуктив- ностi та точностi на вiдмiну вiд двоступеневої. У роботi використано цей дисбаланс класiв, щоб переформувати стандартнi, перехреснi ентропiйнi втрати таким чином, щоб зменшити їх. В архiтектурi RetinaNet [1], функцiя втрат Focal Loss [1] сфокусо- вує навчання на наборi даних, якi зустрiчаються рiдше, i запобiгає перевантаженню моделi пiд час тренувань. Архiтектура RetinaNet була протестована на наборi даних CROHME [4], що був розширений за допомогою алгоритму Data Augmentation [9] для збiльшення частоти входження певних елементiв формул. Також було порiвняно двi бiблiотеки машинного навчання: TensorFlow та Torch. Отриманi результати показу- ють, що коли модель тренується з фокальною втратою, RetinaNet показує дуже добрi результати та має хорошу швидкiсть виконання. Окрiм того, отриману модель було iнтегровано в веб-застосунок на основi мiкросервiсної архiтектури. Основними веб- фреймворками було використано NodeJs для серверної частини та VueJs для рiвня подання. Для роботи з базами даних ми використовуємо MongoDB. Розгортання про- грами вiдбувається за допомогою хмарної служби AWS на основi Lambda-функцiй, що дає змогу виокремити процеси навчання, обробки, вiзуалiзацiї та контролювати ресурси серверу окремо для кожного процесу. Ключовi слова: розпiзнавання об’єктiв, Retina.Net, набiр даних, машинне навчання, CROHME. |
Type: | Text |
Publication type: | Стаття |
URI: | https://dspace.uzhnu.edu.ua/jspui/handle/lib/38100 |
ISSN: | 2708-9568 |
Appears in Collections: | Науковий вісник УжНУ Серія: Математика і інформатика. Випуск №1 (38) - 2021 |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Розпізнавання математичних.pdf | 476.88 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.