Розпiзнавання математичних формул на базi даних CROHME

Дяконюк, Л. М.; Мудрик, А. С.; Корольчук, Я. А.; Кондор, М. І.

Please use this identifier to cite or link to this item: https://dspace.uzhnu.edu.ua/jspui/handle/lib/38100

Title:	Розпiзнавання математичних формул на базi даних CROHME
Other Titles:	Object detection of the mathematical symbols based on the CROHME dataset.
Authors:	Дяконюк, Л. М. Мудрик, А. С. Корольчук, Я. А. Кондор, М. І.
Keywords:	розпiзнавання об’єктiв, Retina.Net, набiр даних, машинне навчання, CROHME
Issue Date:	2021
Publisher:	Видавництво УжНУ "Говерла"
Citation:	Розпiзнавання математичних формул на базi даних CROHME [Текст] / Л. М. Дяконюк, А. С. Мудрик, Я. А. Корольчук, М. I. Кондор // Науковий вісник Ужгородського університету : серія Математика і Інформатика / редкол. М. М. Маляр. – Ужгород : Говерла, 2021. – Вип. 38№1. – С. 137-142. – Бібліогр.: с. 141-142 (9 назв). – Рез. укр., англ.
Series/Report no.:	Математика і інформатика;
Abstract:	The highest accuracy object detectors to date are based on a two-stage approach popu- larized by R-CNN, where a classifier is applied to a sparse set of candidate object locations. In contrast, one-stage detectors that are applied over a regular, dense sampling of possible object locations have the potential to be faster and simpler but have trailed the accuracy of two-stage detectors thus far. But with new extreme foreground-background class im- balance encountered during training of dense detectors, one-stage detector wins by perfor- mance and accuracy. We use this class imbalance by reshaping the standard cross-entropy loss such that it down-weights the loss assigned to well-classified examples. In RetinaNet architecture, Focal Loss focuses training on a sparse set of hard examples and prevents the vast number of easy negatives from overwhelming the detector during training. We tested RetinaNet on a CROHME dataset that was increased by the default image augmentation algorithm. Also, we compare two machine learning libraries: TensorFlow and Torch. Our results show that when a model is trained with the focal loss RetinaNet shows very good results and has a good speed. Also, we integrate the inference model into service as a part of microservice architecture. As a database for user clients, we use MongoDB. As the main Web framework, we use NodeJs and VueJs. We use AWS as a cloud service for deploying the application. All functionality we deployed based on the AWS Lambda functions. Keywords: one-stage detectors, object detection, RetinaNet, dataset, machine learning, CROHME. У наш час найбiльш точнi моделi для розпiзнавання об’єктiв базуються на дво- ступеневому пiдходi, популяризованому як R-CNN. На вiдмiну вiд них, одноступеневi моделi, що застосовуються пiд час регулярного, детального вiдбору зразкiв, можуть бути швидшими та простiшими, але вони не досягають точностi двоступеневих моде- лей. Проте з новою функцiєю втрат, дисбаланс класу, який виникає пiд час тренування на наборi даних, зникає. Саме тому одноступенева модель має переваги в продуктив- ностi та точностi на вiдмiну вiд двоступеневої. У роботi використано цей дисбаланс класiв, щоб переформувати стандартнi, перехреснi ентропiйнi втрати таким чином, щоб зменшити їх. В архiтектурi RetinaNet [1], функцiя втрат Focal Loss [1] сфокусо- вує навчання на наборi даних, якi зустрiчаються рiдше, i запобiгає перевантаженню моделi пiд час тренувань. Архiтектура RetinaNet була протестована на наборi даних CROHME [4], що був розширений за допомогою алгоритму Data Augmentation [9] для збiльшення частоти входження певних елементiв формул. Також було порiвняно двi бiблiотеки машинного навчання: TensorFlow та Torch. Отриманi результати показу- ють, що коли модель тренується з фокальною втратою, RetinaNet показує дуже добрi результати та має хорошу швидкiсть виконання. Окрiм того, отриману модель було iнтегровано в веб-застосунок на основi мiкросервiсної архiтектури. Основними веб- фреймворками було використано NodeJs для серверної частини та VueJs для рiвня подання. Для роботи з базами даних ми використовуємо MongoDB. Розгортання про- грами вiдбувається за допомогою хмарної служби AWS на основi Lambda-функцiй, що дає змогу виокремити процеси навчання, обробки, вiзуалiзацiї та контролювати ресурси серверу окремо для кожного процесу. Ключовi слова: розпiзнавання об’єктiв, Retina.Net, набiр даних, машинне навчання, CROHME.
Type:	Text
Publication type:	Стаття
URI:	https://dspace.uzhnu.edu.ua/jspui/handle/lib/38100
ISSN:	2708-9568
Appears in Collections:	2021 / Науковий вісник УжНУ. Серія: Математика і інформатика. Випуск 1 (38)

Files in This Item:

File	Description	Size	Format
Розпізнавання математичних.pdf		476.88 kB	Adobe PDF	View/Open

Show full item record