Розпiзнавання математичних формул на базi даних CROHME

Дяконюк, Л. М.; Мудрик, А. С.; Корольчук, Я. А.; Кондор, М. І.

Please use this identifier to cite or link to this item: https://dspace.uzhnu.edu.ua/jspui/handle/lib/38100

Full metadata record

DC Field	Value	Language
dc.contributor.author	Дяконюк, Л. М.	-
dc.contributor.author	Мудрик, А. С.	-
dc.contributor.author	Корольчук, Я. А.	-
dc.contributor.author	Кондор, М. І.	-
dc.date.accessioned	2021-11-30T09:55:54Z	-
dc.date.available	2021-11-30T09:55:54Z	-
dc.date.issued	2021	-
dc.identifier.citation	Розпiзнавання математичних формул на базi даних CROHME [Текст] / Л. М. Дяконюк, А. С. Мудрик, Я. А. Корольчук, М. I. Кондор // Науковий вісник Ужгородського університету : серія Математика і Інформатика / редкол. М. М. Маляр. – Ужгород : Говерла, 2021. – Вип. 38№1. – С. 137-142. – Бібліогр.: с. 141-142 (9 назв). – Рез. укр., англ.	uk
dc.identifier.issn	2708-9568	-
dc.identifier.uri	https://dspace.uzhnu.edu.ua/jspui/handle/lib/38100	-
dc.description.abstract	The highest accuracy object detectors to date are based on a two-stage approach popu- larized by R-CNN, where a classifier is applied to a sparse set of candidate object locations. In contrast, one-stage detectors that are applied over a regular, dense sampling of possible object locations have the potential to be faster and simpler but have trailed the accuracy of two-stage detectors thus far. But with new extreme foreground-background class im- balance encountered during training of dense detectors, one-stage detector wins by perfor- mance and accuracy. We use this class imbalance by reshaping the standard cross-entropy loss such that it down-weights the loss assigned to well-classified examples. In RetinaNet architecture, Focal Loss focuses training on a sparse set of hard examples and prevents the vast number of easy negatives from overwhelming the detector during training. We tested RetinaNet on a CROHME dataset that was increased by the default image augmentation algorithm. Also, we compare two machine learning libraries: TensorFlow and Torch. Our results show that when a model is trained with the focal loss RetinaNet shows very good results and has a good speed. Also, we integrate the inference model into service as a part of microservice architecture. As a database for user clients, we use MongoDB. As the main Web framework, we use NodeJs and VueJs. We use AWS as a cloud service for deploying the application. All functionality we deployed based on the AWS Lambda functions. Keywords: one-stage detectors, object detection, RetinaNet, dataset, machine learning, CROHME.	uk
dc.description.abstract	У наш час найбiльш точнi моделi для розпiзнавання об’єктiв базуються на дво- ступеневому пiдходi, популяризованому як R-CNN. На вiдмiну вiд них, одноступеневi моделi, що застосовуються пiд час регулярного, детального вiдбору зразкiв, можуть бути швидшими та простiшими, але вони не досягають точностi двоступеневих моде- лей. Проте з новою функцiєю втрат, дисбаланс класу, який виникає пiд час тренування на наборi даних, зникає. Саме тому одноступенева модель має переваги в продуктив- ностi та точностi на вiдмiну вiд двоступеневої. У роботi використано цей дисбаланс класiв, щоб переформувати стандартнi, перехреснi ентропiйнi втрати таким чином, щоб зменшити їх. В архiтектурi RetinaNet [1], функцiя втрат Focal Loss [1] сфокусо- вує навчання на наборi даних, якi зустрiчаються рiдше, i запобiгає перевантаженню моделi пiд час тренувань. Архiтектура RetinaNet була протестована на наборi даних CROHME [4], що був розширений за допомогою алгоритму Data Augmentation [9] для збiльшення частоти входження певних елементiв формул. Також було порiвняно двi бiблiотеки машинного навчання: TensorFlow та Torch. Отриманi результати показу- ють, що коли модель тренується з фокальною втратою, RetinaNet показує дуже добрi результати та має хорошу швидкiсть виконання. Окрiм того, отриману модель було iнтегровано в веб-застосунок на основi мiкросервiсної архiтектури. Основними веб- фреймворками було використано NodeJs для серверної частини та VueJs для рiвня подання. Для роботи з базами даних ми використовуємо MongoDB. Розгортання про- грами вiдбувається за допомогою хмарної служби AWS на основi Lambda-функцiй, що дає змогу виокремити процеси навчання, обробки, вiзуалiзацiї та контролювати ресурси серверу окремо для кожного процесу. Ключовi слова: розпiзнавання об’єктiв, Retina.Net, набiр даних, машинне навчання, CROHME.	uk
dc.language.iso	uk	uk
dc.publisher	Видавництво УжНУ "Говерла"	uk
dc.relation.ispartofseries	Математика і інформатика;	-
dc.subject	розпiзнавання об’єктiв	uk
dc.subject	Retina.Net	uk
dc.subject	набiр даних	uk
dc.subject	машинне навчання	uk
dc.subject	CROHME	uk
dc.title	Розпiзнавання математичних формул на базi даних CROHME	uk
dc.title.alternative	Object detection of the mathematical symbols based on the CROHME dataset.	uk
dc.type	Text	uk
dc.pubType	Стаття	uk
Appears in Collections:	Науковий вісник УжНУ Серія: Математика і інформатика. Випуск №1 (38) - 2021

Files in This Item:

File	Description	Size	Format
Розпізнавання математичних.pdf		476.88 kB	Adobe PDF	View/Open

Show simple item record