Using the basics of regular expressions in translation and text processing

Ivashkevych, L. S.

Please use this identifier to cite or link to this item: https://dspace.uzhnu.edu.ua/jspui/handle/lib/58801

Title:	Using the basics of regular expressions in translation and text processing
Other Titles:	Використання основ регулярних виразів під час перекладу та обробки тексту
Authors:	Ivashkevych, L. S.
Keywords:	regular expressions, translation processes, text processing, programming, corpus managers, регулярні вирази, перекладацькі процеси, програмування, корпусні менеджери
Issue Date:	2021
Publisher:	Видавничий дім "Гельветика"
Citation:	Ivashkevych, L. S. Using the basics of regular expressions in translation and text processing / L. S. Ivashkevych // Закарпатські філологічні студії / редкол.: І. М. Зимомря (гол. ред.), М. М. Палінчак, Ю. М. Бідзіля та ін. – Ужгород : Видавничий дім "Гельветика", – 2021. – Вип. 16. – C. 237–245. – Бібліогр.: с. 244–245 (9 назв); рез. укр., англ.
Series/Report no.:	Закарпатські філологічні студії;
Abstract:	The article shows why it is worth introducing the basics of regular expressions in translation curricula. It briefly explains what regular expressions are and presents simple examples of their functionality, illustrating how regular expressions help execute search-and-replace tasks, not accessible for the most commonly used WYSYWIG-text processors. Regular expressions can be widely used in translation processes, namely while defining parsers and segmentation rules; while searching certain words or strings and replacing them; extracting strings for translation; creating checklists for quality assurance; post-editing machine translation, improving the quality of translation memories. Here we show how regular expressions used in a CAT-tool environment help accomplish such tasks as finding different spellings of the same word, finding word forms, finding the source and target segments with different capitalization, replacing the decimal separator, finding and deleting the odd article in the machine-translation output. The basics of regular expressions are explained in the article divided into five main groups: literal characters, metacharacters, quantifiers, characters classes, and groups. Each of these groups is an essential part of regular expressions functionality. Even each one of them separately can significantly widen the search-and-replace possibilities and simplify other text-processing tasks. In many cases, even using one single tool from the regular expressions toolbox can measurably save time for text processing. Besides, regular expressions are also integrated as a tool in many text-processing surroundings like corpus managers or text editors. They are widely used in programming in the form of special libraries. Several examples of such usage are also given at the end of the article. У статті продемонстровано, чому основи регулярних виразів варто включати до програм підготовки перекладачів. Стаття коротко розповідає про те, що таке регулярні вирази та яка їхня функціональність, ілюструючи це простими прикладами, як регулярні вирази дозволяють істотно розширити можливості пошуку, наявні у звичайних текстових редакторах, що працюють за принципом WYSYWIG (what you see is what you get). Регулярні вирази широко використовуються в перекладацьких процесах, а саме у таких його етапах, як визначення правил парсингу та сегментування, пошук певних слів та текстових фрагментів та їх заміна, екстрагування тексту для перекладу із коду чи тегів, створення списків частотних для певних мов та мовних пар помилок для забезпечення кращої якості перекладу, постредагування машинного перекладу, покращення якості та консистентності перекладацьких пам’ятей. У статті наведені приклади кількох із цих завдань, виконані у середовищі програмного забезпечення для перекладу. Стаття пропонує ознайомитися з основами регулярних виразів, для зручності розділивши їх на п’ять головних категорій: буквальні символи, метасимволи, квантифікатори, класи символів та групи. Опанування навіть однієї з них може істотно розширити можливості функціоналу пошуку та заміни та полегшити виконання інших завдань, пов’язаних із обробкою текстів, що допоможе відчутно заощадити час. Крім цього, регулярні вирази інтегровані в багато середовищ для роботи із текстами, як-то корпусні менеджери та текстові редактори. У більшості мов програмування їх функціонал використовується через імпорт спеціальних бібліотек. У статті наведені два приклади використання регулярних виразів у текстових середовищах – у корпусному менеджері та інтерактивному середовищі для програмування repl.it під час програмування мовою Python.
Type:	Text
Publication type:	Стаття
URI:	https://dspace.uzhnu.edu.ua/jspui/handle/lib/58801
ISSN:	2663-4880
Appears in Collections:	2021 / Закарпатські філологічні студії. Випуск 16

Files in This Item:

File	Description	Size	Format
USING THE BASICS OF REGULAR EXPRESSIONS.pdf		790.47 kB	Adobe PDF	View/Open

Show full item record