Please use this identifier to cite or link to this item:
https://dspace.uzhnu.edu.ua/jspui/handle/lib/58801
Title: | Using the basics of regular expressions in translation and text processing |
Other Titles: | Використання основ регулярних виразів під час перекладу та обробки тексту |
Authors: | Ivashkevych, L. S. |
Keywords: | regular expressions, translation processes, text processing, programming, corpus managers, регулярні вирази, перекладацькі процеси, програмування, корпусні менеджери |
Issue Date: | 2021 |
Publisher: | Видавничий дім "Гельветика" |
Citation: | Ivashkevych, L. S. Using the basics of regular expressions in translation and text processing / L. S. Ivashkevych // Закарпатські філологічні студії / редкол.: І. М. Зимомря (гол. ред.), М. М. Палінчак, Ю. М. Бідзіля та ін. – Ужгород : Видавничий дім "Гельветика", – 2021. – Вип. 16. – C. 237–245. – Бібліогр.: с. 244–245 (9 назв); рез. укр., англ. |
Series/Report no.: | Закарпатські філологічні студії; |
Abstract: | The article shows why it is worth introducing the basics of regular expressions in translation curricula. It briefly explains
what regular expressions are and presents simple examples of their functionality, illustrating how regular expressions help
execute search-and-replace tasks, not accessible for the most commonly used WYSYWIG-text processors.
Regular expressions can be widely used in translation processes, namely while defining parsers and segmentation
rules; while searching certain words or strings and replacing them; extracting strings for translation; creating checklists
for quality assurance; post-editing machine translation, improving the quality of translation memories. Here we show how
regular expressions used in a CAT-tool environment help accomplish such tasks as finding different spellings of the same
word, finding word forms, finding the source and target segments with different capitalization, replacing the decimal
separator, finding and deleting the odd article in the machine-translation output.
The basics of regular expressions are explained in the article divided into five main groups: literal characters,
metacharacters, quantifiers, characters classes, and groups. Each of these groups is an essential part of regular
expressions functionality. Even each one of them separately can significantly widen the search-and-replace possibilities
and simplify other text-processing tasks. In many cases, even using one single tool from the regular expressions toolbox
can measurably save time for text processing.
Besides, regular expressions are also integrated as a tool in many text-processing surroundings like corpus managers
or text editors. They are widely used in programming in the form of special libraries. Several examples of such usage are
also given at the end of the article. У статті продемонстровано, чому основи регулярних виразів варто включати до програм підготовки перекладачів. Стаття коротко розповідає про те, що таке регулярні вирази та яка їхня функціональність, ілюструючи це простими прикладами, як регулярні вирази дозволяють істотно розширити можливості пошуку, наявні у звичайних текстових редакторах, що працюють за принципом WYSYWIG (what you see is what you get). Регулярні вирази широко використовуються в перекладацьких процесах, а саме у таких його етапах, як визначення правил парсингу та сегментування, пошук певних слів та текстових фрагментів та їх заміна, екстрагування тексту для перекладу із коду чи тегів, створення списків частотних для певних мов та мовних пар помилок для забезпечення кращої якості перекладу, постредагування машинного перекладу, покращення якості та консистентності перекладацьких пам’ятей. У статті наведені приклади кількох із цих завдань, виконані у середовищі програмного забезпечення для перекладу. Стаття пропонує ознайомитися з основами регулярних виразів, для зручності розділивши їх на п’ять головних категорій: буквальні символи, метасимволи, квантифікатори, класи символів та групи. Опанування навіть однієї з них може істотно розширити можливості функціоналу пошуку та заміни та полегшити виконання інших завдань, пов’язаних із обробкою текстів, що допоможе відчутно заощадити час. Крім цього, регулярні вирази інтегровані в багато середовищ для роботи із текстами, як-то корпусні менеджери та текстові редактори. У більшості мов програмування їх функціонал використовується через імпорт спеціальних бібліотек. У статті наведені два приклади використання регулярних виразів у текстових середовищах – у корпусному менеджері та інтерактивному середовищі для програмування repl.it під час програмування мовою Python. |
Type: | Text |
Publication type: | Стаття |
URI: | https://dspace.uzhnu.edu.ua/jspui/handle/lib/58801 |
ISSN: | 2663-4880 |
Appears in Collections: | Закарпатські філологічні студії Випуск 16 2021 |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
USING THE BASICS OF REGULAR EXPRESSIONS.pdf | 790.47 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.