Statistical features of engineering texts

Nevreva, M. M.; Prysyazhnyuk, O. A.; Vorobyova, K. V.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://dspace.uzhnu.edu.ua/jspui/handle/lib/76062

Название:	Statistical features of engineering texts
Другие названия:	Статистичні особливості технічних текстів
Авторы:	Nevreva, M. M. Prysyazhnyuk, O. A. Vorobyova, K. V.
Ключевые слова:	semantic space, probabilistic-statistical model, token, frequency dictionary, frequency zone, семантичний простір, ймовірнісно-статистична модель, слововживання, частотний словник, частотна зона
Дата публикации:	2025
Издательство:	Видавничий дім «Гельветика»
Библиографическое описание:	Nevreva, M. M. Statistical features of engineering texts / M. M. Nevreva, O. A. Prysyazhnyuk, K. V. Vorobyova // Закарпатські філологічні студії / редкол.: І. М. Зимомря (голов. ред.), М. М. Палінчак, Ю. М. Бідзіля та ін. – Ужгород : Видавничий дім "Гельветика", – 2025. – Т. 2, вип. 40. – С. 177–181. – Бібліогр.: с. 180–181 (14 назв); рез. укр., англ. URL http://zfs-journal.uzhnu.uz.ua/archive/40/part_2/31.pdf
Серия/номер:	Закарпатські філологічні студії;
Краткий осмотр (реферат):	The presented article describes statistical data that characterize probabilistic-statistical models of three technical specialties. The material was text corpora of the specialties chemical engineering, automotive engineering and electrical engineering. The text corpora were compiled on the basis of scientific articles published in the corresponding journals in the USA and Great Britain. At the beginning, the authors assumed that since all three text corpora relate to scientific and technical discourse and do not interact in terms of general scientific topics, but represent completely different branches of technology, they could create an example of style-distinguishing marker in the course of the procedure of comparison. However, different approaches to the formation of text corpora, and, above all, the principles and goals of creating the semantic space of all three specialties led to a sharp difference between the quantitative values of all three frequency dictionaries. The authors of the probabilistic-statistical model of chemical engineering sought to evenly distribute text units across the frequency dictionary and, for this purpose, selected texts that had practically common technical problems, and, accordingly, repeated lexical units that described these problems. This was easily achieved by creating a simple and fairly limited scheme of semantic space, including a few problems that relate to the subjects of this specialty. The same was done by the authors of the text corpus of automotive engineering. As to the authors of the text corpus of electrical engineering they attempted to include practically all scientific and technical problems of this specialty in the semantic space. Therefore, firstly, within the frequency dictionary of electrical engineering itself, sharp differences in quantitative values were observed between the high-frequency and low-frequency zones. Secondly, when comparing the quantitative values of three probabilistic-statistical models, which were expected to be practically identical, the data of the dictionary of electrical engineering were completely different from the dictionaries of chemical engineering and automobile engineering. As a result of the study, the authors proposed to observe one of two conditions when forming text corpora: if it is supposed to consider as many technical problems as possible, then it is necessary to either significantly increase the size of text corpus, or to approach the selection of texts more carefully. У представленій статті описано статистичні дані, що характеризують ймовірнісно-статистичні моделі трьох технічних спеціальностей. Матеріалом слугували текстові корпуси спеціальностей хімічного машинобудування, автомобілебудування та електротехніки. Текстові корпуси були складені на основі наукових статей, опублікованих у відповідних журналах США та Великої Британії. Спочатку автори припускали, що оскільки всі три текстові корпуси стосуються науково-технічного дискурсу та не взаємодіють з точки зору наукових тем, а представляють абсолютно різні галузі техніки, вони можуть створити приклад стилістичного розрізнювального маркера в ході процедури порівняння. Однак, різні підходи до формування текстових корпусів, і, перш за все, принципи та цілі створення семантичного простору всіх трьох спеціальностей, призвели до різкої різниці між кількісними значеннями всіх трьох частотних словників. Автори ймовірнісно-статистичної моделі хімічного машинобудування прагнули рівномірно розподілити текстові одиниці по частотному словнику та для цього відбирали тексти, що мали практично спільні технічні проблеми, і, відповідно, повторювані лексичні одиниці, що описували ці проблеми. Цього було легко досягти, створивши просту та досить обмежену схему семантичного простору, що включає кілька проблем, які стосуються проблем цієї спеціальності. Те ж саме зробили й автори текстового корпусу автомобілебудування. Що ж до авторів текстового корпусу електротехніки, то вони намагалися включити практично всі науково-технічні проблеми цієї спеціальності до семантичного простору. Тому, по-перше, в межах самого частотного словника електротехніки спостерігалися різкі відмінності в кількісних значеннях між високочастотною та низькочастотною зонами. По-друге, при порівнянні кількісних значень трьох ймовірнісно-статистичних моделей, які очікувалися практично ідентичними, дані словника з електротехніки повністю відрізнялися від значень словників хімічного та автомобільного будування. В результаті дослідження автори запропонували дотримуватися однієї з двох умов при формуванні текстових корпусів: якщо передбачається врахування якомога більшої кількості технічних проблем, то необхідно або значно збільшити розмір текстового корпусу, або ретельніше підійти до відбору текстів.
Тип:	Text
Тип публикации:	Стаття
URI (Унифицированный идентификатор ресурса):	https://dspace.uzhnu.edu.ua/jspui/handle/lib/76062
ISSN:	2663-4899
Располагается в коллекциях:	2025 / Закарпатські філологічні студії. Випуск 40 (Том 2)

Файлы этого ресурса:

Файл	Описание	Размер	Формат
STATISTICAL FEATURES OF ENGINEERING TEXTS.pdf		347.55 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.