Please use this identifier to cite or link to this item: https://dspace.uzhnu.edu.ua/jspui/handle/lib/59404
Title: Statistical methods of formation of text corpora and lexicographic resources (on the basis of the specialty “Acoustics and Ultrasonic”)
Other Titles: Статистичні методи формування текстових корпусів і лексикографічних ресурсів (на прикладі спеціальності «Акустика і ультразвукова техніка»)
Authors: Dyachenko, G. F.
Mykhailiuk, S. L.
Duvanskaya, I. F.
Ershova, Yu. A.
Keywords: absolute frequency, relative frequency, probabilistic-statistical model, subtopic, text corpus, абсолютна частота, відносна частота, ймовірносно-статистична модель, підтема, текстовий корпус
Issue Date: 2018
Publisher: Видавничий дім "Гельветика"
Citation: Statistical methods of formation of text corpora and lexicographic resources (on the basis of the specialty “Acoustics and Ultrasonic”) / G. F. Dyachenko, S. L. Mykhailiuk, I. F. Duvanskaya, Yu. A. Ershova // Закарпатські філологічні студії / редкол.: І. М. Зимомря (голов. ред.), О. Ю. Кочмар, Х. І. Зикань та ін. – Ужгород : Видавничий дім "Гельветика", – 2018. – Вип. 6. – C. 158–161. – Бібліогр.: с. 161 (16 назв); рез. укр., англ.
Series/Report no.: Закарпатські філологічні студії;
Abstract: The article considers the description of the step sequence in forming the text corpora, and then frequency dictionaries on the example of Acoustics and Ultrasonic Technique (AUST) specialty, the texts of which are referred to scientific and technical discourse. The necessity of application of real text corpora compiled with the help of statistical methods in the present-day research processes is proved. Statistical method usage allows to determine such a mandatory parameter as the reliability of text corpus and lexicographic resources created on its basis – frequency dictionaries, alphabet-frequency dictionaries, etc. The example of specialty AUST demonstrates how statistically verified characteristics of the text corpus allowed to create a reliable probabilistic-statistical model (frequency dictionary) of this subject area. The statistical reliability of the dictionary manifested itself in the fact that the percentage of covering the AUST texts with the units of the base dictionary (the first 2 thousand words) is 86%, which makes it possible to understand the content of almost any text on the specialty AUST using the lexical units presented in it (the base dictionary).
Стаття присвячена опису послідовності кроків під час формування текстових корпусів, а потім - частотних словників на прикладі спеціальності «Акустика і ультразвукова техніка» (АУЗТ), тексти якої належать до науково-технічного дискурсу. Доводиться необхідність застосування в сучасних дослідних процесах реальних текстових корпусів, створених на основі статистичних методів. Використання статистичних методів дозволяє визначити такий обов'язковий параметр, як надійність текстового корпусу й створюваних на його основі лексикографічних ресурсів - частотних словників, алфавітно-частотних словників та ін. На прикладі спеціальності АУЗТ було показано, як статистично вивірені характеристики текстового корпусу дозволили створити надійну ймовірносно-статистичну модель (частотний словник) цієї предметної області. Статистична надійність словника проявила себе в тому факті, що частка покриття текстів АУЗТ одиницями базового словника (перших 2 тис. слів) склала 8695, що дає можливість за допомогою лексичних одиниць, представлених у базовому словнику, зрозуміти зміст практично будь-якого тексту за фахом АУЗТ.
Type: Text
Publication type: Стаття
URI: https://dspace.uzhnu.edu.ua/jspui/handle/lib/59404
ISSN: 2663-4899
Appears in Collections:Закарпатські філологічні студії Випуск 6 2018

Files in This Item:
File Description SizeFormat 
STATISTICAL METHODS.pdf182.92 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.