Please use this identifier to cite or link to this item:
https://dspace.uzhnu.edu.ua/jspui/handle/lib/73007
Title: | Розробка інструментів автоматизованого аналізу даних для ідентифікації вербальних засобів реалізації мови ворожнечі у китайськомовному медіадискурсі: кількісний і якісний підхід |
Other Titles: | Development of tools for automated data analysis to identify verbal means of hate speech implementation in Chinese-language media discourse: a quantitative and qualitative approach |
Authors: | Калінін, В. С. |
Keywords: | мова ворожнечі, китайськомовна соціальна мережа, автоматизований аналіз даних, мовна модель, веб-скрапінг, hate speech, Chinese social network, automated data analysis, language model, web scraping |
Issue Date: | 2024 |
Publisher: | Видавничий дім "Гельветика" |
Citation: | Калінін, В. С. Розробка інструментів автоматизованого аналізу даних для ідентифікації вербальних засобів реалізації мови ворожнечі у китайськомовному медіадискурсі: кількісний і якісний підхід / В. С. Калінін // Закарпатські філологічні студії / редкол.: І. М. Зимомря (голов. ред.), М. М. Палінчак, Ю. М. Бідзіля та ін. – Ужгород : Видавничий дім "Гельветика", – 2024. – Вип. 38. – С. 227–233. – Бібліогр.: с. 232–233 (24 назви); рез. укр., англ. URL http://zfs-journal.uzhnu.uz.ua/archive/38/44.pdf |
Series/Report no.: | Закарпатські філологічні студії; |
Abstract: | У статті досліджено сучасні інструменти автоматизованого аналізу текстів для ідентифікації вербальних засобів реалізації мови ворожнечі в китайськомовному медіадискурсі. Розглянуто основні теоретичні засади, зокрема
визначення мовленнєвої агресії, її класифікацію за різними критеріями та особливості вираження в онлайн-просторі. Проаналізовано правила користування популярними соціальними платформами на предмет регулювання
та модерації контенту із ознаками ненависті. Обґрунтовано необхідність створення ефективних механізмів для
виявлення негативно забарвленої лексики, враховуючи зростання обсягів інформації та складність контролю її
поширення у цифровому середовищі.
У праці було представлено програмне забезпечення OSKAL (Opensource Social Knowledge of Aggressive
Language), що дозволяє систематизувати збір, очищення, обробку та подальший аналіз текстових одиниць. Архітектуру системи розроблено з використанням модульного підходу; вона складається із серверної частини для
інтерпретації даних і клієнтського інтерфейсу для візуалізації результатів. Для збору інформації застосовано метод
веб-скрапінгу, який реалізовано через фреймворк Scrapy. Очищені дані класифіковано за допомогою мовної моделі
thu-coai/roberta-base-cold, яка натренована на виявлення образливої лексики у китайськомовних матеріалах.
Для апробації методики використано китайськомовну онлайн-платформу Weibo, з якої було зібрано
18632 дописи та 234944 коментарі. На основі цих даних протестовано ефективність мовної моделі thu-coai/robertabase-
cold, яка виявила ознаки агресії у 1868 дописах та 38933 коментарях із точністю класифікації 82,75%. Розкрито можливості моделі в аспектах ідентифікації дискримінаційного контенту, її обмеження при аналізі емоційно
забарвлених висловлювань, а також перспективи для подальшого вдосконалення.
Розроблена методика дозволила якісно проаналізувати великий обсяг текстових даних та забезпечити високу
точність ідентифікації мови ворожнечі. Отримані результати сприятимуть створенню ефективних механізмів моніторингу та протидії ненависницькій риториці в китайськомовному сегменті інтернету. The article explored modern tools for automated text analysis to identify verbal means of hate speech implementation in Chinese-language media discourse. Key theoretical foundations, including the definition of speech aggression, its classification based on various criteria, and its specific features in the online space, were examined. The content moderation and regulation policies of popular social platforms concerning hateful content were analyzed. Considering the increasing volume of information and the challenges in controlling its dissemination in the digital environment, the necessity of creating effective mechanisms for detecting negatively charged language was substantiated. The study introduced the OSKAL software (Opensource Social Knowledge of Aggressive Language), which enables the systematic collection, cleaning, processing, and further analysis of textual units. The system's architecture was developed using a modular approach. It consists of a server-side component for data processing and a client interface for visualizing results. The method of web scraping, implemented via the Scrapy framework, was employed for data collection. The cleaned data were classified using the thu-coai/roberta-base-cold language model. This model was trained to detect offensive language in Chinese-language materials. For methodology testing, data were collected from the Chinese-language online platform Weibo, comprising 18,632 posts and 234,944 comments. Based on this dataset, the thu-coai/roberta-base-cold language model was evaluated, detecting signs of aggression in 1,868 posts and 38,933 comments with a classification accuracy of 82.75%. The model’s capabilities in identifying discriminatory content, its limitations in analyzing emotionally charged statements, and prospects for further improvement were identified. The developed methodology enabled the qualitative analysis of a large volume of textual data and ensured high accuracy in the identification of hate speech. The obtained results will contribute to the creation of effective mechanisms for monitoring and countering hate rhetoric in the Chinese-language segment of the internet. |
Type: | Text |
Publication type: | Стаття |
URI: | https://dspace.uzhnu.edu.ua/jspui/handle/lib/73007 |
ISSN: | 2663-4880 |
Appears in Collections: | Закарпатські філологічні студії Вип. 38. 2024 |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
РОЗРОБКА ІНСТРУМЕНТІВ АВТОМАТИЗОВАНОГО АНАЛІЗУ.pdf | 467.05 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.