Please use this identifier to cite or link to this item:
https://er.knutd.edu.ua/handle/123456789/30998
Title: | Knowledge-based vs data-driven paradigms of text mining in modern machine linguistics in context of global crises |
Other Titles: | Парадигми text mining, що засновані на знаннях або даних в сучасній машинній лінгвістиці у контексті глобальних криз |
Authors: | Krasniuk, Svitlana Goncharenko, Svitlana Denysenko, Vitalina Petrenko, Viktoriia Redko, Svitlana Roienko, Liudmyla |
Keywords: | machine learning machine linguistics text mining knowledge-based paradigm data-driven paradigm crisis conditions |
Issue Date: | 2025 |
Citation: | Knowledge-based vs data-driven paradigms of text mining in modern machine linguistics in context of global crises / S. O. Krasniuk, S. Goncharenko, V. Denysenko, V. Petrenko, S. Redko, L. Roienko // Вісник науки та освіти. Серія «Філологія». - 2025. - № 6 (36). - С. 25-49. |
Source: | Вісник науки та освіти. Серія «Філологія» |
Abstract: | The introduction and the first part of the article are devoted to
the analysis of how crisis transformations (both predicted and force majeure) at
the global/regional/national levels (which can be caused by: wars, pandemics,
№
26
environmental threats and disasters, socio-political revolutions and cataclysms,
mass migrations and rapid digitalization (including the avalanche-like introduction
of AI in the context of Big Data)) - form new cardinal challenges/risks not
only for applied linguistics, but also for philology in general. These challenges/
risks are rapidly transforming both the conceptual and methodological
foundations of modern philology in general, and the technological and algorithmic
foundations of applied machine linguistics in particular. The authors argue
that modern philology (which traditionally focused on hermeneutic text analysis)
should now be transformed in an accelerated anti-crisis mode in the direction of
maximally interdisciplinary, contextual and flexible concepts/paradigms/approaches.
In particular, the applied focus of such an accelerated transformation should
be renewal of the concept of Text Mining, in the direction of synergistic processing
and analysis of natural language, capable of effectively working with
semi-structured, multidimensional Big Data in conditions of information turbulence
in a crisis humanitarian context.
Taking into account the above, the second, main part of the article reflects
the results of a systematic comparative study of the two main methodological paradigms
of modern machine linguistics (knowledge-based and data-driven) taking
into account the possible impact of all types and levels of crisis phenomena. Moreover,
the knowledge-based paradigm is based on linguistic knowledge explicitly
formalized by human experts (dictionaries, grammars, logical rules, other ontologies),
and the data-driven paradigm uses statistical algorithms, classical machine
learning algorithms, and deep neural network learning to detect hidden patterns
in large corpora of text without prior expert linguistic modeling (without prior
manual formalization).
Since data-driven methods and algorithms dominate modern machine linguistics,
this is why the article pays additional attention to the data-driven
paradigm, which is currently the main one in the tasks of machine translation, text
generation, syntactic analysis, virtual assistants, and large language models
(LLMs) for the most modern linguistic systems - from Google Translate to
ChatGPT.
For the data-driven paradigm, advantages, disadvantages, and recommendations
are highlighted, in particular, it is noted that data-driven methods
demonstrate the highest efficiency in conditions of large amounts of data and, at
the same time, in tasks that do not have strict requirements for explainability and
interpretability of results... Вступ та перша частина статті присвячена аналізу того, як кризові трансформації (і прогнозовані і форс-мажорні) на світовому/регіональному/національному рівнях (що можуть бути спричинені: війнами, пандеміями, екологічними загрозами і катастрофами, соціально-політичними революціями та катаклізмами, масовими міграціями та стрімкою цифровізацією (зокрема і лавиноподібним впровадженням AI в умовах Big Data)) - формують нові кардинальні виклики/ризики не лише перед прикладною лінгвістичною наукою, але і перед філологією загалом. Ці виклики/ризики прискорено трансформують як концептуальні і методологічні засади сучасної філології загалом, так і технологічні та алгоритмічні засади прикладної машинної лінгвістики зокрема. Автори обґрунтовують, що сучасна філологія (що традиційно зосереджувалася на герменевтичному аналізі тексту), нині має в прискореному антикризовому режимі трансформуватися в напрямку максимально міждисциплінарних, контекстних і гнучких концепцій/парадигм/підходів. Зокрема, в прикладному фокусі такої прискореної трансформації має бути оновлення концепції Text Mining, в напрямку синергетичної обробки та аналізу природної мови, здатної ефективно працювати з напівструктурованими, багатовимірними Big Data в умовах інформаційної турбулентності в кризовому гуманітарному контексті. Враховуючи вищенаведене, у другій, основній частині статті – відображено результати системного порівняльного дослідження двох основних методологічних парадигм сучасної машинної лінгвістики (knowledgebased та data-driven) з урахуванням можливого впливу всіх типів і рівнів кризових явищ. Причому, knowledge-based парадигма - базується на явно формалізованих людьми-експертами лінгвістичних знаннях (словники, граматики, логічні правила, інші онтології), а data-driven парадигма - використовує статистичні алгоритми, алгоритми класичного машинного навчання й глибокого нейромережевого навчання для виявлення прихованих закономірностей у великих корпусах тексту без попереднього експертного лінгвістичного моделювання (без попередньої ручної формалізації). Оскільки data-driven методи та алгоритми домінують у сучасній машинній лінгвістиці, саме тому, в статті додаткову увагу приділено саме datadriven парадигмі, яка на сьогодні є основною у завданнях машинного перекладу, генерації тексту, синтаксичного аналізу, віртуальних асистентів і великих мовних моделей (LLMs) для найсучасніших лінгвістичних систем — від Google Translate до ChatGPT. Для data-driven парадигми виділені переваги, недоліки, надані рекомендації, зокрема зазначено, що саме data-driven методи демонструють найвищу ефективність в умовах великих обсягах даних та, одночасно, у задачах, які не мають жорстких вимог до пояснюваності та інтерпретованості результатів. У статті також досліджено переваги, недоліки, рекомендовані прикладні сфери та задачі, де knowledge-based технології залишаються критично важливими і ЕФЕКТИВНИМИ. Зокрема, юридичні, медичні та гуманітарні задачі, що вимагають високої точності й прозорої логіки інтерпретації. Таким чином, автори доходять висновку, що в умовах локальних та глобальних викликів і кризових явищ, жодна з парадигм не є універсальною, адже майбутнє машинної лінгвістики — за синергетичними гібридними системами, які забезпечують баланс між адаптивністю, продуктивністю, інтерпретованістю, етичністю та культурною та/або мовною стійкістю. Тобто у кризових та нестабільних сучасних умовах - найбільш ефективними є гібридні підходи до Text Mining, які поєднують масштабованість, адаптивність та швидкодію використання data-driven методів та моделей із інтерпретованістю, транспарентністю та семантичною глибиною knowledge-based парадигми. Такий гібридний підхід відкриває нові горизонти для філології як науки, що стає не лише об’єктом, а й суб’єктом цифрової трансформації суспільства в поточну епоху криз. Деталізуючи - сучасна машинна лінгвістика більше не є виключно прикладною технічною чи/та гуманітарною галуззю, а перетворюється на активного учасника соціальних трансформацій, здатного підтримувати інформаційну безпеку, гуманітарну взаємодію, збереження мовної спадщини та культурної ідентичності в сучасних глобальних, регіональних та національних кризових умовах. |
DOI: | 10.52058/2786-6165-2025-6(36) |
URI: | https://er.knutd.edu.ua/handle/123456789/30998 |
Faculty: | Інститут права та сучасних технологій |
Department: | Кафедра філології та перекладу (ФП) |
ISSN: | 2786-6165 |
Appears in Collections: | Наукові публікації (статті) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Title_ Вісник 6(36).pdf | 20,91 MB | Adobe PDF | View/Open | |
content_ Вісник 6(36).pdf | 461,81 kB | Adobe PDF | View/Open | |
p.25-49 Вісник 6(36).pdf | 1,14 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.