Automation of technological and business processes

ISSN-print: 2312-3125
ISSN-online: 2312-931X
ISO: 26324:2012
Архiви

Принципи побудови хмар тегів даних

##plugins.themes.bootstrap3.article.main##

К. М. Хараш
О. В. Ольшевська
Ж. А. Титуренко

Анотація

Розглядаються механізми візуалізації для побудови термінологічних хмар. На прикладі JSON, HTML, CSV, XLSX, XML, TXT наведений перелік типів файлів та ресурсів. Проаналізовано можливості добування та збереження вхідних даних. Проведено дослідження аналогічних систем, на основі якого було обрано два оптимальні типи файлів, а саме CSV та  TXT.  Виявлено підхід формування списку ключових слів для наукових публікацій або виокремлення провідної тематики різних текстів. Встановлено, що у разі необхідністі обробки великих текстів спільної спрямованості, якими наприклад можуть бути літературні твори, наукові статті, судові вироки тощо, достатнім буде використання малих веб-додатків для побудови тегових хмар. Тегові хмари на основі алгоритму k-середніх здатні досить ефективно виявити ключові поняття, найбільш уживані слова та провідні концепції. При порівнянні між собою форматів CSV та TXT, було підтверджено, що швидкість обробки залежить скоріше від об’єму вхідної інформації, ніж від структури файлу. Звідси, можна стверджувати, що використання одного або іншого формату зумовлено вибором користувача. Проведено аналіз з якого відзначено, що формат CSV потребує верхнього рядка, в якому вказують атрибути. Для більшої коректності подальшого аналізу, атрибути слід вказати і формувати кожний наступний рядок даних строго по черзі. Така незначна особливість структури допомагає досліднику орієнтуватися серед набору текстової інформації, а при подальшій обробці перший рядок можна не враховувати. На відміну від попереднього формату, формат TXT не потребує формування першого рядка атрибутів. Це ускладнює візуальне сприйняття наявної інформації. Не рекомендовано вводити атрибути самостійно, в подальшому при обробці це буде впливати на коректність результатів кластеризації в негативний бік.

Ключові слова:
Термінологічні хмари, наукометричні системи, хмари тегів, JSON, HTML, CSV, XLSX, XML, TXT, аналітика великих даних, кластерний аналіз, кластерізація, алгоритм Дейкстри, манхеттенська відстань, відстань міських кварталів, регресійні дерева (CART), алгоритм DBSCAN, алгоритм k-means, евклідова відстань

##plugins.themes.bootstrap3.article.details##

Як цитувати
Хараш, К. М., Ольшевська, О. В., & Титуренко, Ж. А. (2020). Принципи побудови хмар тегів даних. Automation of Technological and Business Processes, 12(1), 17-24. https://doi.org/10.15673/atbp.v12i1.1699
Розділ
ТЕХНІЧНІ ЗАСОБИ І ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ У СИСТЕМАХ УПРАВЛІННЯ

Посилання

Dykovyts’kyy V. V., Lomov P. A., Sepeda-Errera R. R., Shyshayev M. H. Sovremennye metody sozdanye mul’typredmetnykh veb-resursov na baze vyzualyzatsyy y obrabotky formalyzovannoy semantyky. Visnyk Kol’s’koho naukovoho tsentru RAN, 2011. Pp. 63–73.
Kislova O. N. Intellektual’nyi analiz dannykh: istoriia stanovleniia termina. Ukrains’kiy sotsiolohichnyi zhurnal, 2011. No. 1. Pp. 83–94.
Nechyporuk D. V. Osobennosti tekhnolohiy Data Mining. 2017. No. 1.
Barsehian A. A. Analiz dannykh i protsessov. Sankt-Peterburh: BHV-Peterburh, 2009. 512 p.
Malyarova M. Analysis and visualization "Big Data": why "Big data" is a "Big Problem"? International Scientific review. 2016. Pp. 66–68.
Parkhomenko P. A., Hryhor'yev A. A., Astrakhantsev N. A. Obzor i eksperimental’noe sravnenie metodov klasterizatsii tekstov. Trudy instituta sistemnogo programmirovaniia RAN. 2017. Pp. 161–188.
Bibliometricheskie instrumenty v pomoshch’ issledovateliu. Kliuchevyie slova. Chast’ tret’ia: VOSviewer [Elektronic sourse]. 2018. Available: https://www.eco-vector.com/single-post_lutay4
Clusterization [Elektronic sourse]. Available: http://pzs.dstu.dp.ua/DataMining/cluster/index.html
David P. Graphs & Paths: Dijkstra [Elektronic sourse]. 2018. Available: https://towardsdatascience.com/graphs-paths-dijkstra-4d8b356ad6fa
Obzor alhoritmov klasterizatsii dannykh [Elektronic sourse]. 2010. Available: https://habr.com/ru/post/101338/
Chaplanov A. P., Chaplanova O. B. Klasterizatsia s pomoshch’iu alhoritmov DBSCAN. Systemy obrobky informatsiyi, 2006. No. 9. Pp. 82–85.
Barakhnin V. B., Tkachev D. A. Klasterizatsia tekstovykh dokumentov na osnove sostavnykh kliuchevykh termov. Vestnik Novosibirskogo gosudarstvennogo universiteta. Seriia: Informatsionnyie tekhnolohii. 2010.