Zastosowanie regresji logistycznej w ocenie jakości informacji na przykładzie Wikipedii

Anna Lamek , Włodzimierz Lewoniewski

Abstract

The use of the logistic regression in the assessment of the quality of data may have a significant impact on data management in the era of big data, where we are all dealing with a number of variables and amount of information describing some interesting phenomenon or behaviour. The calculation of actual an information value (IV) indicator allows to eliminate these variables which are irrelevant or just constitute an information overload. The article presents the use of logistic regression in the assessment of variables describing the quality of articles published on the English version of Wikipedia. A classification of variables because of the results of the information value indicator have been presented. Also the predictive capabilities of variables have been evaluated.
Author Anna Lamek (WIiGE / KIE)
Anna Lamek,,
- Department of Information Systems
, Włodzimierz Lewoniewski (WIiGE / KIE)
Włodzimierz Lewoniewski,,
- Department of Information Systems
Other language title versionsApplication logistic regression in assessing the quality of information - Wikipedia articles case
Journal seriesStudia Oeconomica Posnaniensia, ISSN 2300-5254, e-ISSN 2449-9099, (B 10 pkt)
Issue year2017
Vol5
No12
Pages33-47
Publication size in sheets0.7
Keywords in Polishbig data, zarządzanie danymi, jakość informacji, regresja logistyczna, Wikipedia
Keywords in Englishbig data, enterprise, data management, information value, logistic regression
Abstract in PolishWykorzystanie regresji logistycznej w ocenie jakości danych może mieć szczególne znaczenie w dobie big data, gdzie mamy do czynienia z wieloma zmiennymi opisującymi dane zjawiska lub zachowania. Obliczenie rzeczywistej wartości informacji pozwala na wyeliminowanie tych zmiennych, które niewiele „wnoszą” do opisywanego zjawiska. Dzięki temu możliwa jest redukcja szumu informacyjnego i jednocześnie skupienie się na tych zmiennych, które najlepiej charakteryzują interesujące nas zjawisko, co także może przyczynić się do odejmowania właściwych decyzji. Wysoka jakość zmiennych sprzyja również budowaniu modeli prognostycznych, które pozwalają przewidzieć, jak konkretne dane będą wpływały na kształtowanie się zjawiska. W artykule zaprezentowano wykorzystanie regresji logistycznej w ocenie zmiennych opisujących jakość artykułów umieszczanych w Wikipedii w wersji angielskiej. Dokonano klasyfikacji zmiennych ze względu na uzyskany wskaźnik wartości informacyjnej (IV – Information Value) oraz dokonano oceny zdolności predykcyjnych. Przeprowadzone badanie może stanowić punkt wyjścia do porównania wyników z różnych wersji językowych Wikipedii.
DOIDOI:10.18559/SOEP.2017.12.3
URL http://soep.ue.poznan.pl/New_SOEP_site/jdownloads/Wszystkie%20numery/Rok%202017/03_lamek_lewoniewski.pdf
Languagepl polski
File
SOEP_lamek_lewoniewski.pdf 173.42 KB
Score (nominal)10
ScoreMinisterial score = 10.0, 07-10-2019, ArticleFromJournal
Citation count*2 (2020-10-23)
Cite
Share Share

Get link to the record


* presented citation count is obtained through Internet information analysis and it is close to the number calculated by the Publish or Perish system.
Back
Confirmation
Are you sure?