Skaitykite Didžiųjų duomenų mitas
Didelių duomenų klausimai tampa centrine dienos tema. Kiekvienas mūsų dienos eigoje sukuriame daugybę
duomenų, tačiau jie netampa žiniomis. Duomenys turi būti pertvarkyti ir pritaikyti kontekstui, kad galėtų būti
panaudojami. Tam yra daugybė įvairių būdų, tačiau svarbiausi priklauso duomenų apdorojimo mokslo sričiai.
Susipažinkime su pagrindinėmis šios srities sąvokomis. Vėliau šia temą išvystysime plačiau...
Duomenų apdorojimo mokslas (Data science) Duomenų analizė panaudojant mokslinius
metodus. Paskutiniais metais per dažnai linksniuojamas terminas net ir ten, kur netinkamas. Duomenų
apdorojimo mokslininkai (data scientists) dažniausiai nėra jokie mokslininkai ir privisę daugybė jais
apsimetančių šarlatanų (tiek asmenų, tiek organizacijų). Jie naudoja analitinius įrankius kad duomenyse
surastų dėsningumus. Tad teisingiau juos būtų vadinti amatininkais.
Duomenų išrinkimas ( Data Wrangling; Data Munging) varginantis darbas rankiniu būdu išgaunant, jungiant ir
konvertuojant ar išvalant duomenis. Tam naudojami algoritmai (procesai ar taisyklių rinkiniai) pradinių
duomenų išskyrimui ir pertvarkymui į apibrėžtas stuktūras. Pagrindinis tikslas išrinkti, paruošti ir išsaugoti
duomenis būsimoms analizėms.
Big Data (didelės duomenų apimtys) gali reikšti bet ką, ką kas nors nori pavadinti. Tai labiau
koncepcija, o ne suderintas terminas. Paprastai jis apibūdina didelius ir sudėtingus duomenų rinkinius,
kuriuos sunku apdoroti įprastinėmis priemonėmis ar įrankiais.
Hadoop atviro kodo programinė įranga iš Apache, skirta duomenų rinkinių saugojimui ir
apdorojimui naudojant serverių klasterius (Hadoop clusters), specialiai sukurtiems skaičiavimų atlikimui.
Daugelio kintamųjų statistinė analizė (Multivariate statistical analysis) remiasi daugelio
kintamųjų statistikos statistiniais principais, taikomais daugiau nei vieno ieškomo kintamojo tuo pačiu metu
stebėjimams bei analizei. Ji taikoma daugeliu atvejų: pajėgumais besiremiančiai architektūrai, inversinei
architektūrai (inverse design), ai kintamieji traktuojami kaip nepriklausomi, AoA (alternatyvų analizei)
ir koreliacijoms tarp hierarchinių lygių paskaičiavimams.
Sekų laike analizė (Time-series analysis, arba dinaminių sekų analizė) modelio,
leidžiančio nuspėti būsimas reikšmes remiantis anksčiau nustatytomis reikšmėmis.Jis skiriasi nuo regresinės
analizės (dažnai panaudojamos nustatymui, kad turimos reikšmės vienos sekos laike reikšmės priklauso nuo
kitos sekos laike reikšmių) tuo, kad sekų laike analizė akcentuoja reikšmių palyginimą vienoje sekoje laike
arba keliose susijusiose sekose laike skirtingais laiko momentais.
Daugiamatis masyvas (Multidimensional array) duomenų struktūra, kuri semantiškai yra
masyvų masyvas, kurie visi gali būti indeksuoti naudojant bet kokio tipo duomenis, - dažnai su
programavimo kalbose palaikoma sintakse.
Kiti HOT.LT straipsniai:
Kompiuterių istorija
Debesies architektūra
Kompiuterių ištakos
Mažylis buvo pirmasis...
Jau 50 m. meinfreimams
Didžiųjų duomenų mitas
Telefonai: 5G pagreitis
Dirbtinis intelektas kare
Pirmasis interneto ryšys
S. Lemas. Cave Internetum
Ar Internetas turi savimonę?
MS SQL užklausų rezultatų puslapiavimas
Bilas Geitsas: kol dar nebuvo garsus
Technika: Nuo Paleolito laikų
Konradas Cūzė ir jo C modeliai
Algebra akimirksniu
Ar mašina kada nors mąstys?
Danas Briklinas: skaičiuoklės autorius
Šriodingerio katinų dresiravimas: kvantiniai kompiuteriai
Pirmoji programuotoja: Ada Lovelace
P-NP: Ant sveiko proto svarstyklių
AWK kalba - sena ir nuolat aktuali
Seniausias pasaulyje analoginis kompiuteris
A. Cvetkovas. Blogio atskleidėjai
Kur viešpatauja chaosas?
Visata kaip kompiuteris
Papildytoji tikrovė
Trijų taisyklė
Čarlzas Babidžas
Haketonai
|