Big Data va ma`lumotlar tahlili faniga kirish, fanning maqsadi, asosiy tushunchalar tariflari. Data Scientist ma’lumotlar tahlilchisi, ma’lumotlar muhandisi, mashinali o`qitish muhandisi

Загружено в:

08.08.2023

Скачано:

0

Размер:

536.7607421875 KB

Скачать

“ Big Data va ma`lumotlar tahlili faniga kirish, fanning maqsadi, asosiy
tushunchalar tariflari. Data Scientist : ma’lumotlar tahlilchisi, ma’lumotlar
muhandisi, mashinali o`qitish muhandisi ” mavzusida
Reja:
1. Big Data(katta ma'lumotlar)ning 8 eng asosiy atamalari
2. Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari.
3. Katta ma’lumotlar va biznes. Katta ma’lumotlarni tahlil qilish
texnikasi.
4. Katta ma’lumotlar va ma’lumotlarni qayta ishlash. Katta ma’lumotlar
mashinasi.

1. Big Data (katta ma'lumotlar)ning 8 eng asosiy atamalari
Big data ( katta ma'lumotlar ) - juda katta hajmdagi bir jinsli bo'lmagan va
tez tushadigan raqamli ma'lumotlar bo'lib, ularni odatiy usullar bilan qayta
ishlab bo'lmaydi. Ba'zi hollarda, katta ma'lumotlar tushunchasi bilan birga shu
ma'lumotlarni qayta ishlash ham tushuniladi. Asosan, analiz obyekti katta
ma'lumotlar deb ataladi.
Big data atamasi 2008-yilda dunyoga kelgan. Nature jurnali muharriri
Klifford Linch dunyo ma'lumotlar hajmining juda tez sur'atda o'sishiga
bag'ishlangan maxsus sonida big data atamasini qo'llagan. Biroq, katta
ma'lumotlar avval ham bo'lgan. Mutaxassislarning fikricha, kuniga 100 gb dan
ko'p ma'lumot tushadigan oqimlarga big data deb aytilar ekan.
Katta ma'lumotlarni analiz qilish, inson his etish imkoniyatidan tashqarida
bo'lgan qonuniylatlarni aniqlashda yordam beradi. Bu esa kundalik
hayotimizdagi barcha sohalar, hukumatni boshqarish, tibbiyot,
telekommunikatsiya, moliya, transport, ishlab chiqarish va boshqa sohalarni
yanada yaxshilash, ularning imkoniyatlarini oshirish, muommolarga muqobil
yechimlar izlab topish imkonini yaratadi.
Data lake ( ma'lumotlar ko'li ) - qayta ishlanmagan katta ma'lumotlar
ombori.
"Ko'l" har xil manbalardan kelgan, har xil formatda bo'lgan ma'lumotlarni
saqlaydi. Bu esa odatiy relatsion ma'lumotlar omborida ma'lumotlarni aniq
struktura asosida saqlashdan ko'ra arzonroqqa tushadi. Ma'lumotlar ko'li,
ma'lumotlarni boshlang'ich holatida analiz qilish imkonini beradi. Bundan
tashqari, "ko'l"lardan bir vaqtni o'zida bir nechta ishchilar foydalanishlari
mumkin.
Data science ( ma'lumotlar haqidagi fan ) - analiz muommolarini ,
ma'lumotlarni qayta ishlash va ularni raqamli ko'rinishda taqdim etishni
o'rganadigan fan.

Bu atama dunyoga kelgan vaqt 1974-yil hisoblanadi. O'sha yili Daniyalik
informatik, Peter Naur "A Basic Principle of Data Science" nomli kitobini chop
ettirgan.
2010-yillar boshida katta ma'lumotlarni tarqalishi natijasida bu yo'nalish
juda foydali va kelajagi bor biznesga aylandi. Ushanda katta ma'lumotlar bilan
ishlaydigan mutaxassislarga talab juda oshib ketdi.
Data science tushunchasiga ma'lumotlar omborini loyihalash va
raqamlangan ma'lumotlarni qayta ishlashning barcha metodlari kiradi. Ko'plab
mutaxassislar fikricha, aynan data science big dataning biznes nuqtai nazaridan
hozirgi zamonoviy o'rindoshi hisoblanadi.
Data mining ( ma'lumotlarni topish ) - biron qonuniyatni topish maqsadida
ma'lumotlarni intellektual analiz qilishga aytiladi. Isroillik matematik Grigoriy
Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan.
Texnologiyalar, avvalari noma'lum va foydali bo'lgan qayta
ishlanmagan(hom) ma'lumotlarni topish jarayoniga data mining(ma'lumotlarni
topish) deyiladi. Data mining metodlari ma'lumotlar ombori, statistika va sun'iy
intellekt tutashgan nuqtada joylashadi.
Machine learning ( mashinali o'qitish ) - o'zi o'rganadigan dasturlar
yaratish amaliyoti va nazariyasi, sun'iy intellektning katta qismi.
Dasturchilar o'z algoritmlariga xususiy hollarda umumiy qonuniyatlarni
aniqlashni o'rgatishadi. Natijada, kompyuter, inson avvaldan ko'rsatib o'tgan
buyruqlaridan emas, balki, o'z shaxsiy malakasidan kelib chiqib qaror qabul
qiladi. Bunday o'qitishning juda ko'p metodlari data mining'ga oid bo'lishi
mumkin.
Mashinali o'qitishga birinchi tarifni 1959-yilda amerikalik informatik
Artur Samuel bergan. U sun'iy intellekt elementlariga ega bo'lgan shashka o'yini,
dunyoda birinchi o'zi o'rganadigan dasturni yaratgan.
Deep learning ( chuqur o'qitish ) - yanada murakkab va yanada mustaqil
bo'lgan o'zi o'qidigan dasturlar yaratadigan mashinali o'qitish turi. Oddiy
mashinali o'qitish hollarida boshqariladigan malaka yordamida kompyuter

bilimlarni aniqlab oladi: dasturchi algoritmga ma'lum misollarni ko'rsatadi,
xatolarni qo'lda to'g'rilaydi. Deep learningda esa, tizim o'zi o'z funksiyalarini
loyihalaydi, ko'p darajali hisob-kitoblar amalga oshiradi va atrof-muhit haqida
xulosalar qiladi.
Odatda chuqur o'qitishni neyron tarmoqlarga tadbiq qilishadi. Bu
texnologiya asosan rasmlarni qayta ishlashda, nutqni tanishda, neyromashina
tarjima, farmatsevtikadagi hisoblashlarda va boshqa zamonaviy
texnologiyalarda qo'llaniladi. Asosan Google, facebook va Baidu tomonidan
loyihalarga tadbir qilinadi.
Sun'iy neyron tarmog'i - oddiy protsessorlar(sun'iy neyronlar)
birlashtirilgan tizimi bo'lib, insonning nerv tizimini imitatsiya qiladi. Bunday
struktura evaziga, neyron tarmoqlari dasturlanmaydi, ular o'qitishadi. Huddi
haqiqiy neyronlar kabi, protsessorlar signallarni oddiygina qabul qilishadi va
boshqa protsessorlarga o'zatishadi. Shu bilan birga, boshqa butun tizim
algoritmlar bajara olmaydigan murakkab topshiriqlarni bajaradi.
1943-yilda amerikalik olimlar Uorren Makkalok va Uolter Pittslar sun'iy
neyron tarmog'i tushunchasini fanga kiritishgan.
Business intelligence ( biznes-analitika ) - aniq strukturaga ega bo'lmagan
juda katta hajmdagi ma'lumotlarni qayta ishlash natijasida muqobil biznes
yechimlar izlashga aytiladi.
Effektiv biznes-analitika ichki va tashqi ma'lumotlarni analiz qiladi - ham
bozor axborotlarini, ham mijoz-kompaniyaning hisobotlarini hisobga oladi. Bu
biznesni butunlay tushunishga yordam beradi, shu bilan birga, strategik va
operatsion qarorlar qabul qilishga zamin yaratadi(mahsulot narxini aniqlashda,
kompaniya rivojlanishining asosiy yo'nalishlarini belgilab olishda).
Bu atama 1958-yilda IBM taqdiqotchisi Xans Piter Lun maqolasida
birinchi bo'lib ko'rsatilgan. 1996-yilda axborot texnologiyalari bozorini
o'rganishga asoslangan Gartner analitik agentligi business intelligence tarkibiga
data mining metodikasini ham qo'shgan.

2. Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari.
2018 yil o'rtalariga kelib Vikipediya Big Data atamasiga quyidagi ta'rifni
berdi: "Katta ma'lumotlar - bu 2000-yillarning oxirida paydo bo'lgan va
ma'lumotlar bazasini boshqarishning an'anaviy tizimlari va Business Intelligence
klassining echimlariga alternativa bo'lgan, gorizontal miqyosda
kengaytiriladigan dasturiy vositalar yordamida samarali ishlov beriladigan juda
katta hajmli va sezilarli tuzilmalarning ma'lumotlari".
Ko'rib turganingizdek, ushbu ta'rifda "ulkan", "ahamiyatli", "samarali" va
"alternativ" kabi noaniq atamalar mavjud. Hatto ismning o'zi ham juda
subyektivdir.
IBS kompaniyasi tahlilchilari "ma'lumotlarning butun dunyo hajmini"
quyidagi ko'rsatkichlar bo'yicha baholadilar:
 2003 - 5 ekzabayt ma'lumotlar (1 EB = 1 milliard gigabayt)
 2008 yil - 0,18 zettabayt (1 zb = 1024 ekzabayt)
 2015 yil - 6,5 zettabaytdan yuqori
 2020 - 40-44 zettabayt (prognoz)
 2025 yil - bu hajm 10 baravar ko'payadi.
Hisobotda shuningdek, ma'lumotlarning aksariyati oddiy iste'molchilar
tomonidan emas, balki korxonalar tomonidan yaratilmasligi ta'kidlanadi (Things
Industrial Internet-ni eslang).
Bundan tashqari, siz jurnalistlar va marketologlarning aniq fikriga mos
keladigan sodda ta'rifdan foydalanishingiz mumkin.
"Katta ma'lumotlar - bu uchta operatsiyani bajarish uchun mo'ljallangan
texnologiyalarning birikmasi:
Bundan tashqari, 2015 yil oktyabr oyida Gartner Big Data-ni mashhur
tendentsiyalar ro'yxatidan chiqarib tashladi. Kompaniya tahlilchilari o'z
qarorlarini "katta ma'lumotlar" tushunchasi korxonalarda allaqachon faol
qo'llaniladigan, qisman boshqa mashhur sohalar va tendentsiyalar bilan bog'liq
bo'lgan va kundalik ishlaydigan vositaga aylangan ko'plab texnologiyalarni o'z
ichiga olganligi bilan izohlashdi.

Big Data-ning afzalliklari: Turli manbalardan ma’lumotlarni yig’ish.
Haqiqiy vaqtda tahlil qilish orqali biznes jarayonlarini takomillashtirish. Katta
hajmdagi ma’lumotlarni saqlash. Tushunchalar. Big Data tuzilgan va yarim
tuzilgan ma’lumotlar bilan yashirin ma’lumotlar haqida ko’proq ma’lumotga
ega. Katta ma’lumotlar xavfni kamaytirishga va to’g’ri risklarni tahlil qilish
bilan aqlli qarorlarni qabul qilishga yordam beradi
Katta ma’lumotlarga misollar Nyu-York fond birjasi har kuni hosil qiladi
1 terabayt so’nggi sessiya bo’yicha savdolar to’g’risidagi ma’lumotlar. Ijtimoiy
tarmoqlar: statistika shuni ko’rsatadiki, Facebook ma’lumotlar bazalari har kuni
yuklanadi 500 terabayt yangi ma’lumotlar asosan fotosuratlar va videolarni
ijtimoiy tarmoq serverlariga yuklash, xabar almashish, postlar ostidagi sharhlar
va hk. Reaktiv dvigatel hosil qiladi 10 terabayt parvoz paytida har 30 daqiqada
ma’lumotlar. Har kuni minglab parvozlar amalga oshirilganligi sababli,
ma’lumotlar hajmi petabaytga etadi.
Katta ma’lumotlar tasnifi Katta ma’lumot shakllari: Tuzilgan Tuzilmagan
Yarim tuzilgan Tuzilgan shakl Saqlash, kirish va sobit formatda ishlov berilishi
mumkin bo’lgan ma’lumotlar tuzilgan deb nomlanadi. Ko’p yillar davomida
kompyuter fanlari ushbu turdagi ma’lumotlar bilan ishlash texnikasini
takomillashtirishda katta yutuqlarga erishdi (bu erda format oldindan ma’lum)
va qanday foyda olishni bilib oldi. Biroq, bugungi kunda hajmlarning bir necha
zettabayt oralig’ida o’sib borishi bilan bog’liq muammolar mavjud. 1 zettabayt
milliard terabaytga teng Ushbu raqamlarga qarab, Big Data atamasining
to’g’riligiga va bunday ma’lumotlarni qayta ishlash va saqlash bilan bog’liq
qiyinchiliklarga amin bo’lish oson. Relyatsion ma’lumotlar bazasida
saqlanadigan ma’lumotlar tuzilgan va masalan, kompaniya xodimlarining
jadvallariga o’xshaydi Tuzilmagan shakl Noma’lum tuzilishga ega ma’lumotlar
tuzilmagan deb tasniflanadi. Ushbu shakl katta bo’lishidan tashqari, foydali
ma’lumotlarni qayta ishlash va qazib olishda bir qator qiyinchiliklar bilan
tavsiflanadi. Tuzilmasiz ma’lumotlarning odatiy misoli oddiy matnli fayllar,
rasmlar va videofilmlarning kombinatsiyasini o’z ichiga olgan heterojen

manbadir. Bugungi kunda tashkilotlar katta miqdordagi xom yoki tuzilmaviy
ma’lumotlarga ega, ammo ulardan qanday foydalanishni bilishmaydi.
Vaqt o’tishi bilan katta ma’lumotlarning o’sishi:
Moviy rang relyatsion ma’lumotlar bazalarida saqlanadigan tuzilgan
ma’lumotlarni (Enterprise ma’lumotlar) ifodalaydi. Boshqa ranglar - bu turli xil

manbalardan tuzilgan bo’lmagan ma’lumotlar (IP-telefoniya, qurilmalar va
sensorlar, ijtimoiy tarmoqlar va veb-ilovalar). Gartnerning fikriga ko’ra, katta
ma’lumotlar hajmi, ishlab chiqarish darajasi, xilma-xilligi va o’zgaruvchanligi
bilan farq qiladi. Keling, ushbu xususiyatlarni batafsil ko’rib chiqaylik. Tovush.
Big Data atamasining o’zi katta hajm bilan bog’liq. Ma’lumotlarning hajmi
mumkin bo’lgan qayta tiklanadigan qiymatni aniqlashda eng muhim
ko’rsatkichdir. Kuniga 6 million kishi raqamli ommaviy axborot vositalaridan
foydalanadi, bu esa 2,5 kvintillion bayt ma’lumot ishlab chiqarishi taxmin
qilinmoqda. Shuning uchun hajm birinchi e'tiborga olinadigan xususiyatdir.
Turli xillik - keyingi jihat. U ma’lumotlarning bir xil bo’lmagan manbalari va
tabiatiga ishora qiladi, ular tuzilgan yoki tuzilmasiz bo’lishi mumkin. Ilgari,
elektron jadvallar va ma’lumotlar bazalari ko’pgina ilovalarda ko’rib
chiqiladigan yagona ma’lumot manbai bo’lgan. Bugungi kunda elektron pochta
xabarlari, fotosuratlar, videolar, PDF-fayllar, audio shaklidagi ma’lumotlar
tahliliy dasturlarda ham ko’rib chiqilmoqda. Ushbu turli xil tuzilmagan
ma’lumotlar saqlash, ishlab chiqarish va tahlil qilishda muammolarga olib
keladi: kompaniyalarning 27% to’g’ri ma’lumotlar bilan ishlayotganiga amin
emaslar. Avlod tezligi. Talablarni qondirish uchun ma’lumotlarning qanchalik
tez to’planishi va qayta ishlanishi salohiyatni belgilaydi. Tezlik manbalardan -
biznes jarayonlaridan, ilovalar jurnallaridan, ijtimoiy tarmoq saytlari va
ommaviy axborot vositalaridan, datchiklardan, mobil qurilmalardan ma’lumot
olish tezligini belgilaydi. Ma’lumotlar oqimi vaqt o’tishi bilan ulkan va
doimiydir. O’zgaruvchanlik ba’zi bir vaqtlarda ma’lumotlarning
o’zgaruvchanligini tavsiflaydi, bu esa qayta ishlash va boshqarishni
murakkablashtiradi. Masalan, ma’lumotlarning aksariyati tuzilmaga ega emas.
Mijozlarga xizmat ko’rsatishni takomillashtirish: Mijozlarning an'anaviy
aloqa tizimlari mijozlarning fikr-mulohazalarini o’qish va baholash uchun Big
Data va tabiiy tilni qayta ishlashdan foydalanadigan yangilari bilan
almashtirilmoqda. Xatarlarni hisoblashyangi mahsulot yoki xizmatni chiqarish
bilan bog’liq.

Operatsion samaradorlik: Katta ma’lumotlar tegishli ma’lumotlarni
tezroq olish va aniq natijalarni tezda berish uchun tuzilgan. Big Data va saqlash
texnologiyalarining bu kombinatsiyasi tashkilotlarga kamdan kam ishlatiladigan
ma’lumotlar bilan ishlashni optimallashtirishga yordam beradi.
3. Katta ma’lumotlar va biznes. Katta ma’lumotlarni tahlil
qilish texnikasi.
Ma’lumotlar to’plamini tahlil qilishning turli xil usullari mavjud, ular
statistikadan va kompyuter fanidan olingan vositalarga asoslangan (masalan,
mashinada o’rganish). Ro’yxat to’liq deb da’vo qilmaydi, ammo u turli
sohalardagi eng mashhur yondashuvlarni aks ettiradi. Shu bilan birga,
tadqiqotchilar yangi texnikalarni yaratish va mavjudlarini takomillashtirish
ustida ishlashni davom ettirishlarini tushunish kerak. Bundan tashqari, yuqorida
sanab o’tilgan ba’zi usullar faqat katta ma’lumotlarga taalluqli emas va kichik
massivlar uchun muvaffaqiyatli ishlatilishi mumkin (masalan, A/B sinovlari,
regressiya tahlili). Albatta, massiv qanchalik ko’p hajmli va turlicha tahlil
qilinsa, chiqishda shuncha aniq va kerakli ma’lumotlarni olish mumkin. A/B
sinovlari. Nazorat namunasi boshqalar bilan birma-bir taqqoslanadigan usul.
Shunday qilib, masalan, marketing taklifiga iste'molchilarning eng yaxshi
javobini olish uchun ko’rsatkichlarning optimal kombinatsiyasini aniqlash
mumkin. Katta ma’lumotlar juda ko’p sonli takrorlashni amalga oshirishga
imkon beradi va shu bilan statistik jihatdan ishonchli natijaga erishadi. Uyushma
qoidalarini o’rganish. O’zaro munosabatlarni aniqlash uchun texnik vositalar
to’plami, ya’ni. assotsiatsiya qoidalari, katta ma’lumotlar to’plamidagi
o’zgaruvchilar o’rtasida. Ichida ishlatilgan ma’lumotlar qazib olish. Tasnifi.
Bozorning ma’lum bir segmentida iste'molchilarning xatti-harakatlarini bashorat
qilishga imkon beradigan texnikalar to’plami (sotib olish, chiqib ketish, iste'mol
qilish va h.k.). Ichida ishlatilgan ma’lumotlar qazib olish. Klaster tahlili.
Oldindan noma’lum bo’lgan umumiy xususiyatlarni aniqlash orqali ob'ektlarni
guruhlarga ajratishning statistik usuli. Ichida ishlatilgan ma’lumotlar qazib olish.

Ko’p sonli manbalardan ma’lumotlarni yig’ish metodikasi. Ma’lumotlarni
birlashtirish va ma’lumotlarni birlashtirish. Ijtimoiy tarmoqlar
foydalanuvchilarining sharhlarini tahlil qilish va real vaqt rejimida ularni savdo
natijalari bilan taqqoslash imkonini beradigan texnikalar to’plami.
Ma’lumotlarni qazib olish. Rag’batlantirilayotgan mahsulot yoki xizmatni eng
yaxshi qabul qiladigan iste'molchilar toifalarini aniqlashga, eng muvaffaqiyatli
xodimlarning xususiyatlarini aniqlashga va iste'molchilarning xulq-atvor
modelini taxmin qilishga imkon beradigan usullar to’plami.
Vizualizatsiya. Tafsirni osonlashtirish va natijalarni tushunishni
osonlashtirish uchun katta ma’lumotlarni tahlil qilish natijalarini diagramma
yoki animatsion rasm shaklida grafik tarzda taqdim etish usullari. Katta
ma’lumotlarni tahlil qilish natijalarini vizualizatsiya qilish ularni izohlash uchun
muhimdir. Hech kimga sir emaski, odamlarning idroki cheklangan va olimlar
ma’lumotlarni tasvirlar, diagrammalar yoki animatsiyalar ko’rinishida taqdim
etishning zamonaviy usullarini takomillashtirish bo’yicha izlanishlarni davom
ettirmoqdalar.
Jahon va Rossiya bozori Katta ma’lumotlar peyzaji - Asosiy etkazib
beruvchilar .

To’plash, qayta ishlash, boshqarish va tahlil qilish vositalariga qiziqish
katta ma’lumotlar deyarli barcha etakchi IT-kompaniyalarni namoyish etdi, bu
juda tabiiy. Birinchidan, ular ushbu hodisaga bevosita o’z bizneslarida duch
kelishadi, ikkinchidan. katta ma’lumotlar yangi bozor joylarini rivojlantirish va
yangi mijozlarni jalb qilish uchun ajoyib imkoniyatlarni oching. Bozorda juda
katta miqdordagi ma’lumotlarni qayta ishlash bilan shug’ullanadigan ko’plab
startaplar paydo bo’ldi. Ulardan ba’zilari Amazon kabi yirik o’yinchilar
tomonidan taqdim etiladigan "bulutli" infratuzilmadan foydalanadilar.
Katta ma’lumotlar va biznes
Bir yildan kam vaqt o’tgach, Big Data atamasi etakchi biznes
nashrlarining sahifalarida paydo bo’ldi, ammo bu erda mutlaqo boshqa metafora
ishlatilgan. Big Data mineral resurslar bilan taqqoslanadi - yangi neft (yangi
neft), oltin zirh (oltin shoshilinch), ma’lumotlar qazib olish (ma’lumotlar qazib
olish), bu maxfiy ma’lumot manbai sifatida ma’lumotlarning rolini ta’kidlaydi;
tabiiy ofatlar bilan - ma’lumotlar tornado (ma’lumotlar bo’roni), ma’lumotlar
to’foni (ma’lumotlar toshqini), ma’lumotlarning to’lqin to’lqini (ma’lumotlar
toshqini), ularni tahdid sifatida ko’rish; sanoat ishlab chiqarish bilan aloqani
ushlab turish - ma’lumotlar egzozi, o’t o’chirish shnuri, sanoat inqilobi
Biznesda, ilm-fan singari, katta hajmdagi ma’lumotlar ham mutlaqo yangi narsa
emas - ular uzoq vaqtdan beri katta hajmdagi ma’lumotlar bilan ishlash zarurligi
haqida gaplashib kelmoqdalar, masalan, radiochastota identifikatsiyasi (RFID)
va ijtimoiy tarmoqlarning tarqalishi bilan bog’liq va h.k. va fanda unga nima
bo’layotganini aniqlash uchun faqat yorqin metafora etishmadi. Shuning uchun
2010 yilda Big Data toifasiga kiritilganligini da’vo qilgan birinchi mahsulotlar
paydo bo’ldi - allaqachon mavjud bo’lgan narsalar uchun mos nom bor edi.
2011 yilgi yangi texnologiyalarning holati va istiqbollarini tavsiflovchi Hype
Cycle versiyasida Gartner tahlilchilari yana bitta pozitsiyani taqdim etgani katta
ma’lumotlar va ekstremal axborotni qayta ishlash va boshqarish tegishli

echimlarni ikki yildan besh yilgacha ommaviy ravishda amalga oshirish davrini
baholash bilan.
Nima uchun Big Data muammoga duch kelmoqda?
Big Data atamasi paydo bo’lgandan keyin ham Big Data-ning biznesdagi
o’rni noaniq bo’lib qolmoqda, ular shunchaki "Katta ma’lumotlar muammosi"
haqida gapirishlari bejiz emas, shunchaki muammo emas, balki qolgan hamma
narsa ham noto’g’ri aniqlangan. Ko’pincha, muammo sodda qilib, Mur qonuni
singari talqin qilinmoqda, faqat bitta farq shundaki, bu holda biz
ma’lumotlarning yiliga ikki baravar ko’payishi yoki giperbolizatsiya, deyarli
tabiiy ofat sifatida namoyon bo’lish fenomeniga duch kelmoqdamiz, bu
shoshilinch ravishda qandaydir tarzda hal qilinishi kerak. Haqiqatan ham
ma’lumotlar ko’payib bormoqda, ammo bularning barchasi muammoning hech
qanday tashqi tomonga ega emasligini e'tibordan chetda qoldirmaydi, chunki bu
juda ko’p miqdordagi qulab tushgan ma’lumotlar emas, balki eski usullarning
yangi jildlarga bardosh bera olmasligi va eng muhimi, biz o’zlari tomonidan
yaratilgan. G’alati nomutanosiblik mavjud - ma’lumotlarni ishlab chiqarish
qobiliyati ularni qayta ishlash qobiliyatidan kuchliroq. Ushbu buzilishning
sababi, ehtimol, 65 yillik kompyuter tarixida biz ma’lumotlar nima ekanligini va
ularni qayta ishlash natijalari bilan qanday bog’liqligini hali
tushunmaganligimizdir. Asrlar davomida matematiklar o’zlarining fanlari
bo’yicha raqamlar va sanoq tizimlari kabi asosiy tushunchalar bilan
shug’ullanib, faylasuflarni bunga jalb qilishgani ajablanarli emas va bizning
holatlarimizda ma’lumotlar va ma’lumotlar hech qanday ahamiyatsiz narsalarga
e'tibor berilmaydi va intuitiv in'ikosning rahm-shafqatiga topshiriladi. Shunday
qilib, 65 yil davomida ma’lumotlar bilan ishlash texnologiyalari juda tez
rivojlandi va kibernetika va axborot nazariyasi juda rivojlanmadi, bu 50-yillarda
saqlanib qoldi, lampalar kompyuterlari faqat hisoblash uchun ishlatilgan.
Darhaqiqat, Big Data atrofidagi hozirgi shov-shuv ehtiyotkorlik bilan, shubhali
tabassumni keltirib chiqaradi.
Big dataning o’lchash va saqlash darajalari.

Bulut, katta ma’lumotlar, tahlillar - zamonaviy ITning uchta omillari
nafaqat o’zaro bog’liq, balki bugungi kunda ular bir-birisiz mavjud
bo’lmaydilar. Bulutli saqlash va bulutli hisoblashlarsiz Big Data bilan ishlash
mumkin emas - bulutli texnologiyalarning paydo bo’lishi nafaqat g’oya
shaklida, balki allaqachon tugallangan va amalga oshirilgan loyihalar
ko’rinishida Big Data analitikasiga bo’lgan qiziqishning ortishi spiralining yangi
turini boshlash uchun omil bo’ldi. Agar umuman olganda sohaga ta’siri haqida
gapiradigan bo’lsak, bugungi kunda masshtab saqlash tizimlariga talablarning
oshishi aniq bo’ldi. Bu haqiqatan ham zarur shart - axir qaysi analitik jarayonlar
uchun u yoki bu ma’lumotlarga ehtiyoj borligini va mavjud xotira qanchalik
intensiv yuklanishini oldindan taxmin qilish qiyin. Bundan tashqari, har ikkala
vertikal va gorizontal miqyoslash talablari bir xil ahamiyatga ega bo’ladi.
Saqlash tizimlarining yangi avlodida Fujitsu miqyosi va darajali saqlash
jihatlariga katta e'tibor berdi. Amaliyot shuni ko’rsatadiki, bugungi kunda
tahliliy vazifalarni bajarish uchun tizimlarni katta yuklash talab etiladi, ammo
biznes barcha xizmatlar, dasturlar va ma’lumotlarning o’zi doimo mavjud
bo’lishini talab qiladi. Bundan tashqari, bugungi kunda analitik tadqiqotlar
natijalariga qo’yiladigan talablar juda yuqori - malakali, to’g’ri va o’z vaqtida
olib borilgan tahliliy jarayonlar umuman biznes natijalarini sezilarli darajada
yaxshilashi mumkin. Ma’lumotlar va ma’lumotlarning tadqiqot mavzusi sifatida
ahamiyatini inobatga olmasdan, ehtiyojlar o’zgargan bir paytda, kompyuterlarda
hisoblash yuki ma’lumotlar bo’yicha bajariladigan ishlarning boshqa turlariga
qaraganda ancha kam bo’lib chiqqanda, xuddi shu portlash sodir bo’ldi va bu
harakatlarning maqsadi mavjud ma’lumotlar to’plamidan yangi ma’lumotlar va
yangi bilimlarni olishda. Shuning uchun Big Data muammosini "ma’lumotlar -
ma’lumot - bilim" zanjiri zanjirlarini tiklashdan tashqarida hal qilish haqida
gapirish ma’nosizdir. Ma’lumotlar ma’lumot olish uchun qayta ishlanadi, bu
etarli bo’lishi kerak, shunda odam uni bilimga aylantirishi mumkin.
So’nggi o’n yilliklarda xom ma’lumotlarni foydali ma’lumotlar bilan
bog’lash bo’yicha jiddiy ish olib borilmadi va biz odatdagidek Klod

Shannonning axborot nazariyasi deb ataydigan narsa signallarni uzatishning
statistik nazariyasidan boshqa narsa emas va odamlar tomonidan qabul
qilinadigan ma’lumotlarga aloqasi yo’q. Muayyan nuqtai nazarlarni aks
ettiruvchi ko’plab alohida nashrlar mavjud, ammo to’liq zamonaviy axborot
nazariyasi mavjud emas. Natijada, mutaxassislarning aksariyati ma’lumot va
ma’lumotni umuman farqlamaydilar. Ma’lumotlarning ko’pligi yoki ko’pligi
haqida hamma shunchaki ta’kidlaydilar, ammo hech kim aniq nima borligi,
paydo bo’lgan muammoni qanday hal qilish haqida etuk tasavvurga ega emas -
va buning hammasi ma’lumotlar bilan ishlashning texnik imkoniyatlari ulardan
foydalanish qobiliyatining rivojlanish darajasidan ancha ustun bo’lganligi bilan
bog’liq. Faqat bitta muallif, Web 2.0 Journal muharriri Dion Xinchkliff Big Data
tasnifiga ega, bu bizga texnologiyani Big Data-dan ishlashni kutish natijasi bilan
bog’lashga imkon beradi, ammo bu qoniqarli emas. Xinchliff Big Data-ga
yondashuvlarni uch guruhga ajratadi: Tez ma’lumotlar, ularning hajmi
terabaytlarda o’lchanadi; Big Analytics - Petabayt ma’lumotlari va Deep Insight
- Exabayt, zettabayt. Guruhlar bir-birlari orasida nafaqat ishlaydigan
ma’lumotlar miqdori, balki ularni qayta ishlash uchun echimning sifati bilan
ham ajralib turadi. Tez ma’lumotlarga ishlov berish yangi bilimlarni
o’zlashtirishni anglatmaydi, uning natijalari apriori bilimlari bilan o’zaro bog’liq
va ba’zi jarayonlarning qanday davom etayotganligini baholashga imkon beradi,
bu sizga nima bo’layotganini yaxshiroq va batafsilroq ko’rish, ba’zi farazlarni
tasdiqlash yoki rad etish imkonini beradi. Hozirgi kunda mavjud bo’lgan
texnologiyalarning faqat ozgina qismi "Fast Data" vazifalarini hal qilish uchun
javob beradi; ba’zi saqlash texnologiyalari (Greenplum, Netezza, Oracle
Exadata, Teradata, Verica va kdb kabi DBMS mahsulotlari). Ushbu
texnologiyalarning tezligi ma’lumotlar hajmining o’sishi bilan
sinxronlashtirilishi kerak. Big Analytics tomonidan hal qilingan vazifalar
sezilarli darajada farq qiladi va nafaqat miqdoriy, balki sifat jihatidan ham mos
keladi va tegishli texnologiyalar yangi bilimlarni olishga yordam berishi kerak -
ular ma’lumotlarda qayd etilgan ma’lumotlarni yangi bilimlarga aylantirishga

xizmat qiladi. Biroq, ushbu o’rta darajada echimlar yoki analitik tizimning har
qanday avtonom harakatlarini tanlashda sun'iy intellektning mavjudligi taxmin
qilinmaydi - bu "o’qituvchi bilan o’rganish" tamoyili asosida qurilgan.
Boshqacha qilib aytganda, uning barcha analitik salohiyati o’quv jarayonida
unga sarflanadi. Eng aniq misol - Jeopardy o’ynaydigan mashina!. Bunday
analitiklarning klassik vakillari MATLAB, SAS, Revolution R, Apache Hive,
SciPy Apache va Mahout.
Eng yuqori darajadagi Deep Insight nazoratsiz o’rganishni va zamonaviy tahlil
usullaridan hamda turli xil vizualizatsiya usullaridan foydalanishni o’z ichiga
oladi. Ushbu darajada, oldindan noma’lum bo’lgan bilimlarni va naqshlarni
kashf etish mumkin.
Katta ma’lumotlar tahlili
Vaqt o’tishi bilan kompyuter dasturlari har xilligi bilan real dunyoga
yaqinlashmoqda, shu sababli kirish ma’lumotlari hajmi ortib bormoqda va shu
sababli ularning analitiklariga ehtiyoj sezilmoqda va real vaqt rejimiga iloji
boricha yaqinroq rejimda. Ushbu ikki tendentsiyaning yaqinlashishi
yo’nalishning paydo bo’lishiga olib keldi big Data analitikasi (Big Data
Analytics). Watson kompyuterining g’alabasi Big Data Analytics
imkoniyatlarining yorqin namoyishi bo’ldi - biz kompyuter birinchi marta hisob-
kitoblarni tezlashtirish vositasi sifatida emas, balki ma’lumot tanlash va qaror
qabul qilishda inson imkoniyatlarini kengaytiruvchi yordamchi sifatida
foydalaniladigan qiziqarli davrga kirmoqdamiz. Vannevar Bush, Jozef Liklider
va Dag Engelbartning utopik tuyulgan g’oyalari ro’yobga chiqa boshladi, ammo
bu bir necha o’n yillar oldin sodir bo’lganidek amalga oshmayapti -
kompyuterning kuchi mantiqiy imkoniyatlari jihatidan odamlarga nisbatan
ustunlikda emas, olimlar ayniqsa umidvor bo’lishgan, ammo juda katta qobiliyat
juda katta miqdordagi ma’lumotlarni qayta ishlash. Xuddi shunga o’xshash
narsa Garri Kasparovning Deep Blue bilan to’qnashuvida sodir bo’ldi,
kompyuter mahoratli o’yinchi emas edi, lekin u tezroq ko’proq imkoniyatlardan
foydalanishi mumkin edi. Big Data Analytics-ni boshqa dasturlardan ajratib

turadigan yuqori tezlik bilan birlashtirilgan ulkan hajmlar to’g’ri kompyuterlarni
talab qiladi va bugungi kunda deyarli barcha yirik ishlab chiqaruvchilar
ixtisoslashtirilgan dasturiy ta’minot va apparat tizimlarini taklif qilishadi: SAP
HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine va
Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance
Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance,
EMC Greenplum, Vertica Analytics Platform powered by HP Converged
Infrastructure. Bundan tashqari, ko’plab kichik va boshlang’ich kompaniyalar
o’yinga kirishdi: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual,
Kognitio, Datameer, TellApart, Paraccel, Hortonworks.
Big datada qayta aloqa va komponentlar. Big datada asosiy etkazib
beruvchilar va yangi imkoniyatlar
Sifatida yangi Big Data Analytics dasturlari nafaqat yangi
texnologiyalarni, balki tizimning turli darajadagi fikrlash darajasini ham talab
qiladi, ammo bu bilan qiyinchiliklar mavjud - Big Data Analytics echimlarini
ishlab chiquvchilar ko’pincha 50-yillardan beri ma’lum bo’lgan haqiqatlarni
qayta kashf etadilar. Natijada, tahlil ko’pincha odamga natijalar berish uchun
dastlabki ma’lumotlarni, vizualizatsiya va boshqa texnologiyalarni tayyorlash
vositalaridan ajratib olinadi. Ma’lumotlarni saqlash ombori instituti singari
nufuzli tashkilot ham analitikni hamma narsadan ajratib ko’rib chiqadi: uning
ma’lumotlariga ko’ra, korxonalarning 38 foizi menejment amaliyotida
Advanced Analytics-dan foydalanish imkoniyatlarini o’rganib chiqishmoqda va
yana 50 foizi kelgusi uch yil ichida buni amalga oshirish niyatida. Ushbu
qiziqish biznesdan ko’plab dalillarni keltirib chiqarish bilan oqlanadi, garchi
buni osonroq deyish mumkin bo’lsa - yangi sharoitda korxonalar yanada
mukammal boshqaruv tizimiga muhtoj va uni yaratish qayta aloqa o’rnatishdan,
ya’ni qaror qabul qilishga yordam beradigan tizimdan boshlanishi kerak va
kelajakda, ehtimol haqiqiy qaror qabul qilishni avtomatlashtirish mumkin
bo’ladi. Ajablanarlisi shundaki, aytilganlarning barchasi 60-yillardan beri
ma’lum bo’lgan texnologik ob'ektlarni avtomatlashtirilgan boshqarish

tizimlarini yaratish metodologiyasiga mos keladi. Yangi tahlil vositalari talab
qilinadi, chunki avvalgidan ko’ra ko’proq ma’lumotlar emas, balki ularning
tashqi va ichki manbalari ko’proq, endi ular ancha murakkab va xilma-xildir
(tuzilgan, tuzilmasiz va kvaziturumli), indekslashning turli sxemalaridan
foydalaniladi (relyatsion, ko’p o’lchovli, noSQL). Ma’lumotlar bilan eski usullar
bilan kurashish endi mumkin emas - Big Data Analytics katta va murakkab
massivlarga tarqaladi, shuning uchun ular Discovery Analytics (kashfiyotlar
analitikasi) va Explorator Analytics (tushuntirishli analitik) atamalaridan ham
foydalanadilar. Siz nima deb atasangiz ham, mohiyati bir xil - teskari aloqa,
qaror qabul qiluvchilarni har xil jarayonlar haqida ma’lumot bilan maqbul
shaklda ta’minlaydi.
4. Katta ma’lumotlar va ma’lumotlarni qayta ishlash.
Katta ma’lumotlar mashinasi.
Big Data deb nomlangan narsadan nimani kutish kerakligini tushunish
uchun zamonaviy tor "IT" dunyoqarashi chegaralaridan chiqib, sodir
bo’layotgan voqealarni kengroq tarixiy va texnologik retrospektivda ko’rishga
harakat qilish kerak, masalan, uzoqroq tarixga ega texnologiyalar bilan
o’xshashliklarni topishga harakat qiling. Axir biz o’z faoliyatimiz mavzusini
texnologiya deb atab, unga texnologiya sifatida qarashimiz kerak. Sifat jihatidan
yangi mahsulotlarni olish uchun deyarli ma’lum bo’lgan barcha moddiy
texnologiyalar o’zlariga yoki boshqa tarkibiy qismlarga xos bo’lgan xom
ashyoni qayta ishlash, qayta ishlash yoki yig’ish bilan qisqartiriladi - texnologik
jarayonning kirish qismida ham, chiqishda ham bir narsa bor. Nomoddiy axborot
texnologiyalarining o’ziga xos xususiyati shundaki, bu erda texnologik zanjir
unchalik aniq emas, xomashyo nima, natija nima, kirishda nima va chiqishda
nima olinishi aniq emas. Aytishning eng oson usuli shundaki, kirish xom
ma’lumotlar, natijada foydali ma’lumotlar. Umuman olganda, bu deyarli to’g’ri,
ammo ikkalasi o’rtasidagi munosabatlar juda murakkab; agar biz sog’lom
pragmatizm darajasida qolsak, o’zimizni quyidagi fikrlar bilan cheklashimiz

mumkin. Ma’lumotlar - bu turli shakllarda ifodalangan xom faktlar, ular o’zlari
tarkibiga kiritilguncha, to’g’ri tartibga solinmaguncha va ishlov berish paytida
buyurtma berilgunga qadar foydali ma’noga ega emaslar. Axborot inson
tomonidan qayta ishlangan ma’lumotlarni tahlil qilish natijasida paydo bo’ladi,
bu tahlil ma’lumotlarga ma’no beradi va ularni iste'molchi fazilatlari bilan
ta’minlaydi. Ma’lumotlar - bu ma’lumotga aylantirilishi kerak bo’lgan tartibsiz
faktlar. Yaqin vaqtgacha, haqida g’oyalar ma’lumotlarni qayta
ishlash(ma’lumotlarni qayta ishlash) nisbatan oz miqdordagi ma’lumotlarga
asoslangan algoritmik, mantiqiy yoki statistik operatsiyalarning organik
doirasiga qadar qaynadi. Biroq, kompyuter texnologiyalari real dunyoga
yaqinlashganda, real dunyodan ma’lumotlarni real dunyo haqidagi
ma’lumotlarga aylantirish zarurati ortadi, qayta ishlangan ma’lumotlar
kattalashadi va ishlash tezligiga talablar oshadi. Mantiqan, axborot
texnologiyalari moddiy texnologiyalardan, kirish xom ma’lumotlaridan,
chiqishda tuzilgan holda, inson idrok etishi uchun qulayroq shaklda, ulardan
ma’lumot olish va aqlning kuchi bilan ma’lumotni foydali bilimga aylantirish
shaklida ancha farq qilmaydi.
Kompyuterlarni hisoblash, birinchi ENIAC dasturini eslash - quroldan o’q
otish ma’lumotlarini qayta ishlash va ularni artilleriya jadvallariga aylantirish
qobiliyatlari uchun kompyuterlar deb atashdi. Ya’ni, kompyuter xom
ma’lumotlarni qayta ishladi, foydali ma’lumotlarni chiqarib tashladi va
foydalanishga yaroqli shaklda yozdi. Bizning oldimizda oddiy texnologik
jarayondan boshqa narsa yo’q. Umuman aytganda, Axborot texnologiyalari
singari atamalar o’rniga Ma’lumotlarni qayta ishlashni tez-tez ishlatish kerak.
Axborot texnologiyalari umumiy qonunlarga bo’ysunishi kerak, unga muvofiq
boshqa barcha texnologiyalar rivojlanadi va bu, avvalambor, qayta ishlangan
xom ashyo miqdorining ko’payishi va qayta ishlash sifatining yaxshilanishi. Bu
hamma narsa sodir bo’ladi, nima aniq xom ashyo bo’lib xizmat qiladi va buning
natijasi nima bo’lishidan qat'i nazar, metallurgiya, neft kimyosi, biotexnologiya,
yarimo’tkazgichli texnologiyalar va boshqalar. Umumiy narsa shundaki,

texnologik yo’nalishlarning hech biri bir maromda rivojlanmaydi, erta yoki jadal
rivojlanish va sakrash lahzalari kech paydo bo’ladi. Tashqi tomondan zarurat
tug’ilganda va texnologiyalar ichida uni qondirish imkoniyati mavjud bo’lganda
tez o’tishlar paydo bo’lishi mumkin. Kompyuterlarni vakuumli naychalarga
qurish mumkin emas edi - va yarimo’tkazgichlar paydo bo’ldi, avtoulovlarga
juda ko’p benzin kerak - yorilish jarayoni aniqlandi va bunday misollar juda
ko’p. Shunday qilib, Big Data nomi bilan jiddiy o’zgarishlarga olib kelishi
mumkin bo’lgan kompyuter texnologiyalarida paydo bo’layotgan sifatli o’tish
mavjud, bu yangi sanoat inqilobi deb bejiz aytilmagan. Big Data - bu keyingi
oqibatlarga olib keladigan yana bir texnik inqilob.
Ma’lumotlarni qayta ishlashda birinchi tajriba miloddan avvalgi 4-ming
yillikda, piktografik yozuv paydo bo’lgan paytga to’g’ri keladi. O’sha paytdan
boshlab ma’lumotlar bilan ishlashning bir necha asosiy yo’nalishlari rivojlandi,
eng kuchlisi matn bo’lib qoldi va birinchi gil lavhalardan SSDgacha, miloddan
avvalgi I ming yillikning o’rtalaridagi kutubxonalardan zamonaviy
kutubxonalarga qadar bo’lgan, keyin turli xil matematik raqamli usullar paydo
bo’lgan, papiruslardan Pifagor teoremasi va zamonaviy kompyuterlarda hisob-
kitoblarni soddalashtirish uchun jadval texnikasi. Jamiyat rivojlanib borishi
bilan jadvallarning har xil turlari to’plana boshladi, ular bilan ishlashni
avtomatlashtirish tabulyatorlardan boshlandi va 19-20 asrlarda ma’lumotlarni
yaratish va to’plashning ko’plab yangi usullari taklif qilindi. Katta hajmdagi
ma’lumotlar bilan ishlash zarurligi uzoq vaqtdan beri tushunib etilardi, ammo
mablag 'yo’q edi, shuning uchun Pol Otletning "Librarium" singari utopik
loyihalari yoki 60 ming kishi-kalkulyatorlarning mehnatidan foydalangan holda
ob-havoni bashorat qilishning ajoyib tizimi. Bugungi kunda kompyuter
ma’lumotlar bilan ishlashning universal vositasiga aylandi, garchi u faqat hisob-
kitoblarni avtomatlashtirish uchun o’ylangan bo’lsa ham. Ma’lumotlarni qayta
ishlash uchun kompyuterdan foydalanish g’oyasi IBM da raqamli
dasturlashtiriladigan kompyuterlar ixtiro qilinganidan o’n yil o’tgach paydo
bo’lgan va undan oldin ma’lumotlarni qayta ishlash uchun Herman Xollerit

ixtiro qilgan Unit Record shtamplash qurilmalari ishlatilgan. Ular Unit Records
deb nomlangan, ya’ni bitta yozuv - har bir kartada biron bir ob'ektga tegishli
barcha yozuvlar mavjud edi. Birinchi kompyuterlar Big Data bilan ishlashni
bilmas edi - faqat disklar va lentalarda drayvlar paydo bo’lishi bilan, ular 60-
yillarning oxirigacha mavjud bo’lgan kompyuterlarni hisoblash stantsiyalari
bilan raqobatlasha olishdi. Aytgancha, relyatsion ma’lumotlar bazalarida Unit
Record merosi aniq kuzatilgan.
Xom ma’lumotlar hajmining o’sishi, ularni real vaqtda tahlil qilish
zaruriyati bilan birgalikda Big Data Analytics deb nomlangan muammoni
samarali echadigan vositalarni yaratish va amalga oshirishni talab qiladi.
Information Builders texnologiyalari har xil manbalardan olingan ma’lumotlar
bilan real vaqtda, turli xil adapterlar va Enterprise Service Bus arxitekturasi
tufayli ishlashga imkon beradi. WebFOCUS vositasi tezda ma’lumotlarni tahlil
qilishga imkon beradi va natijalarni foydalanuvchi uchun eng yaxshi tarzda
tasavvur qilish imkonini beradi. RSTAT texnologiyasiga asoslanib, Axborot
quruvchilar taxminiy tahliliy mahsulotni yaratdilar, bu nima bo’lishini va nima
zarurligini taxminiy bashorat qilishga imkon beradi. Rossiyaga biznes-razvedka
texnologiyalari ham kirib keldi, ammo Rossiyaning bir nechta kompaniyalari
prognozli tahlildan foydalanadilar, bu esa mahalliy korxonalarda ishbilarmonlik
razvedkasidan foydalanish madaniyati pastligi va biznes foydalanuvchisi
tomonidan mavjud tahlil usullarini qabul qilishning murakkabligi bilan bog’liq.
Shuni inobatga olgan holda, bugungi kunda Information Builders kompaniyasi
Gartner tahlilchilari foydalanishni eng oson deb baholagan mahsulotlarni taklif
qilishmoqda.
Taxminan 1970 yildan keyin kompyuterlarning hisoblash qurilmalaridan
ma’lumotlarni qayta ishlashning universal mashinalariga bosqichma-bosqich
o’zgarishi bilan yangi atamalar paydo bo’ldi: ma’lumotlar mahsulot sifatida;
ma’lumotlar bilan ishlash vositalari (ma’lumotlar vositasi); tegishli tashkilot
tomonidan amalga oshiriladigan dasturlar (ma’lumotlar dasturi); ma’lumotlar
fani; ma’lumotlar olimlari va hatto ma’lumotlar tarkibidagi ma’lumotlarni keng

jamoatchilikka etkazadigan jurnalistlar (ma’lumotlar jurnalisti). Ma’lumotlarni
qo’llash sinfining dasturlari bugungi kunda keng tarqalgan bo’lib, ular nafaqat
ma’lumotlar ustida operatsiyalarni amalga oshiribgina qolmay, balki ulardan
qo’shimcha qiymatlarni chiqarib, ma’lumotlar shaklida mahsulotlarni
yaratadilar. Ushbu turdagi birinchi dasturlar orasida CDDB audio disk
ma’lumotlar bazasi mavjud bo’lib, u an'anaviy ma’lumotlar bazalaridan farqli
o’laroq, disklardan ma’lumotlarni olish va ularni metadata (disk nomlari, treklar
va boshqalar) bilan birlashtirish orqali yaratilgan. Ushbu baza Apple iTunes
xizmatining markazida joylashgan. Ma’lumotlar ilovasining rolini anglash ham
Google-ning tijorat muvaffaqiyatining omillaridan biri bo’lib qoldi -
ma’lumotlarga egalik huquqi ushbu kompaniyaga kerakli sahifadan tashqarida
joylashgan ma’lumotlardan foydalangan holda ("PageRank" algoritmi) juda ko’p
"bilish" imkonini beradi. Google to’g’ri imlo muammosini juda sodda tarzda hal
qildi - buning uchun xatolar va tuzatishlar bazasi yaratiladi va foydalanuvchiga
qabul qilishi yoki rad etishi mumkin bo’lgan tuzatishlar taklif etiladi. Shu kabi
yondashuv nutqni kiritish paytida tanib olish uchun ishlatiladi - bu to’plangan
audio ma’lumotlarga asoslanadi. 2009 yilda, cho’chqa grippi paytida, qidiruv
tizimlariga berilgan so’rovlar tahlili epidemiyaning tarqalishini kuzatishga
imkon berdi. Ko’pgina kompaniyalar (Facebook, LinkedIn, Amazon va
boshqalar) nafaqat xizmatlar ko’rsatish, balki to’plangan ma’lumotlardan boshqa
maqsadlarda ham foydalanib, Google yo’lidan bordilar. Ushbu turdagi
ma’lumotlarni qayta ishlash qobiliyati aholi haqidagi yana bir fan - fuqarolar
haqidagi fanning paydo bo’lishiga turtki berdi. Aholi ma’lumotlarini har
tomonlama tahlil qilish natijasida olingan natijalar odamlarni ancha chuqurroq
bilish va ma’muriy va biznes qarorlarini yanada oqilona qabul qilish imkonini
beradi. Ma’lumotlar to’plami va ular bilan ishlash uchun vositalar endi infoware
deb nomlanadi.
Ma’lumotlar omborlari, Internet-do’konlar, billing tizimlari yoki Big Data
loyihalari deb tasniflanadigan har qanday boshqa platformalar odatda o’ziga xos
xususiyatlarga ega va uning dizaynida asosiy narsa sanoat ma’lumotlari bilan

integratsiya qilish, ma’lumotlarni to’plash jarayonlarini ta’minlash, ularni
tashkil etish va tahlil qilish.
Oracle, to’liq dasturiy ta’minot to’plami va 18 Sun X4270 M2 serverlari
bilan optimallashtirilgan apparatlarning Big Data zanjirini qo’llab-quvvatlash
uchun o’rnatilgan Oracle Big Data Appliance echimini taqdim etdi. O’zaro
bog’liqlik 40 Gbit / s tezlikdagi Infiniband va 10 Gigabitli chekilgan tarmoqqa
asoslangan. Oracle Big Data Appliance Oracle ochiq manbali va xususiy
dasturiy ta’minotning kombinatsiyasini o’z ichiga oladi. Key-value yoki NoSQL
DBMS saqlash tizimlari bugungi kunda Big Data dunyosidagi asosiy tizim
sifatida tan olingan va ma’lumotlarni tezkor to’plash va ularga kirish uchun
optimallashtirilgan. Oracle Big Data Appliance uchun bunday DBMS sifatida,
Oracle Berkley DB bazasida ma’lumotlar bazasi topologiyasi to’g’risidagi
ma’lumotlarni saqlaydigan, ma’lumotlarni tarqatadigan va eng kam vaqtni
qaerga joylashtirish mumkinligini tushunadigan DBMS ishlatiladi. Orado
Loader for Hadoop yechimi MapReduce texnologiyasidan foydalanib Oracle
11g-da yuklash va tahlil qilish uchun optimallashtirilgan ma’lumotlar
to’plamlarini yaratadi. Ma’lumotlar tizim manbalaridan foydalanishni
minimallashtiradigan Oracle DBMS-ning "native" formatida hosil bo’ladi.
Formatlangan ma’lumotlar klasterda qayta ishlanadi, so’ngra ma’lumotlarga
an'anaviy SQL buyruqlari yoki biznes-razvedka vositalari yordamida an'anaviy
RDBMS foydalanuvchilari ish stantsiyalaridan kirish mumkin. Hadoop
ma’lumotlari va Oracle DBMS integratsiyasi Oracle Data Integrator echimi
yordamida amalga oshiriladi. Oracle Big Data Appliance Apache Hadoop-ning,
shu jumladan HDFS va boshqa tarkibiy qismlarning ochiq manbali tarqatilishi,
xom ma’lumotlarni tahlil qilish uchun R statistik to’plamining ochiq manbali
tarqatilishi va Oracle Enterprise Linux 5.6 bilan ta’minlanadi. Hadoop-dan
allaqachon foydalanadigan korxonalar HDFS-da joylashtirilgan ma’lumotlarni
tashqi jadvallarning funktsional imkoniyatlaridan foydalangan holda Oracle
DBMS-ga birlashtirishi mumkin va ma’lumotlar bazasini zudlik bilan
ma’lumotlar bazasiga yuklashning hojati yo’q - tashqi ma’lumotlar SQL

buyruqlari yordamida Oracle ma’lumotlar bazasining ichki ma’lumotlari bilan
birgalikda ishlatilishi mumkin. Infiniband orqali Oracle Big Data Appliance va
Oracle Exadata o’rtasidagi ulanish ommaviy qayta ishlash yoki SQL so’rovlari
uchun yuqori tezlikda ma’lumotlarni uzatishni ta’minlaydi. Oracle Exadata
ma’lumotlar omborida va tranzaktsiyalarni qayta ishlashning onlayn dasturlarida
kerakli ishlashni ta’minlaydi. Yangi Oracle Exalytics mahsuloti biznes-razvedka
vazifalarini hal qilishda ishlatilishi mumkin va Oracle Business Intelligence
Enterprise Edition-ni xotirada qayta ishlash bilan ishlatish uchun
optimallashtirilgan.
"Data Science nima?" O’Reilly Radar Report seriyasida nashr etilgan
Mayk Lukidis shunday deb yozgan edi: "Kelajak ma’lumotni mahsulotga
aylantira oladigan kompaniyalar va odamlarga tegishli". Ushbu bayonot
Rottsildning taniqli "Axborotga egalik qiluvchi - u dunyoga egalik qiladi" degan
so’zlarini eslaydi, u Napoleonning Vaterloodagi mag’lubiyati to’g’risida
boshqalardan oldinroq bilib, qimmatli qog’ozlar qallobligini aylantirganda
aytgan. Bugungi kunda ushbu aforizmni qayta ifodalashga arziydi: "Dunyo
ularni tahlil qilish uchun ma’lumotlar va texnologiyalarga egalik qiladi". Biroz
keyinroq yashagan Karl Marks sanoat inqilobi odamlarni ikki guruhga - ishlab
chiqarish vositalariga egalik qiluvchi va ular uchun ishlaydiganlarga
ajratganligini ko’rsatdi. Umuman olganda, hozirda shunga o’xshash narsa yuz
bermoqda, ammo endi mulkchilik va funktsiyalarni taqsimlash sub'ekti moddiy
qadriyatlarni ishlab chiqarish vositasi emas, balki ma’lumotlar va ma’lumotlarni
ishlab chiqarish vositasidir. Va bu erda muammolar paydo bo’ladi -
ma’lumotlarga ega bo’lish moddiy boyliklarga ega bo’lishdan ko’ra ancha qiyin
ekanligi aniqlanadi, birinchisi oddiygina takrorlanadi va ularni o’g’irlash
ehtimoli moddiy boyliklarga qaraganda ancha yuqori. Bundan tashqari, huquqiy
razvedka texnikasi mavjud - etarli hajm va tegishli tahlil usullari bilan siz
yashiringan narsani "hisoblashingiz" mumkin. Shuning uchun hozirda Big Data
Analytics-ga (yon panelga qarang) va undan qanday himoyalanishga katta
ahamiyat berilmoqda.

“ Big Data va ma`lumotlar tahlili faniga kirish, fanning maqsadi, asosiy tushunchalar tariflari. Data Scientist : ma’lumotlar tahlilchisi, ma’lumotlar muhandisi, mashinali o`qitish muhandisi ” mavzusida Reja: 1. Big Data(katta ma'lumotlar)ning 8 eng asosiy atamalari 2. Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari. 3. Katta ma’lumotlar va biznes. Katta ma’lumotlarni tahlil qilish texnikasi. 4. Katta ma’lumotlar va ma’lumotlarni qayta ishlash. Katta ma’lumotlar mashinasi.

1. Big Data (katta ma'lumotlar)ning 8 eng asosiy atamalari Big data ( katta ma'lumotlar ) - juda katta hajmdagi bir jinsli bo'lmagan va tez tushadigan raqamli ma'lumotlar bo'lib, ularni odatiy usullar bilan qayta ishlab bo'lmaydi. Ba'zi hollarda, katta ma'lumotlar tushunchasi bilan birga shu ma'lumotlarni qayta ishlash ham tushuniladi. Asosan, analiz obyekti katta ma'lumotlar deb ataladi. Big data atamasi 2008-yilda dunyoga kelgan. Nature jurnali muharriri Klifford Linch dunyo ma'lumotlar hajmining juda tez sur'atda o'sishiga bag'ishlangan maxsus sonida big data atamasini qo'llagan. Biroq, katta ma'lumotlar avval ham bo'lgan. Mutaxassislarning fikricha, kuniga 100 gb dan ko'p ma'lumot tushadigan oqimlarga big data deb aytilar ekan. Katta ma'lumotlarni analiz qilish, inson his etish imkoniyatidan tashqarida bo'lgan qonuniylatlarni aniqlashda yordam beradi. Bu esa kundalik hayotimizdagi barcha sohalar, hukumatni boshqarish, tibbiyot, telekommunikatsiya, moliya, transport, ishlab chiqarish va boshqa sohalarni yanada yaxshilash, ularning imkoniyatlarini oshirish, muommolarga muqobil yechimlar izlab topish imkonini yaratadi. Data lake ( ma'lumotlar ko'li ) - qayta ishlanmagan katta ma'lumotlar ombori. "Ko'l" har xil manbalardan kelgan, har xil formatda bo'lgan ma'lumotlarni saqlaydi. Bu esa odatiy relatsion ma'lumotlar omborida ma'lumotlarni aniq struktura asosida saqlashdan ko'ra arzonroqqa tushadi. Ma'lumotlar ko'li, ma'lumotlarni boshlang'ich holatida analiz qilish imkonini beradi. Bundan tashqari, "ko'l"lardan bir vaqtni o'zida bir nechta ishchilar foydalanishlari mumkin. Data science ( ma'lumotlar haqidagi fan ) - analiz muommolarini , ma'lumotlarni qayta ishlash va ularni raqamli ko'rinishda taqdim etishni o'rganadigan fan.

Bu atama dunyoga kelgan vaqt 1974-yil hisoblanadi. O'sha yili Daniyalik informatik, Peter Naur "A Basic Principle of Data Science" nomli kitobini chop ettirgan. 2010-yillar boshida katta ma'lumotlarni tarqalishi natijasida bu yo'nalish juda foydali va kelajagi bor biznesga aylandi. Ushanda katta ma'lumotlar bilan ishlaydigan mutaxassislarga talab juda oshib ketdi. Data science tushunchasiga ma'lumotlar omborini loyihalash va raqamlangan ma'lumotlarni qayta ishlashning barcha metodlari kiradi. Ko'plab mutaxassislar fikricha, aynan data science big dataning biznes nuqtai nazaridan hozirgi zamonoviy o'rindoshi hisoblanadi. Data mining ( ma'lumotlarni topish ) - biron qonuniyatni topish maqsadida ma'lumotlarni intellektual analiz qilishga aytiladi. Isroillik matematik Grigoriy Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan. Texnologiyalar, avvalari noma'lum va foydali bo'lgan qayta ishlanmagan(hom) ma'lumotlarni topish jarayoniga data mining(ma'lumotlarni topish) deyiladi. Data mining metodlari ma'lumotlar ombori, statistika va sun'iy intellekt tutashgan nuqtada joylashadi. Machine learning ( mashinali o'qitish ) - o'zi o'rganadigan dasturlar yaratish amaliyoti va nazariyasi, sun'iy intellektning katta qismi. Dasturchilar o'z algoritmlariga xususiy hollarda umumiy qonuniyatlarni aniqlashni o'rgatishadi. Natijada, kompyuter, inson avvaldan ko'rsatib o'tgan buyruqlaridan emas, balki, o'z shaxsiy malakasidan kelib chiqib qaror qabul qiladi. Bunday o'qitishning juda ko'p metodlari data mining'ga oid bo'lishi mumkin. Mashinali o'qitishga birinchi tarifni 1959-yilda amerikalik informatik Artur Samuel bergan. U sun'iy intellekt elementlariga ega bo'lgan shashka o'yini, dunyoda birinchi o'zi o'rganadigan dasturni yaratgan. Deep learning ( chuqur o'qitish ) - yanada murakkab va yanada mustaqil bo'lgan o'zi o'qidigan dasturlar yaratadigan mashinali o'qitish turi. Oddiy mashinali o'qitish hollarida boshqariladigan malaka yordamida kompyuter

bilimlarni aniqlab oladi: dasturchi algoritmga ma'lum misollarni ko'rsatadi, xatolarni qo'lda to'g'rilaydi. Deep learningda esa, tizim o'zi o'z funksiyalarini loyihalaydi, ko'p darajali hisob-kitoblar amalga oshiradi va atrof-muhit haqida xulosalar qiladi. Odatda chuqur o'qitishni neyron tarmoqlarga tadbiq qilishadi. Bu texnologiya asosan rasmlarni qayta ishlashda, nutqni tanishda, neyromashina tarjima, farmatsevtikadagi hisoblashlarda va boshqa zamonaviy texnologiyalarda qo'llaniladi. Asosan Google, facebook va Baidu tomonidan loyihalarga tadbir qilinadi. Sun'iy neyron tarmog'i - oddiy protsessorlar(sun'iy neyronlar) birlashtirilgan tizimi bo'lib, insonning nerv tizimini imitatsiya qiladi. Bunday struktura evaziga, neyron tarmoqlari dasturlanmaydi, ular o'qitishadi. Huddi haqiqiy neyronlar kabi, protsessorlar signallarni oddiygina qabul qilishadi va boshqa protsessorlarga o'zatishadi. Shu bilan birga, boshqa butun tizim algoritmlar bajara olmaydigan murakkab topshiriqlarni bajaradi. 1943-yilda amerikalik olimlar Uorren Makkalok va Uolter Pittslar sun'iy neyron tarmog'i tushunchasini fanga kiritishgan. Business intelligence ( biznes-analitika ) - aniq strukturaga ega bo'lmagan juda katta hajmdagi ma'lumotlarni qayta ishlash natijasida muqobil biznes yechimlar izlashga aytiladi. Effektiv biznes-analitika ichki va tashqi ma'lumotlarni analiz qiladi - ham bozor axborotlarini, ham mijoz-kompaniyaning hisobotlarini hisobga oladi. Bu biznesni butunlay tushunishga yordam beradi, shu bilan birga, strategik va operatsion qarorlar qabul qilishga zamin yaratadi(mahsulot narxini aniqlashda, kompaniya rivojlanishining asosiy yo'nalishlarini belgilab olishda). Bu atama 1958-yilda IBM taqdiqotchisi Xans Piter Lun maqolasida birinchi bo'lib ko'rsatilgan. 1996-yilda axborot texnologiyalari bozorini o'rganishga asoslangan Gartner analitik agentligi business intelligence tarkibiga data mining metodikasini ham qo'shgan.

2. Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari. 2018 yil o'rtalariga kelib Vikipediya Big Data atamasiga quyidagi ta'rifni berdi: "Katta ma'lumotlar - bu 2000-yillarning oxirida paydo bo'lgan va ma'lumotlar bazasini boshqarishning an'anaviy tizimlari va Business Intelligence klassining echimlariga alternativa bo'lgan, gorizontal miqyosda kengaytiriladigan dasturiy vositalar yordamida samarali ishlov beriladigan juda katta hajmli va sezilarli tuzilmalarning ma'lumotlari". Ko'rib turganingizdek, ushbu ta'rifda "ulkan", "ahamiyatli", "samarali" va "alternativ" kabi noaniq atamalar mavjud. Hatto ismning o'zi ham juda subyektivdir. IBS kompaniyasi tahlilchilari "ma'lumotlarning butun dunyo hajmini" quyidagi ko'rsatkichlar bo'yicha baholadilar:  2003 - 5 ekzabayt ma'lumotlar (1 EB = 1 milliard gigabayt)  2008 yil - 0,18 zettabayt (1 zb = 1024 ekzabayt)  2015 yil - 6,5 zettabaytdan yuqori  2020 - 40-44 zettabayt (prognoz)  2025 yil - bu hajm 10 baravar ko'payadi. Hisobotda shuningdek, ma'lumotlarning aksariyati oddiy iste'molchilar tomonidan emas, balki korxonalar tomonidan yaratilmasligi ta'kidlanadi (Things Industrial Internet-ni eslang). Bundan tashqari, siz jurnalistlar va marketologlarning aniq fikriga mos keladigan sodda ta'rifdan foydalanishingiz mumkin. "Katta ma'lumotlar - bu uchta operatsiyani bajarish uchun mo'ljallangan texnologiyalarning birikmasi: Bundan tashqari, 2015 yil oktyabr oyida Gartner Big Data-ni mashhur tendentsiyalar ro'yxatidan chiqarib tashladi. Kompaniya tahlilchilari o'z qarorlarini "katta ma'lumotlar" tushunchasi korxonalarda allaqachon faol qo'llaniladigan, qisman boshqa mashhur sohalar va tendentsiyalar bilan bog'liq bo'lgan va kundalik ishlaydigan vositaga aylangan ko'plab texnologiyalarni o'z ichiga olganligi bilan izohlashdi.

Big Data va ma`lumotlar tahlili faniga kirish, fanning maqsadi, asosiy tushunchalar tariflari. Data Scientist ma’lumotlar tahlilchisi, ma’lumotlar muhandisi, mashinali o`qitish muhandisi

08.08.2023

0

536.7607421875 KB

Похожие