logo

Big Data va ma`lumotlar tahlili faniga kirish, fanning maqsadi, asosiy tushunchalar tariflari. Data Scientist ma’lumotlar tahlilchisi, ma’lumotlar muhandisi, mashinali o`qitish muhandisi

Загружено в:

08.08.2023

Скачано:

0

Размер:

536.7607421875 KB
“ Big Data va ma`lumotlar tahlili faniga kirish, fanning maqsadi, asosiy
tushunchalar tariflari. Data  Scientist : ma’lumotlar tahlilchisi, ma’lumotlar
muhandisi, mashinali o`qitish muhandisi ” mavzusida
Reja:
1. Big Data(katta ma'lumotlar)ning 8 eng asosiy atamalari  
2. Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari. 
3. Katta   ma’lumotlar   va   biznes.   Katta   ma’lumotlarni   tahlil   qilish
texnikasi.
4. Katta ma’lumotlar va ma’lumotlarni qayta ishlash. Katta ma’lumotlar
mashinasi. 1. Big Data (katta ma'lumotlar)ning 8 eng asosiy atamalari  
Big data  ( katta ma'lumotlar ) - juda katta hajmdagi bir jinsli bo'lmagan va
tez   tushadigan   raqamli   ma'lumotlar   bo'lib,   ularni   odatiy   usullar   bilan   qayta
ishlab   bo'lmaydi.   Ba'zi   hollarda,   katta   ma'lumotlar   tushunchasi   bilan   birga   shu
ma'lumotlarni   qayta   ishlash   ham   tushuniladi.   Asosan,   analiz   obyekti   katta
ma'lumotlar deb ataladi.
Big   data   atamasi   2008-yilda   dunyoga   kelgan.   Nature   jurnali   muharriri
Klifford   Linch   dunyo   ma'lumotlar   hajmining   juda   tez   sur'atda   o'sishiga
bag'ishlangan   maxsus   sonida   big   data   atamasini   qo'llagan.   Biroq,   katta
ma'lumotlar  avval   ham  bo'lgan.  Mutaxassislarning  fikricha,  kuniga  100 gb  dan
ko'p ma'lumot tushadigan oqimlarga big data deb aytilar ekan.
Katta ma'lumotlarni analiz qilish, inson his etish imkoniyatidan tashqarida
bo'lgan   qonuniylatlarni   aniqlashda   yordam   beradi.   Bu   esa   kundalik
hayotimizdagi   barcha   sohalar,   hukumatni   boshqarish,   tibbiyot,
telekommunikatsiya,   moliya,   transport,   ishlab   chiqarish   va   boshqa   sohalarni
yanada   yaxshilash,   ularning   imkoniyatlarini   oshirish,   muommolarga   muqobil
yechimlar izlab topish imkonini yaratadi.
Data   lake ( ma'lumotlar   ko'li )   -   qayta   ishlanmagan   katta   ma'lumotlar
ombori.
"Ko'l" har xil manbalardan kelgan, har xil formatda bo'lgan ma'lumotlarni
saqlaydi.   Bu   esa   odatiy   relatsion   ma'lumotlar   omborida   ma'lumotlarni   aniq
struktura   asosida   saqlashdan   ko'ra   arzonroqqa   tushadi.   Ma'lumotlar   ko'li,
ma'lumotlarni   boshlang'ich   holatida   analiz   qilish   imkonini   beradi.   Bundan
tashqari,   "ko'l"lardan   bir   vaqtni   o'zida   bir   nechta   ishchilar   foydalanishlari
mumkin.
Data   science ( ma'lumotlar   haqidagi   fan )   -   analiz   muommolarini   ,
ma'lumotlarni   qayta   ishlash   va   ularni   raqamli   ko'rinishda   taqdim   etishni
o'rganadigan fan. Bu atama dunyoga kelgan vaqt 1974-yil hisoblanadi. O'sha yili Daniyalik
informatik, Peter Naur "A Basic Principle of Data Science" nomli kitobini chop
ettirgan.
2010-yillar   boshida   katta   ma'lumotlarni   tarqalishi   natijasida   bu   yo'nalish
juda foydali va kelajagi  bor  biznesga aylandi. Ushanda katta ma'lumotlar bilan
ishlaydigan mutaxassislarga talab juda oshib ketdi.
Data   science   tushunchasiga   ma'lumotlar   omborini   loyihalash   va
raqamlangan   ma'lumotlarni   qayta   ishlashning   barcha   metodlari   kiradi.   Ko'plab
mutaxassislar fikricha, aynan data science big dataning biznes nuqtai nazaridan
hozirgi zamonoviy o'rindoshi hisoblanadi.
Data mining ( ma'lumotlarni topish ) - biron qonuniyatni topish maqsadida
ma'lumotlarni   intellektual   analiz   qilishga   aytiladi.   Isroillik   matematik   Grigoriy
Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan.
Texnologiyalar,   avvalari   noma'lum   va   foydali   bo'lgan   qayta
ishlanmagan(hom)   ma'lumotlarni   topish   jarayoniga   data   mining(ma'lumotlarni
topish) deyiladi. Data mining metodlari ma'lumotlar ombori, statistika va sun'iy
intellekt tutashgan nuqtada joylashadi.
Machine   learning ( mashinali   o'qitish )   -   o'zi   o'rganadigan   dasturlar
yaratish amaliyoti va nazariyasi, sun'iy intellektning katta qismi.
Dasturchilar   o'z   algoritmlariga   xususiy   hollarda   umumiy   qonuniyatlarni
aniqlashni   o'rgatishadi.   Natijada,   kompyuter,   inson   avvaldan   ko'rsatib   o'tgan
buyruqlaridan   emas,   balki,   o'z   shaxsiy   malakasidan   kelib   chiqib   qaror   qabul
qiladi.   Bunday   o'qitishning   juda   ko'p   metodlari   data   mining'ga   oid   bo'lishi
mumkin.
Mashinali   o'qitishga   birinchi   tarifni   1959-yilda   amerikalik   informatik
Artur Samuel bergan. U sun'iy intellekt elementlariga ega bo'lgan shashka o'yini,
dunyoda birinchi o'zi o'rganadigan dasturni yaratgan.
Deep   learning ( chuqur   o'qitish )   -   yanada   murakkab   va   yanada   mustaqil
bo'lgan   o'zi   o'qidigan   dasturlar   yaratadigan   mashinali   o'qitish   turi.   Oddiy
mashinali   o'qitish   hollarida   boshqariladigan   malaka   yordamida   kompyuter bilimlarni   aniqlab   oladi:   dasturchi   algoritmga   ma'lum   misollarni   ko'rsatadi,
xatolarni   qo'lda   to'g'rilaydi.   Deep   learningda   esa,   tizim   o'zi   o'z   funksiyalarini
loyihalaydi,   ko'p   darajali   hisob-kitoblar   amalga   oshiradi   va   atrof-muhit   haqida
xulosalar qiladi.
Odatda   chuqur   o'qitishni   neyron   tarmoqlarga   tadbiq   qilishadi.   Bu
texnologiya   asosan   rasmlarni   qayta   ishlashda,   nutqni   tanishda,   neyromashina
tarjima,   farmatsevtikadagi   hisoblashlarda   va   boshqa   zamonaviy
texnologiyalarda   qo'llaniladi.   Asosan   Google,   facebook   va   Baidu   tomonidan
loyihalarga tadbir qilinadi.
Sun'iy   neyron   tarmog'i   -   oddiy   protsessorlar(sun'iy   neyronlar)
birlashtirilgan   tizimi   bo'lib,   insonning   nerv   tizimini   imitatsiya   qiladi.   Bunday
struktura   evaziga,   neyron   tarmoqlari   dasturlanmaydi,   ular   o'qitishadi.   Huddi
haqiqiy   neyronlar   kabi,   protsessorlar   signallarni   oddiygina   qabul   qilishadi   va
boshqa   protsessorlarga   o'zatishadi.   Shu   bilan   birga,   boshqa   butun   tizim
algoritmlar bajara olmaydigan murakkab topshiriqlarni bajaradi.
1943-yilda amerikalik olimlar  Uorren Makkalok  va Uolter  Pittslar  sun'iy
neyron tarmog'i tushunchasini fanga kiritishgan.
Business   intelligence ( biznes-analitika )   -   aniq   strukturaga   ega   bo'lmagan
juda   katta   hajmdagi   ma'lumotlarni   qayta   ishlash   natijasida   muqobil   biznes
yechimlar izlashga aytiladi.
Effektiv biznes-analitika ichki va tashqi ma'lumotlarni analiz qiladi - ham
bozor   axborotlarini,   ham   mijoz-kompaniyaning   hisobotlarini   hisobga   oladi.   Bu
biznesni   butunlay   tushunishga   yordam   beradi,   shu   bilan   birga,   strategik   va
operatsion   qarorlar   qabul   qilishga   zamin   yaratadi(mahsulot   narxini   aniqlashda,
kompaniya rivojlanishining asosiy yo'nalishlarini belgilab olishda).
Bu   atama   1958-yilda   IBM   taqdiqotchisi   Xans   Piter   Lun   maqolasida
birinchi   bo'lib   ko'rsatilgan.   1996-yilda   axborot   texnologiyalari   bozorini
o'rganishga asoslangan Gartner analitik agentligi business intelligence tarkibiga
data mining metodikasini ham qo'shgan. 2. Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari.
2018 yil o'rtalariga kelib Vikipediya Big Data atamasiga quyidagi ta'rifni
berdi:   "Katta   ma'lumotlar   -   bu   2000-yillarning   oxirida   paydo   bo'lgan   va
ma'lumotlar bazasini boshqarishning an'anaviy tizimlari va Business Intelligence
klassining   echimlariga   alternativa   bo'lgan,   gorizontal   miqyosda
kengaytiriladigan dasturiy vositalar yordamida samarali ishlov beriladigan juda
katta hajmli va sezilarli tuzilmalarning ma'lumotlari".
Ko'rib turganingizdek, ushbu ta'rifda "ulkan", "ahamiyatli", "samarali" va
"alternativ"   kabi   noaniq   atamalar   mavjud.   Hatto   ismning   o'zi   ham   juda
subyektivdir.
IBS   kompaniyasi   tahlilchilari   "ma'lumotlarning   butun   dunyo   hajmini"
quyidagi ko'rsatkichlar bo'yicha baholadilar:
 2003 - 5 ekzabayt ma'lumotlar (1 EB = 1 milliard gigabayt)
 2008 yil - 0,18 zettabayt (1 zb = 1024 ekzabayt)
 2015 yil - 6,5 zettabaytdan yuqori
 2020 - 40-44 zettabayt (prognoz)
 2025 yil - bu hajm 10 baravar ko'payadi.
Hisobotda   shuningdek,   ma'lumotlarning   aksariyati   oddiy   iste'molchilar
tomonidan emas, balki korxonalar tomonidan yaratilmasligi ta'kidlanadi (Things
Industrial Internet-ni eslang).
Bundan   tashqari,   siz   jurnalistlar   va   marketologlarning   aniq   fikriga   mos
keladigan sodda ta'rifdan foydalanishingiz mumkin.
"Katta   ma'lumotlar   -   bu   uchta   operatsiyani   bajarish   uchun   mo'ljallangan
texnologiyalarning birikmasi: 
Bundan   tashqari,   2015   yil   oktyabr   oyida   Gartner   Big   Data-ni   mashhur
tendentsiyalar   ro'yxatidan   chiqarib   tashladi.   Kompaniya   tahlilchilari   o'z
qarorlarini   "katta   ma'lumotlar"   tushunchasi   korxonalarda   allaqachon   faol
qo'llaniladigan,   qisman   boshqa   mashhur   sohalar   va   tendentsiyalar   bilan  bog'liq
bo'lgan   va   kundalik   ishlaydigan   vositaga   aylangan   ko'plab   texnologiyalarni   o'z
ichiga olganligi bilan izohlashdi. Big   Data-ning   afzalliklari:   Turli   manbalardan   ma’lumotlarni   yig’ish.
Haqiqiy   vaqtda   tahlil   qilish   orqali   biznes   jarayonlarini   takomillashtirish.   Katta
hajmdagi   ma’lumotlarni   saqlash.   Tushunchalar.   Big   Data   tuzilgan   va   yarim
tuzilgan   ma’lumotlar   bilan   yashirin   ma’lumotlar   haqida   ko’proq   ma’lumotga
ega.   Katta   ma’lumotlar   xavfni   kamaytirishga   va   to’g’ri   risklarni   tahlil   qilish
bilan aqlli qarorlarni qabul qilishga yordam beradi
Katta ma’lumotlarga misollar Nyu-York fond birjasi har kuni hosil qiladi
1 terabayt so’nggi sessiya bo’yicha savdolar to’g’risidagi ma’lumotlar. Ijtimoiy
tarmoqlar: statistika shuni ko’rsatadiki, Facebook ma’lumotlar bazalari har kuni
yuklanadi   500   terabayt   yangi   ma’lumotlar   asosan   fotosuratlar   va   videolarni
ijtimoiy tarmoq serverlariga yuklash, xabar almashish, postlar ostidagi sharhlar
va hk. Reaktiv dvigatel hosil qiladi 10 terabayt parvoz paytida har 30 daqiqada
ma’lumotlar.   Har   kuni   minglab   parvozlar   amalga   oshirilganligi   sababli,
ma’lumotlar hajmi petabaytga etadi.
Katta ma’lumotlar tasnifi Katta ma’lumot shakllari: Tuzilgan Tuzilmagan
Yarim tuzilgan Tuzilgan shakl Saqlash, kirish va sobit formatda ishlov berilishi
mumkin   bo’lgan   ma’lumotlar   tuzilgan   deb   nomlanadi.   Ko’p   yillar   davomida
kompyuter   fanlari   ushbu   turdagi   ma’lumotlar   bilan   ishlash   texnikasini
takomillashtirishda   katta   yutuqlarga   erishdi   (bu   erda   format   oldindan   ma’lum)
va qanday foyda olishni bilib oldi. Biroq, bugungi kunda hajmlarning bir necha
zettabayt oralig’ida o’sib borishi bilan bog’liq muammolar mavjud. 1 zettabayt
milliard   terabaytga   teng   Ushbu   raqamlarga   qarab,   Big   Data   atamasining
to’g’riligiga   va   bunday   ma’lumotlarni   qayta   ishlash   va   saqlash   bilan   bog’liq
qiyinchiliklarga   amin   bo’lish   oson.   Relyatsion   ma’lumotlar   bazasida
saqlanadigan   ma’lumotlar   tuzilgan   va   masalan,   kompaniya   xodimlarining
jadvallariga o’xshaydi Tuzilmagan shakl Noma’lum tuzilishga ega ma’lumotlar
tuzilmagan   deb   tasniflanadi.   Ushbu   shakl   katta   bo’lishidan   tashqari,   foydali
ma’lumotlarni   qayta   ishlash   va   qazib   olishda   bir   qator   qiyinchiliklar   bilan
tavsiflanadi.   Tuzilmasiz   ma’lumotlarning   odatiy   misoli   oddiy   matnli   fayllar,
rasmlar   va   videofilmlarning   kombinatsiyasini   o’z   ichiga   olgan   heterojen manbadir.   Bugungi   kunda   tashkilotlar   katta   miqdordagi   xom   yoki   tuzilmaviy
ma’lumotlarga ega, ammo ulardan qanday foydalanishni bilishmaydi.
Vaqt o’tishi bilan katta ma’lumotlarning o’sishi:
Moviy   rang   relyatsion   ma’lumotlar   bazalarida   saqlanadigan   tuzilgan
ma’lumotlarni (Enterprise ma’lumotlar) ifodalaydi. Boshqa ranglar - bu turli xil manbalardan   tuzilgan   bo’lmagan   ma’lumotlar   (IP-telefoniya,   qurilmalar   va
sensorlar,   ijtimoiy   tarmoqlar   va   veb-ilovalar).   Gartnerning   fikriga   ko’ra,   katta
ma’lumotlar   hajmi,   ishlab   chiqarish   darajasi,   xilma-xilligi   va   o’zgaruvchanligi
bilan farq qiladi. Keling, ushbu xususiyatlarni batafsil ko’rib chiqaylik. Tovush.
Big   Data   atamasining   o’zi   katta   hajm   bilan   bog’liq.   Ma’lumotlarning   hajmi
mumkin   bo’lgan   qayta   tiklanadigan   qiymatni   aniqlashda   eng   muhim
ko’rsatkichdir.   Kuniga   6   million   kishi   raqamli   ommaviy   axborot   vositalaridan
foydalanadi,   bu   esa   2,5   kvintillion   bayt   ma’lumot   ishlab   chiqarishi   taxmin
qilinmoqda.   Shuning   uchun   hajm   birinchi   e'tiborga   olinadigan   xususiyatdir.
Turli   xillik   -   keyingi   jihat.   U   ma’lumotlarning   bir   xil   bo’lmagan   manbalari   va
tabiatiga   ishora   qiladi,   ular   tuzilgan   yoki   tuzilmasiz   bo’lishi   mumkin.   Ilgari,
elektron   jadvallar   va   ma’lumotlar   bazalari   ko’pgina   ilovalarda   ko’rib
chiqiladigan yagona ma’lumot manbai bo’lgan. Bugungi kunda elektron pochta
xabarlari,   fotosuratlar,   videolar,   PDF-fayllar,   audio   shaklidagi   ma’lumotlar
tahliliy   dasturlarda   ham   ko’rib   chiqilmoqda.   Ushbu   turli   xil   tuzilmagan
ma’lumotlar   saqlash,   ishlab   chiqarish   va   tahlil   qilishda   muammolarga   olib
keladi:   kompaniyalarning   27%   to’g’ri   ma’lumotlar   bilan   ishlayotganiga   amin
emaslar.   Avlod   tezligi.   Talablarni   qondirish   uchun   ma’lumotlarning   qanchalik
tez   to’planishi   va   qayta   ishlanishi   salohiyatni   belgilaydi.   Tezlik   manbalardan   -
biznes   jarayonlaridan,   ilovalar   jurnallaridan,   ijtimoiy   tarmoq   saytlari   va
ommaviy   axborot   vositalaridan,   datchiklardan,   mobil   qurilmalardan   ma’lumot
olish   tezligini   belgilaydi.   Ma’lumotlar   oqimi   vaqt   o’tishi   bilan   ulkan   va
doimiydir.   O’zgaruvchanlik   ba’zi   bir   vaqtlarda   ma’lumotlarning
o’zgaruvchanligini   tavsiflaydi,   bu   esa   qayta   ishlash   va   boshqarishni
murakkablashtiradi. Masalan, ma’lumotlarning aksariyati tuzilmaga ega emas.
Mijozlarga   xizmat   ko’rsatishni   takomillashtirish:   Mijozlarning   an'anaviy
aloqa   tizimlari   mijozlarning   fikr-mulohazalarini   o’qish   va   baholash   uchun   Big
Data   va   tabiiy   tilni   qayta   ishlashdan   foydalanadigan   yangilari   bilan
almashtirilmoqda.   Xatarlarni   hisoblashyangi   mahsulot   yoki   xizmatni   chiqarish
bilan bog’liq.  Operatsion   samaradorlik:   Katta   ma’lumotlar   tegishli   ma’lumotlarni
tezroq olish va aniq natijalarni tezda berish uchun tuzilgan. Big Data va saqlash
texnologiyalarining bu kombinatsiyasi tashkilotlarga kamdan kam ishlatiladigan
ma’lumotlar bilan ishlashni optimallashtirishga yordam beradi.
3.   Katta ma’lumotlar va biznes. Katta ma’lumotlarni tahlil 
qilish texnikasi.
Ma’lumotlar   to’plamini   tahlil   qilishning   turli   xil   usullari   mavjud,   ular
statistikadan   va   kompyuter   fanidan   olingan   vositalarga   asoslangan   (masalan,
mashinada   o’rganish).   Ro’yxat   to’liq   deb   da’vo   qilmaydi,   ammo   u   turli
sohalardagi   eng   mashhur   yondashuvlarni   aks   ettiradi.   Shu   bilan   birga,
tadqiqotchilar   yangi   texnikalarni   yaratish   va   mavjudlarini   takomillashtirish
ustida ishlashni davom ettirishlarini tushunish kerak. Bundan tashqari, yuqorida
sanab   o’tilgan   ba’zi   usullar   faqat   katta   ma’lumotlarga   taalluqli   emas   va   kichik
massivlar   uchun   muvaffaqiyatli   ishlatilishi   mumkin   (masalan,   A/B   sinovlari,
regressiya   tahlili).   Albatta,   massiv   qanchalik   ko’p   hajmli   va   turlicha   tahlil
qilinsa,   chiqishda   shuncha   aniq   va   kerakli   ma’lumotlarni   olish   mumkin.   A/B
sinovlari.   Nazorat   namunasi   boshqalar   bilan   birma-bir   taqqoslanadigan   usul.
Shunday   qilib,   masalan,   marketing   taklifiga   iste'molchilarning   eng   yaxshi
javobini   olish   uchun   ko’rsatkichlarning   optimal   kombinatsiyasini   aniqlash
mumkin.   Katta   ma’lumotlar   juda   ko’p   sonli   takrorlashni   amalga   oshirishga
imkon beradi va shu bilan statistik jihatdan ishonchli natijaga erishadi. Uyushma
qoidalarini   o’rganish.   O’zaro   munosabatlarni   aniqlash   uchun   texnik   vositalar
to’plami,   ya’ni.   assotsiatsiya   qoidalari,   katta   ma’lumotlar   to’plamidagi
o’zgaruvchilar   o’rtasida.   Ichida   ishlatilgan   ma’lumotlar   qazib   olish.   Tasnifi.
Bozorning ma’lum bir segmentida iste'molchilarning xatti-harakatlarini bashorat
qilishga imkon beradigan texnikalar to’plami (sotib olish, chiqib ketish, iste'mol
qilish   va   h.k.).   Ichida   ishlatilgan   ma’lumotlar   qazib   olish.   Klaster   tahlili.
Oldindan   noma’lum   bo’lgan   umumiy   xususiyatlarni   aniqlash   orqali   ob'ektlarni
guruhlarga ajratishning statistik usuli. Ichida ishlatilgan ma’lumotlar qazib olish. Ko’p   sonli   manbalardan   ma’lumotlarni   yig’ish   metodikasi.   Ma’lumotlarni
birlashtirish   va   ma’lumotlarni   birlashtirish.   Ijtimoiy   tarmoqlar
foydalanuvchilarining sharhlarini tahlil qilish va real vaqt rejimida ularni savdo
natijalari   bilan   taqqoslash   imkonini   beradigan   texnikalar   to’plami.
Ma’lumotlarni   qazib   olish.   Rag’batlantirilayotgan   mahsulot   yoki   xizmatni   eng
yaxshi   qabul   qiladigan   iste'molchilar   toifalarini   aniqlashga,   eng   muvaffaqiyatli
xodimlarning   xususiyatlarini   aniqlashga   va   iste'molchilarning   xulq-atvor
modelini taxmin qilishga imkon beradigan usullar to’plami.
Vizualizatsiya.   Tafsirni   osonlashtirish   va   natijalarni   tushunishni
osonlashtirish   uchun   katta   ma’lumotlarni   tahlil   qilish   natijalarini   diagramma
yoki   animatsion   rasm   shaklida   grafik   tarzda   taqdim   etish   usullari.   Katta
ma’lumotlarni tahlil qilish natijalarini vizualizatsiya qilish ularni izohlash uchun
muhimdir.   Hech   kimga   sir   emaski,   odamlarning   idroki   cheklangan   va   olimlar
ma’lumotlarni   tasvirlar,   diagrammalar   yoki   animatsiyalar   ko’rinishida   taqdim
etishning   zamonaviy   usullarini   takomillashtirish   bo’yicha   izlanishlarni   davom
ettirmoqdalar.
Jahon   va   Rossiya   bozori   Katta   ma’lumotlar   peyzaji   -   Asosiy   etkazib
beruvchilar . To’plash,   qayta   ishlash,   boshqarish   va   tahlil   qilish   vositalariga   qiziqish
katta   ma’lumotlar   deyarli   barcha   etakchi   IT-kompaniyalarni   namoyish   etdi,   bu
juda   tabiiy.   Birinchidan,   ular   ushbu   hodisaga   bevosita   o’z   bizneslarida   duch
kelishadi, ikkinchidan. katta ma’lumotlar yangi bozor joylarini rivojlantirish va
yangi   mijozlarni   jalb   qilish   uchun   ajoyib   imkoniyatlarni   oching.   Bozorda   juda
katta   miqdordagi   ma’lumotlarni   qayta   ishlash   bilan   shug’ullanadigan   ko’plab
startaplar   paydo   bo’ldi.   Ulardan   ba’zilari   Amazon   kabi   yirik   o’yinchilar
tomonidan taqdim etiladigan "bulutli" infratuzilmadan foydalanadilar.
Katta ma’lumotlar va biznes
Bir   yildan   kam   vaqt   o’tgach,   Big   Data   atamasi   etakchi   biznes
nashrlarining sahifalarida paydo bo’ldi, ammo bu erda mutlaqo boshqa metafora
ishlatilgan.   Big   Data   mineral   resurslar   bilan   taqqoslanadi   -   yangi   neft   (yangi
neft), oltin zirh (oltin shoshilinch), ma’lumotlar qazib olish (ma’lumotlar qazib
olish), bu maxfiy ma’lumot manbai sifatida ma’lumotlarning rolini  ta’kidlaydi;
tabiiy   ofatlar   bilan   -   ma’lumotlar   tornado   (ma’lumotlar   bo’roni),   ma’lumotlar
to’foni   (ma’lumotlar   toshqini),   ma’lumotlarning   to’lqin   to’lqini   (ma’lumotlar
toshqini),   ularni   tahdid   sifatida   ko’rish;   sanoat   ishlab   chiqarish   bilan   aloqani
ushlab   turish   -   ma’lumotlar   egzozi,   o’t   o’chirish   shnuri,   sanoat   inqilobi
Biznesda, ilm-fan singari, katta hajmdagi ma’lumotlar ham mutlaqo yangi narsa
emas - ular uzoq vaqtdan beri katta hajmdagi ma’lumotlar bilan ishlash zarurligi
haqida   gaplashib   kelmoqdalar,   masalan,   radiochastota   identifikatsiyasi   (RFID)
va   ijtimoiy   tarmoqlarning   tarqalishi   bilan   bog’liq   va   h.k.   va   fanda   unga   nima
bo’layotganini aniqlash uchun faqat yorqin metafora etishmadi. Shuning uchun
2010  yilda  Big  Data  toifasiga   kiritilganligini   da’vo  qilgan  birinchi   mahsulotlar
paydo   bo’ldi   -   allaqachon   mavjud   bo’lgan   narsalar   uchun   mos   nom   bor   edi.
2011   yilgi   yangi   texnologiyalarning   holati   va   istiqbollarini   tavsiflovchi   Hype
Cycle versiyasida Gartner tahlilchilari yana bitta pozitsiyani taqdim etgani katta
ma’lumotlar   va   ekstremal   axborotni   qayta   ishlash   va   boshqarish   tegishli echimlarni ikki yildan besh yilgacha ommaviy ravishda amalga oshirish davrini
baholash bilan.
Nima uchun Big Data muammoga duch kelmoqda?
Big Data atamasi paydo bo’lgandan keyin ham Big Data-ning biznesdagi
o’rni   noaniq   bo’lib   qolmoqda,   ular   shunchaki   "Katta   ma’lumotlar   muammosi"
haqida gapirishlari  bejiz emas,  shunchaki  muammo emas,  balki qolgan hamma
narsa  ham  noto’g’ri  aniqlangan.  Ko’pincha,  muammo sodda  qilib, Mur  qonuni
singari   talqin   qilinmoqda,   faqat   bitta   farq   shundaki,   bu   holda   biz
ma’lumotlarning   yiliga   ikki   baravar   ko’payishi   yoki   giperbolizatsiya,   deyarli
tabiiy   ofat   sifatida   namoyon   bo’lish   fenomeniga   duch   kelmoqdamiz,   bu
shoshilinch   ravishda   qandaydir   tarzda   hal   qilinishi   kerak.   Haqiqatan   ham
ma’lumotlar  ko’payib  bormoqda,  ammo bularning barchasi  muammoning  hech
qanday tashqi tomonga ega emasligini e'tibordan chetda qoldirmaydi, chunki bu
juda   ko’p   miqdordagi   qulab   tushgan   ma’lumotlar   emas,   balki   eski   usullarning
yangi   jildlarga   bardosh   bera   olmasligi   va   eng   muhimi,   biz   o’zlari   tomonidan
yaratilgan.   G’alati   nomutanosiblik   mavjud   -   ma’lumotlarni   ishlab   chiqarish
qobiliyati   ularni   qayta   ishlash   qobiliyatidan   kuchliroq.   Ushbu   buzilishning
sababi, ehtimol, 65 yillik kompyuter tarixida biz ma’lumotlar nima ekanligini va
ularni   qayta   ishlash   natijalari   bilan   qanday   bog’liqligini   hali
tushunmaganligimizdir.   Asrlar   davomida   matematiklar   o’zlarining   fanlari
bo’yicha   raqamlar   va   sanoq   tizimlari   kabi   asosiy   tushunchalar   bilan
shug’ullanib,   faylasuflarni   bunga   jalb   qilishgani   ajablanarli   emas   va   bizning
holatlarimizda ma’lumotlar va ma’lumotlar hech qanday ahamiyatsiz narsalarga
e'tibor   berilmaydi  va  intuitiv  in'ikosning  rahm-shafqatiga  topshiriladi.  Shunday
qilib,   65   yil   davomida   ma’lumotlar   bilan   ishlash   texnologiyalari   juda   tez
rivojlandi va kibernetika va axborot nazariyasi juda rivojlanmadi, bu 50-yillarda
saqlanib   qoldi,   lampalar   kompyuterlari   faqat   hisoblash   uchun   ishlatilgan.
Darhaqiqat, Big Data atrofidagi hozirgi shov-shuv ehtiyotkorlik bilan, shubhali
tabassumni keltirib chiqaradi.
Big dataning o’lchash va saqlash darajalari. Bulut,   katta   ma’lumotlar,   tahlillar   -   zamonaviy   ITning   uchta   omillari
nafaqat   o’zaro   bog’liq,   balki   bugungi   kunda   ular   bir-birisiz   mavjud
bo’lmaydilar.   Bulutli   saqlash   va   bulutli   hisoblashlarsiz   Big   Data   bilan   ishlash
mumkin   emas   -   bulutli   texnologiyalarning   paydo   bo’lishi   nafaqat   g’oya
shaklida,   balki   allaqachon   tugallangan   va   amalga   oshirilgan   loyihalar
ko’rinishida Big Data analitikasiga bo’lgan qiziqishning ortishi spiralining yangi
turini boshlash uchun omil bo’ldi. Agar umuman olganda sohaga ta’siri haqida
gapiradigan   bo’lsak,   bugungi   kunda   masshtab   saqlash   tizimlariga   talablarning
oshishi aniq bo’ldi. Bu haqiqatan ham zarur shart - axir qaysi analitik jarayonlar
uchun   u   yoki   bu   ma’lumotlarga   ehtiyoj   borligini   va   mavjud   xotira   qanchalik
intensiv  yuklanishini   oldindan   taxmin  qilish   qiyin.  Bundan  tashqari,  har  ikkala
vertikal   va   gorizontal   miqyoslash   talablari   bir   xil   ahamiyatga   ega   bo’ladi.
Saqlash   tizimlarining   yangi   avlodida   Fujitsu   miqyosi   va   darajali   saqlash
jihatlariga   katta   e'tibor   berdi.   Amaliyot   shuni   ko’rsatadiki,   bugungi   kunda
tahliliy   vazifalarni   bajarish   uchun   tizimlarni   katta   yuklash   talab   etiladi,   ammo
biznes   barcha   xizmatlar,   dasturlar   va   ma’lumotlarning   o’zi   doimo   mavjud
bo’lishini   talab   qiladi.   Bundan   tashqari,   bugungi   kunda   analitik   tadqiqotlar
natijalariga   qo’yiladigan   talablar   juda   yuqori   -   malakali,   to’g’ri   va   o’z   vaqtida
olib   borilgan   tahliliy   jarayonlar   umuman   biznes   natijalarini   sezilarli   darajada
yaxshilashi mumkin. Ma’lumotlar va ma’lumotlarning tadqiqot mavzusi sifatida
ahamiyatini inobatga olmasdan, ehtiyojlar o’zgargan bir paytda, kompyuterlarda
hisoblash   yuki   ma’lumotlar   bo’yicha   bajariladigan   ishlarning   boshqa   turlariga
qaraganda   ancha   kam   bo’lib   chiqqanda,   xuddi   shu   portlash   sodir   bo’ldi   va   bu
harakatlarning maqsadi  mavjud ma’lumotlar  to’plamidan yangi ma’lumotlar va
yangi bilimlarni olishda. Shuning uchun Big Data muammosini  "ma’lumotlar -
ma’lumot   -   bilim"   zanjiri   zanjirlarini   tiklashdan   tashqarida   hal   qilish   haqida
gapirish   ma’nosizdir.   Ma’lumotlar   ma’lumot   olish   uchun   qayta   ishlanadi,   bu
etarli bo’lishi kerak, shunda odam uni bilimga aylantirishi mumkin.
So’nggi   o’n   yilliklarda   xom   ma’lumotlarni   foydali   ma’lumotlar   bilan
bog’lash   bo’yicha   jiddiy   ish   olib   borilmadi   va   biz   odatdagidek   Klod Shannonning   axborot   nazariyasi   deb   ataydigan   narsa   signallarni   uzatishning
statistik   nazariyasidan   boshqa   narsa   emas   va   odamlar   tomonidan   qabul
qilinadigan   ma’lumotlarga   aloqasi   yo’q.   Muayyan   nuqtai   nazarlarni   aks
ettiruvchi   ko’plab   alohida   nashrlar   mavjud,   ammo   to’liq   zamonaviy   axborot
nazariyasi   mavjud   emas.   Natijada,   mutaxassislarning   aksariyati   ma’lumot   va
ma’lumotni   umuman   farqlamaydilar.   Ma’lumotlarning   ko’pligi   yoki   ko’pligi
haqida   hamma   shunchaki   ta’kidlaydilar,   ammo   hech   kim   aniq   nima   borligi,
paydo bo’lgan muammoni qanday hal qilish haqida etuk tasavvurga ega emas -
va buning hammasi ma’lumotlar bilan ishlashning texnik imkoniyatlari ulardan
foydalanish  qobiliyatining rivojlanish darajasidan  ancha ustun bo’lganligi bilan
bog’liq. Faqat bitta muallif, Web 2.0 Journal muharriri Dion Xinchkliff Big Data
tasnifiga ega, bu bizga texnologiyani Big Data-dan ishlashni kutish natijasi bilan
bog’lashga   imkon   beradi,   ammo   bu   qoniqarli   emas.   Xinchliff   Big   Data-ga
yondashuvlarni   uch   guruhga   ajratadi:   Tez   ma’lumotlar,   ularning   hajmi
terabaytlarda o’lchanadi; Big Analytics - Petabayt ma’lumotlari va Deep Insight
-   Exabayt,   zettabayt.   Guruhlar   bir-birlari   orasida   nafaqat   ishlaydigan
ma’lumotlar   miqdori,   balki   ularni   qayta   ishlash   uchun   echimning   sifati   bilan
ham   ajralib   turadi.   Tez   ma’lumotlarga   ishlov   berish   yangi   bilimlarni
o’zlashtirishni anglatmaydi, uning natijalari apriori bilimlari bilan o’zaro bog’liq
va ba’zi jarayonlarning qanday davom etayotganligini baholashga imkon beradi,
bu   sizga   nima   bo’layotganini   yaxshiroq   va   batafsilroq   ko’rish,   ba’zi   farazlarni
tasdiqlash   yoki   rad   etish   imkonini   beradi.   Hozirgi   kunda   mavjud   bo’lgan
texnologiyalarning faqat ozgina qismi  "Fast  Data" vazifalarini  hal qilish uchun
javob   beradi;   ba’zi   saqlash   texnologiyalari   (Greenplum,   Netezza,   Oracle
Exadata,   Teradata,   Verica   va   kdb   kabi   DBMS   mahsulotlari).   Ushbu
texnologiyalarning   tezligi   ma’lumotlar   hajmining   o’sishi   bilan
sinxronlashtirilishi   kerak.   Big   Analytics   tomonidan   hal   qilingan   vazifalar
sezilarli darajada farq qiladi va nafaqat miqdoriy, balki sifat jihatidan ham mos
keladi va tegishli texnologiyalar yangi bilimlarni olishga yordam berishi kerak -
ular   ma’lumotlarda   qayd   etilgan   ma’lumotlarni   yangi   bilimlarga   aylantirishga xizmat   qiladi.  Biroq,  ushbu  o’rta  darajada   echimlar  yoki  analitik  tizimning  har
qanday   avtonom   harakatlarini   tanlashda   sun'iy   intellektning   mavjudligi   taxmin
qilinmaydi   -   bu   "o’qituvchi   bilan   o’rganish"   tamoyili   asosida   qurilgan.
Boshqacha   qilib   aytganda,   uning   barcha   analitik   salohiyati   o’quv   jarayonida
unga   sarflanadi.   Eng   aniq   misol   -   Jeopardy   o’ynaydigan   mashina!.   Bunday
analitiklarning   klassik   vakillari   MATLAB,   SAS,   Revolution   R,   Apache   Hive,
SciPy Apache va Mahout.
Eng yuqori  darajadagi Deep Insight  nazoratsiz o’rganishni  va zamonaviy tahlil
usullaridan   hamda   turli   xil   vizualizatsiya   usullaridan   foydalanishni   o’z   ichiga
oladi.   Ushbu   darajada,   oldindan   noma’lum   bo’lgan   bilimlarni   va   naqshlarni
kashf etish mumkin.
Katta ma’lumotlar tahlili
Vaqt   o’tishi   bilan   kompyuter   dasturlari   har   xilligi   bilan   real   dunyoga
yaqinlashmoqda,   shu   sababli   kirish   ma’lumotlari   hajmi   ortib   bormoqda   va   shu
sababli   ularning   analitiklariga   ehtiyoj   sezilmoqda   va   real   vaqt   rejimiga   iloji
boricha   yaqinroq   rejimda.   Ushbu   ikki   tendentsiyaning   yaqinlashishi
yo’nalishning   paydo   bo’lishiga   olib   keldi   big   Data   analitikasi   (Big   Data
Analytics).   Watson   kompyuterining   g’alabasi   Big   Data   Analytics
imkoniyatlarining yorqin namoyishi bo’ldi - biz kompyuter birinchi marta hisob-
kitoblarni   tezlashtirish   vositasi   sifatida   emas,   balki   ma’lumot   tanlash   va   qaror
qabul   qilishda   inson   imkoniyatlarini   kengaytiruvchi   yordamchi   sifatida
foydalaniladigan   qiziqarli  davrga  kirmoqdamiz.  Vannevar   Bush,   Jozef  Liklider
va Dag Engelbartning utopik tuyulgan g’oyalari ro’yobga chiqa boshladi, ammo
bu   bir   necha   o’n   yillar   oldin   sodir   bo’lganidek   amalga   oshmayapti   -
kompyuterning   kuchi   mantiqiy   imkoniyatlari   jihatidan   odamlarga   nisbatan
ustunlikda emas, olimlar ayniqsa umidvor bo’lishgan, ammo juda katta qobiliyat
juda   katta   miqdordagi   ma’lumotlarni   qayta   ishlash.   Xuddi   shunga   o’xshash
narsa   Garri   Kasparovning   Deep   Blue   bilan   to’qnashuvida   sodir   bo’ldi,
kompyuter mahoratli o’yinchi emas edi, lekin u tezroq ko’proq imkoniyatlardan
foydalanishi   mumkin   edi.   Big   Data   Analytics-ni   boshqa   dasturlardan   ajratib turadigan yuqori tezlik bilan birlashtirilgan ulkan hajmlar to’g’ri kompyuterlarni
talab   qiladi   va   bugungi   kunda   deyarli   barcha   yirik   ishlab   chiqaruvchilar
ixtisoslashtirilgan   dasturiy   ta’minot   va   apparat   tizimlarini   taklif   qilishadi:   SAP
HANA,   Oracle   Big   Data   Appliance,   Oracle   Exadata   Database   Machine   va
Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance
Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance,
EMC   Greenplum,   Vertica   Analytics   Platform   powered   by   HP   Converged
Infrastructure.   Bundan   tashqari,   ko’plab   kichik   va   boshlang’ich   kompaniyalar
o’yinga   kirishdi:   Cloudera,   DataStax,   Northscale,   Splunk,   Palantir,   Factual,
Kognitio, Datameer, TellApart, Paraccel, Hortonworks.
Big datada qayta aloqa va komponentlar. Big datada asosiy etkazib 
beruvchilar va yangi imkoniyatlar
Sifatida   yangi   Big   Data   Analytics   dasturlari   nafaqat   yangi
texnologiyalarni,   balki   tizimning   turli   darajadagi   fikrlash   darajasini   ham   talab
qiladi,   ammo   bu   bilan   qiyinchiliklar   mavjud   -   Big   Data   Analytics   echimlarini
ishlab   chiquvchilar   ko’pincha   50-yillardan   beri   ma’lum   bo’lgan   haqiqatlarni
qayta   kashf   etadilar.   Natijada,   tahlil   ko’pincha   odamga   natijalar   berish   uchun
dastlabki   ma’lumotlarni,   vizualizatsiya   va   boshqa   texnologiyalarni   tayyorlash
vositalaridan   ajratib   olinadi.   Ma’lumotlarni   saqlash   ombori   instituti   singari
nufuzli   tashkilot   ham   analitikni   hamma   narsadan   ajratib   ko’rib   chiqadi:   uning
ma’lumotlariga   ko’ra,   korxonalarning   38   foizi   menejment   amaliyotida
Advanced Analytics-dan foydalanish imkoniyatlarini o’rganib chiqishmoqda va
yana   50   foizi   kelgusi   uch   yil   ichida   buni   amalga   oshirish   niyatida.   Ushbu
qiziqish   biznesdan   ko’plab   dalillarni   keltirib   chiqarish   bilan   oqlanadi,   garchi
buni   osonroq   deyish   mumkin   bo’lsa   -   yangi   sharoitda   korxonalar   yanada
mukammal boshqaruv tizimiga muhtoj va uni yaratish qayta aloqa o’rnatishdan,
ya’ni   qaror   qabul   qilishga   yordam   beradigan   tizimdan   boshlanishi   kerak   va
kelajakda,   ehtimol   haqiqiy   qaror   qabul   qilishni   avtomatlashtirish   mumkin
bo’ladi.   Ajablanarlisi   shundaki,   aytilganlarning   barchasi   60-yillardan   beri
ma’lum   bo’lgan   texnologik   ob'ektlarni   avtomatlashtirilgan   boshqarish tizimlarini   yaratish   metodologiyasiga   mos   keladi.   Yangi   tahlil   vositalari   talab
qilinadi,   chunki   avvalgidan   ko’ra   ko’proq   ma’lumotlar   emas,   balki   ularning
tashqi   va   ichki   manbalari   ko’proq,   endi   ular   ancha   murakkab   va   xilma-xildir
(tuzilgan,   tuzilmasiz   va   kvaziturumli),   indekslashning   turli   sxemalaridan
foydalaniladi (relyatsion, ko’p o’lchovli, noSQL). Ma’lumotlar bilan eski usullar
bilan   kurashish   endi   mumkin   emas   -   Big   Data   Analytics   katta   va   murakkab
massivlarga   tarqaladi,   shuning   uchun   ular   Discovery   Analytics   (kashfiyotlar
analitikasi)   va   Explorator   Analytics   (tushuntirishli   analitik)   atamalaridan   ham
foydalanadilar.   Siz   nima   deb   atasangiz   ham,   mohiyati   bir   xil   -   teskari   aloqa,
qaror   qabul   qiluvchilarni   har   xil   jarayonlar   haqida   ma’lumot   bilan   maqbul
shaklda ta’minlaydi.
4. Katta ma’lumotlar va ma’lumotlarni qayta ishlash. 
Katta ma’lumotlar mashinasi.
Big   Data   deb   nomlangan   narsadan   nimani   kutish   kerakligini   tushunish
uchun   zamonaviy   tor   "IT"   dunyoqarashi   chegaralaridan   chiqib,   sodir
bo’layotgan   voqealarni   kengroq   tarixiy   va   texnologik   retrospektivda   ko’rishga
harakat   qilish   kerak,   masalan,   uzoqroq   tarixga   ega   texnologiyalar   bilan
o’xshashliklarni   topishga   harakat   qiling.   Axir   biz   o’z   faoliyatimiz   mavzusini
texnologiya deb atab, unga texnologiya sifatida qarashimiz kerak. Sifat jihatidan
yangi   mahsulotlarni   olish   uchun   deyarli   ma’lum   bo’lgan   barcha   moddiy
texnologiyalar   o’zlariga   yoki   boshqa   tarkibiy   qismlarga   xos   bo’lgan   xom
ashyoni qayta ishlash, qayta ishlash yoki yig’ish bilan qisqartiriladi - texnologik
jarayonning kirish qismida ham, chiqishda ham bir narsa bor. Nomoddiy axborot
texnologiyalarining   o’ziga   xos   xususiyati   shundaki,   bu   erda   texnologik   zanjir
unchalik   aniq   emas,   xomashyo   nima,   natija   nima,   kirishda   nima   va   chiqishda
nima   olinishi   aniq   emas.   Aytishning   eng   oson   usuli   shundaki,   kirish   xom
ma’lumotlar, natijada foydali ma’lumotlar. Umuman olganda, bu deyarli to’g’ri,
ammo   ikkalasi   o’rtasidagi   munosabatlar   juda   murakkab;   agar   biz   sog’lom
pragmatizm   darajasida   qolsak,   o’zimizni   quyidagi   fikrlar   bilan   cheklashimiz mumkin. Ma’lumotlar - bu turli shakllarda ifodalangan xom faktlar, ular o’zlari
tarkibiga   kiritilguncha,   to’g’ri   tartibga   solinmaguncha   va   ishlov   berish   paytida
buyurtma   berilgunga   qadar   foydali   ma’noga   ega   emaslar.   Axborot   inson
tomonidan qayta ishlangan ma’lumotlarni tahlil  qilish natijasida paydo bo’ladi,
bu   tahlil   ma’lumotlarga   ma’no   beradi   va   ularni   iste'molchi   fazilatlari   bilan
ta’minlaydi. Ma’lumotlar - bu ma’lumotga aylantirilishi kerak bo’lgan tartibsiz
faktlar.   Yaqin   vaqtgacha,   haqida   g’oyalar   ma’lumotlarni   qayta
ishlash(ma’lumotlarni   qayta   ishlash)   nisbatan   oz   miqdordagi   ma’lumotlarga
asoslangan   algoritmik,   mantiqiy   yoki   statistik   operatsiyalarning   organik
doirasiga   qadar   qaynadi.   Biroq,   kompyuter   texnologiyalari   real   dunyoga
yaqinlashganda,   real   dunyodan   ma’lumotlarni   real   dunyo   haqidagi
ma’lumotlarga   aylantirish   zarurati   ortadi,   qayta   ishlangan   ma’lumotlar
kattalashadi   va   ishlash   tezligiga   talablar   oshadi.   Mantiqan,   axborot
texnologiyalari   moddiy   texnologiyalardan,   kirish   xom   ma’lumotlaridan,
chiqishda   tuzilgan   holda,   inson   idrok   etishi   uchun   qulayroq   shaklda,   ulardan
ma’lumot   olish   va   aqlning   kuchi   bilan   ma’lumotni   foydali   bilimga   aylantirish
shaklida ancha farq qilmaydi. 
Kompyuterlarni hisoblash, birinchi ENIAC dasturini eslash - quroldan o’q
otish   ma’lumotlarini   qayta   ishlash   va   ularni   artilleriya   jadvallariga   aylantirish
qobiliyatlari   uchun   kompyuterlar   deb   atashdi.   Ya’ni,   kompyuter   xom
ma’lumotlarni   qayta   ishladi,   foydali   ma’lumotlarni   chiqarib   tashladi   va
foydalanishga   yaroqli   shaklda   yozdi.   Bizning   oldimizda   oddiy   texnologik
jarayondan   boshqa   narsa   yo’q.   Umuman   aytganda,   Axborot   texnologiyalari
singari   atamalar   o’rniga   Ma’lumotlarni   qayta   ishlashni   tez-tez   ishlatish   kerak.
Axborot   texnologiyalari   umumiy   qonunlarga   bo’ysunishi   kerak,   unga   muvofiq
boshqa   barcha   texnologiyalar   rivojlanadi   va   bu,   avvalambor,   qayta   ishlangan
xom ashyo miqdorining ko’payishi va qayta ishlash sifatining yaxshilanishi. Bu
hamma narsa sodir bo’ladi, nima aniq xom ashyo bo’lib xizmat qiladi va buning
natijasi nima bo’lishidan qat'i nazar, metallurgiya, neft kimyosi, biotexnologiya,
yarimo’tkazgichli   texnologiyalar   va   boshqalar.   Umumiy   narsa   shundaki, texnologik yo’nalishlarning hech biri bir maromda rivojlanmaydi, erta yoki jadal
rivojlanish   va   sakrash   lahzalari   kech   paydo   bo’ladi.   Tashqi   tomondan   zarurat
tug’ilganda va texnologiyalar ichida uni qondirish imkoniyati mavjud bo’lganda
tez   o’tishlar   paydo   bo’lishi   mumkin.   Kompyuterlarni   vakuumli   naychalarga
qurish   mumkin   emas   edi   -   va   yarimo’tkazgichlar   paydo   bo’ldi,   avtoulovlarga
juda   ko’p   benzin   kerak   -   yorilish   jarayoni   aniqlandi   va   bunday   misollar   juda
ko’p.   Shunday   qilib,   Big   Data   nomi   bilan   jiddiy   o’zgarishlarga   olib   kelishi
mumkin   bo’lgan   kompyuter   texnologiyalarida   paydo   bo’layotgan   sifatli   o’tish
mavjud,   bu   yangi   sanoat   inqilobi   deb   bejiz   aytilmagan.   Big   Data   -   bu   keyingi
oqibatlarga olib keladigan yana bir texnik inqilob.
Ma’lumotlarni   qayta   ishlashda   birinchi   tajriba   miloddan   avvalgi   4-ming
yillikda,   piktografik  yozuv  paydo  bo’lgan  paytga  to’g’ri   keladi.  O’sha  paytdan
boshlab ma’lumotlar bilan ishlashning bir necha asosiy yo’nalishlari rivojlandi,
eng kuchlisi matn bo’lib qoldi va birinchi gil lavhalardan SSDgacha, miloddan
avvalgi   I   ming   yillikning   o’rtalaridagi   kutubxonalardan   zamonaviy
kutubxonalarga  qadar   bo’lgan,   keyin  turli   xil   matematik  raqamli   usullar   paydo
bo’lgan,   papiruslardan   Pifagor   teoremasi   va   zamonaviy   kompyuterlarda   hisob-
kitoblarni   soddalashtirish   uchun   jadval   texnikasi.   Jamiyat   rivojlanib   borishi
bilan   jadvallarning   har   xil   turlari   to’plana   boshladi,   ular   bilan   ishlashni
avtomatlashtirish   tabulyatorlardan   boshlandi   va   19-20   asrlarda   ma’lumotlarni
yaratish   va   to’plashning   ko’plab   yangi   usullari   taklif   qilindi.   Katta   hajmdagi
ma’lumotlar   bilan   ishlash   zarurligi   uzoq   vaqtdan   beri   tushunib   etilardi,   ammo
mablag   'yo’q   edi,   shuning   uchun   Pol   Otletning   "Librarium"   singari   utopik
loyihalari yoki 60 ming kishi-kalkulyatorlarning mehnatidan foydalangan holda
ob-havoni   bashorat   qilishning   ajoyib   tizimi.   Bugungi   kunda   kompyuter
ma’lumotlar bilan ishlashning universal vositasiga aylandi, garchi u faqat hisob-
kitoblarni   avtomatlashtirish   uchun   o’ylangan   bo’lsa   ham.   Ma’lumotlarni   qayta
ishlash   uchun   kompyuterdan   foydalanish   g’oyasi   IBM   da   raqamli
dasturlashtiriladigan   kompyuterlar   ixtiro   qilinganidan   o’n   yil   o’tgach   paydo
bo’lgan   va   undan   oldin   ma’lumotlarni   qayta   ishlash   uchun   Herman   Xollerit ixtiro qilgan Unit Record shtamplash qurilmalari ishlatilgan. Ular Unit Records
deb   nomlangan,   ya’ni   bitta   yozuv   -   har   bir   kartada   biron   bir   ob'ektga   tegishli
barcha   yozuvlar   mavjud   edi.   Birinchi   kompyuterlar   Big   Data   bilan   ishlashni
bilmas   edi   -   faqat   disklar   va   lentalarda   drayvlar   paydo   bo’lishi   bilan,   ular   60-
yillarning   oxirigacha   mavjud   bo’lgan   kompyuterlarni   hisoblash   stantsiyalari
bilan   raqobatlasha   olishdi.   Aytgancha,   relyatsion   ma’lumotlar   bazalarida   Unit
Record merosi aniq kuzatilgan.
Xom   ma’lumotlar   hajmining   o’sishi,   ularni   real   vaqtda   tahlil   qilish
zaruriyati   bilan   birgalikda   Big   Data   Analytics   deb   nomlangan   muammoni
samarali   echadigan   vositalarni   yaratish   va   amalga   oshirishni   talab   qiladi.
Information   Builders   texnologiyalari   har   xil   manbalardan   olingan   ma’lumotlar
bilan   real   vaqtda,   turli   xil   adapterlar   va   Enterprise   Service   Bus   arxitekturasi
tufayli ishlashga imkon beradi. WebFOCUS vositasi  tezda ma’lumotlarni tahlil
qilishga   imkon   beradi   va   natijalarni   foydalanuvchi   uchun   eng   yaxshi   tarzda
tasavvur   qilish   imkonini   beradi.   RSTAT   texnologiyasiga   asoslanib,   Axborot
quruvchilar  taxminiy tahliliy mahsulotni  yaratdilar, bu nima bo’lishini  va nima
zarurligini taxminiy bashorat qilishga imkon beradi. Rossiyaga biznes-razvedka
texnologiyalari   ham   kirib   keldi,   ammo   Rossiyaning   bir   nechta   kompaniyalari
prognozli tahlildan foydalanadilar, bu esa mahalliy korxonalarda ishbilarmonlik
razvedkasidan   foydalanish   madaniyati   pastligi   va   biznes   foydalanuvchisi
tomonidan mavjud tahlil usullarini qabul qilishning murakkabligi bilan bog’liq.
Shuni   inobatga   olgan   holda,   bugungi   kunda   Information   Builders   kompaniyasi
Gartner  tahlilchilari  foydalanishni  eng oson deb baholagan mahsulotlarni taklif
qilishmoqda.
Taxminan   1970   yildan   keyin   kompyuterlarning   hisoblash   qurilmalaridan
ma’lumotlarni   qayta   ishlashning   universal   mashinalariga   bosqichma-bosqich
o’zgarishi   bilan   yangi   atamalar   paydo   bo’ldi:   ma’lumotlar   mahsulot   sifatida;
ma’lumotlar   bilan   ishlash   vositalari   (ma’lumotlar   vositasi);   tegishli   tashkilot
tomonidan   amalga   oshiriladigan   dasturlar   (ma’lumotlar   dasturi);   ma’lumotlar
fani; ma’lumotlar olimlari va hatto ma’lumotlar tarkibidagi ma’lumotlarni keng jamoatchilikka   etkazadigan   jurnalistlar   (ma’lumotlar   jurnalisti).   Ma’lumotlarni
qo’llash   sinfining   dasturlari   bugungi   kunda   keng   tarqalgan   bo’lib,   ular   nafaqat
ma’lumotlar   ustida   operatsiyalarni   amalga   oshiribgina   qolmay,   balki   ulardan
qo’shimcha   qiymatlarni   chiqarib,   ma’lumotlar   shaklida   mahsulotlarni
yaratadilar.   Ushbu   turdagi   birinchi   dasturlar   orasida   CDDB   audio   disk
ma’lumotlar   bazasi   mavjud   bo’lib,   u   an'anaviy   ma’lumotlar   bazalaridan   farqli
o’laroq, disklardan ma’lumotlarni olish va ularni metadata (disk nomlari, treklar
va   boshqalar)   bilan   birlashtirish   orqali   yaratilgan.   Ushbu   baza   Apple   iTunes
xizmatining markazida joylashgan. Ma’lumotlar ilovasining rolini  anglash ham
Google-ning   tijorat   muvaffaqiyatining   omillaridan   biri   bo’lib   qoldi   -
ma’lumotlarga   egalik   huquqi   ushbu   kompaniyaga   kerakli   sahifadan   tashqarida
joylashgan ma’lumotlardan foydalangan holda ("PageRank" algoritmi) juda ko’p
"bilish" imkonini beradi. Google to’g’ri imlo muammosini juda sodda tarzda hal
qildi - buning uchun xatolar va tuzatishlar bazasi yaratiladi va foydalanuvchiga
qabul qilishi  yoki rad etishi mumkin bo’lgan tuzatishlar taklif etiladi. Shu kabi
yondashuv   nutqni   kiritish   paytida   tanib   olish   uchun   ishlatiladi   -   bu   to’plangan
audio   ma’lumotlarga   asoslanadi.   2009   yilda,   cho’chqa   grippi   paytida,   qidiruv
tizimlariga   berilgan   so’rovlar   tahlili   epidemiyaning   tarqalishini   kuzatishga
imkon   berdi.   Ko’pgina   kompaniyalar   (Facebook,   LinkedIn,   Amazon   va
boshqalar) nafaqat xizmatlar ko’rsatish, balki to’plangan ma’lumotlardan boshqa
maqsadlarda   ham   foydalanib,   Google   yo’lidan   bordilar.   Ushbu   turdagi
ma’lumotlarni   qayta   ishlash   qobiliyati   aholi   haqidagi   yana   bir   fan   -   fuqarolar
haqidagi   fanning   paydo   bo’lishiga   turtki   berdi.   Aholi   ma’lumotlarini   har
tomonlama   tahlil   qilish   natijasida   olingan   natijalar   odamlarni   ancha   chuqurroq
bilish   va   ma’muriy   va   biznes   qarorlarini   yanada   oqilona   qabul   qilish   imkonini
beradi. Ma’lumotlar to’plami va ular bilan ishlash uchun vositalar endi infoware
deb nomlanadi.
Ma’lumotlar omborlari, Internet-do’konlar, billing tizimlari yoki Big Data
loyihalari deb tasniflanadigan har qanday boshqa platformalar odatda o’ziga xos
xususiyatlarga   ega   va   uning   dizaynida   asosiy   narsa   sanoat   ma’lumotlari   bilan integratsiya   qilish,   ma’lumotlarni   to’plash   jarayonlarini   ta’minlash,   ularni
tashkil etish va tahlil qilish.
Oracle, to’liq dasturiy ta’minot to’plami va 18 Sun X4270 M2 serverlari
bilan   optimallashtirilgan   apparatlarning   Big   Data   zanjirini   qo’llab-quvvatlash
uchun   o’rnatilgan   Oracle   Big   Data   Appliance   echimini   taqdim   etdi.   O’zaro
bog’liqlik 40 Gbit / s tezlikdagi Infiniband va 10 Gigabitli chekilgan tarmoqqa
asoslangan.   Oracle   Big   Data   Appliance   Oracle   ochiq   manbali   va   xususiy
dasturiy ta’minotning kombinatsiyasini o’z ichiga oladi. Key-value yoki NoSQL
DBMS   saqlash   tizimlari   bugungi   kunda   Big   Data   dunyosidagi   asosiy   tizim
sifatida   tan   olingan   va   ma’lumotlarni   tezkor   to’plash   va   ularga   kirish   uchun
optimallashtirilgan.   Oracle   Big   Data   Appliance   uchun   bunday   DBMS   sifatida,
Oracle   Berkley   DB   bazasida   ma’lumotlar   bazasi   topologiyasi   to’g’risidagi
ma’lumotlarni   saqlaydigan,   ma’lumotlarni   tarqatadigan   va   eng   kam   vaqtni
qaerga   joylashtirish   mumkinligini   tushunadigan   DBMS   ishlatiladi.   Orado
Loader   for   Hadoop   yechimi   MapReduce   texnologiyasidan   foydalanib   Oracle
11g-da   yuklash   va   tahlil   qilish   uchun   optimallashtirilgan   ma’lumotlar
to’plamlarini   yaratadi.   Ma’lumotlar   tizim   manbalaridan   foydalanishni
minimallashtiradigan   Oracle   DBMS-ning   "native"   formatida   hosil   bo’ladi.
Formatlangan   ma’lumotlar   klasterda   qayta   ishlanadi,   so’ngra   ma’lumotlarga
an'anaviy  SQL   buyruqlari   yoki   biznes-razvedka  vositalari   yordamida  an'anaviy
RDBMS   foydalanuvchilari   ish   stantsiyalaridan   kirish   mumkin.   Hadoop
ma’lumotlari   va   Oracle   DBMS   integratsiyasi   Oracle   Data   Integrator   echimi
yordamida amalga oshiriladi. Oracle Big Data Appliance Apache Hadoop-ning,
shu jumladan HDFS va boshqa  tarkibiy qismlarning ochiq manbali tarqatilishi,
xom   ma’lumotlarni   tahlil   qilish   uchun   R   statistik   to’plamining   ochiq   manbali
tarqatilishi   va   Oracle   Enterprise   Linux   5.6   bilan   ta’minlanadi.   Hadoop-dan
allaqachon   foydalanadigan   korxonalar   HDFS-da   joylashtirilgan   ma’lumotlarni
tashqi   jadvallarning   funktsional   imkoniyatlaridan   foydalangan   holda   Oracle
DBMS-ga   birlashtirishi   mumkin   va   ma’lumotlar   bazasini   zudlik   bilan
ma’lumotlar   bazasiga   yuklashning   hojati   yo’q   -   tashqi   ma’lumotlar   SQL buyruqlari   yordamida   Oracle   ma’lumotlar   bazasining   ichki   ma’lumotlari   bilan
birgalikda ishlatilishi  mumkin. Infiniband orqali Oracle Big Data Appliance va
Oracle Exadata o’rtasidagi  ulanish ommaviy qayta ishlash yoki SQL so’rovlari
uchun   yuqori   tezlikda   ma’lumotlarni   uzatishni   ta’minlaydi.   Oracle   Exadata
ma’lumotlar omborida va tranzaktsiyalarni qayta ishlashning onlayn dasturlarida
kerakli ishlashni ta’minlaydi. Yangi Oracle Exalytics mahsuloti biznes-razvedka
vazifalarini   hal   qilishda   ishlatilishi   mumkin   va   Oracle   Business   Intelligence
Enterprise   Edition-ni   xotirada   qayta   ishlash   bilan   ishlatish   uchun
optimallashtirilgan.
"Data   Science   nima?"   O’Reilly   Radar   Report   seriyasida   nashr   etilgan
Mayk   Lukidis   shunday   deb   yozgan   edi:   "Kelajak   ma’lumotni   mahsulotga
aylantira   oladigan   kompaniyalar   va   odamlarga   tegishli".   Ushbu   bayonot
Rottsildning taniqli "Axborotga egalik qiluvchi - u dunyoga egalik qiladi" degan
so’zlarini   eslaydi,   u   Napoleonning   Vaterloodagi   mag’lubiyati   to’g’risida
boshqalardan   oldinroq   bilib,   qimmatli   qog’ozlar   qallobligini   aylantirganda
aytgan.   Bugungi   kunda   ushbu   aforizmni   qayta   ifodalashga   arziydi:   "Dunyo
ularni  tahlil qilish uchun ma’lumotlar va texnologiyalarga egalik qiladi". Biroz
keyinroq yashagan  Karl  Marks  sanoat  inqilobi  odamlarni  ikki  guruhga  - ishlab
chiqarish   vositalariga   egalik   qiluvchi   va   ular   uchun   ishlaydiganlarga
ajratganligini   ko’rsatdi.   Umuman   olganda,   hozirda   shunga   o’xshash   narsa   yuz
bermoqda, ammo endi mulkchilik va funktsiyalarni taqsimlash sub'ekti  moddiy
qadriyatlarni ishlab chiqarish vositasi emas, balki ma’lumotlar va ma’lumotlarni
ishlab   chiqarish   vositasidir.   Va   bu   erda   muammolar   paydo   bo’ladi   -
ma’lumotlarga ega bo’lish moddiy boyliklarga ega bo’lishdan ko’ra ancha qiyin
ekanligi   aniqlanadi,   birinchisi   oddiygina   takrorlanadi   va   ularni   o’g’irlash
ehtimoli moddiy boyliklarga qaraganda ancha yuqori. Bundan tashqari, huquqiy
razvedka   texnikasi   mavjud   -   etarli   hajm   va   tegishli   tahlil   usullari   bilan   siz
yashiringan narsani "hisoblashingiz" mumkin. Shuning uchun hozirda Big Data
Analytics-ga   (yon   panelga   qarang)   va   undan   qanday   himoyalanishga   katta
ahamiyat berilmoqda.

“ Big Data va ma`lumotlar tahlili faniga kirish, fanning maqsadi, asosiy tushunchalar tariflari. Data Scientist : ma’lumotlar tahlilchisi, ma’lumotlar muhandisi, mashinali o`qitish muhandisi ” mavzusida Reja: 1. Big Data(katta ma'lumotlar)ning 8 eng asosiy atamalari 2. Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari. 3. Katta ma’lumotlar va biznes. Katta ma’lumotlarni tahlil qilish texnikasi. 4. Katta ma’lumotlar va ma’lumotlarni qayta ishlash. Katta ma’lumotlar mashinasi.

1. Big Data (katta ma'lumotlar)ning 8 eng asosiy atamalari Big data ( katta ma'lumotlar ) - juda katta hajmdagi bir jinsli bo'lmagan va tez tushadigan raqamli ma'lumotlar bo'lib, ularni odatiy usullar bilan qayta ishlab bo'lmaydi. Ba'zi hollarda, katta ma'lumotlar tushunchasi bilan birga shu ma'lumotlarni qayta ishlash ham tushuniladi. Asosan, analiz obyekti katta ma'lumotlar deb ataladi. Big data atamasi 2008-yilda dunyoga kelgan. Nature jurnali muharriri Klifford Linch dunyo ma'lumotlar hajmining juda tez sur'atda o'sishiga bag'ishlangan maxsus sonida big data atamasini qo'llagan. Biroq, katta ma'lumotlar avval ham bo'lgan. Mutaxassislarning fikricha, kuniga 100 gb dan ko'p ma'lumot tushadigan oqimlarga big data deb aytilar ekan. Katta ma'lumotlarni analiz qilish, inson his etish imkoniyatidan tashqarida bo'lgan qonuniylatlarni aniqlashda yordam beradi. Bu esa kundalik hayotimizdagi barcha sohalar, hukumatni boshqarish, tibbiyot, telekommunikatsiya, moliya, transport, ishlab chiqarish va boshqa sohalarni yanada yaxshilash, ularning imkoniyatlarini oshirish, muommolarga muqobil yechimlar izlab topish imkonini yaratadi. Data lake ( ma'lumotlar ko'li ) - qayta ishlanmagan katta ma'lumotlar ombori. "Ko'l" har xil manbalardan kelgan, har xil formatda bo'lgan ma'lumotlarni saqlaydi. Bu esa odatiy relatsion ma'lumotlar omborida ma'lumotlarni aniq struktura asosida saqlashdan ko'ra arzonroqqa tushadi. Ma'lumotlar ko'li, ma'lumotlarni boshlang'ich holatida analiz qilish imkonini beradi. Bundan tashqari, "ko'l"lardan bir vaqtni o'zida bir nechta ishchilar foydalanishlari mumkin. Data science ( ma'lumotlar haqidagi fan ) - analiz muommolarini , ma'lumotlarni qayta ishlash va ularni raqamli ko'rinishda taqdim etishni o'rganadigan fan.

Bu atama dunyoga kelgan vaqt 1974-yil hisoblanadi. O'sha yili Daniyalik informatik, Peter Naur "A Basic Principle of Data Science" nomli kitobini chop ettirgan. 2010-yillar boshida katta ma'lumotlarni tarqalishi natijasida bu yo'nalish juda foydali va kelajagi bor biznesga aylandi. Ushanda katta ma'lumotlar bilan ishlaydigan mutaxassislarga talab juda oshib ketdi. Data science tushunchasiga ma'lumotlar omborini loyihalash va raqamlangan ma'lumotlarni qayta ishlashning barcha metodlari kiradi. Ko'plab mutaxassislar fikricha, aynan data science big dataning biznes nuqtai nazaridan hozirgi zamonoviy o'rindoshi hisoblanadi. Data mining ( ma'lumotlarni topish ) - biron qonuniyatni topish maqsadida ma'lumotlarni intellektual analiz qilishga aytiladi. Isroillik matematik Grigoriy Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan. Texnologiyalar, avvalari noma'lum va foydali bo'lgan qayta ishlanmagan(hom) ma'lumotlarni topish jarayoniga data mining(ma'lumotlarni topish) deyiladi. Data mining metodlari ma'lumotlar ombori, statistika va sun'iy intellekt tutashgan nuqtada joylashadi. Machine learning ( mashinali o'qitish ) - o'zi o'rganadigan dasturlar yaratish amaliyoti va nazariyasi, sun'iy intellektning katta qismi. Dasturchilar o'z algoritmlariga xususiy hollarda umumiy qonuniyatlarni aniqlashni o'rgatishadi. Natijada, kompyuter, inson avvaldan ko'rsatib o'tgan buyruqlaridan emas, balki, o'z shaxsiy malakasidan kelib chiqib qaror qabul qiladi. Bunday o'qitishning juda ko'p metodlari data mining'ga oid bo'lishi mumkin. Mashinali o'qitishga birinchi tarifni 1959-yilda amerikalik informatik Artur Samuel bergan. U sun'iy intellekt elementlariga ega bo'lgan shashka o'yini, dunyoda birinchi o'zi o'rganadigan dasturni yaratgan. Deep learning ( chuqur o'qitish ) - yanada murakkab va yanada mustaqil bo'lgan o'zi o'qidigan dasturlar yaratadigan mashinali o'qitish turi. Oddiy mashinali o'qitish hollarida boshqariladigan malaka yordamida kompyuter

bilimlarni aniqlab oladi: dasturchi algoritmga ma'lum misollarni ko'rsatadi, xatolarni qo'lda to'g'rilaydi. Deep learningda esa, tizim o'zi o'z funksiyalarini loyihalaydi, ko'p darajali hisob-kitoblar amalga oshiradi va atrof-muhit haqida xulosalar qiladi. Odatda chuqur o'qitishni neyron tarmoqlarga tadbiq qilishadi. Bu texnologiya asosan rasmlarni qayta ishlashda, nutqni tanishda, neyromashina tarjima, farmatsevtikadagi hisoblashlarda va boshqa zamonaviy texnologiyalarda qo'llaniladi. Asosan Google, facebook va Baidu tomonidan loyihalarga tadbir qilinadi. Sun'iy neyron tarmog'i - oddiy protsessorlar(sun'iy neyronlar) birlashtirilgan tizimi bo'lib, insonning nerv tizimini imitatsiya qiladi. Bunday struktura evaziga, neyron tarmoqlari dasturlanmaydi, ular o'qitishadi. Huddi haqiqiy neyronlar kabi, protsessorlar signallarni oddiygina qabul qilishadi va boshqa protsessorlarga o'zatishadi. Shu bilan birga, boshqa butun tizim algoritmlar bajara olmaydigan murakkab topshiriqlarni bajaradi. 1943-yilda amerikalik olimlar Uorren Makkalok va Uolter Pittslar sun'iy neyron tarmog'i tushunchasini fanga kiritishgan. Business intelligence ( biznes-analitika ) - aniq strukturaga ega bo'lmagan juda katta hajmdagi ma'lumotlarni qayta ishlash natijasida muqobil biznes yechimlar izlashga aytiladi. Effektiv biznes-analitika ichki va tashqi ma'lumotlarni analiz qiladi - ham bozor axborotlarini, ham mijoz-kompaniyaning hisobotlarini hisobga oladi. Bu biznesni butunlay tushunishga yordam beradi, shu bilan birga, strategik va operatsion qarorlar qabul qilishga zamin yaratadi(mahsulot narxini aniqlashda, kompaniya rivojlanishining asosiy yo'nalishlarini belgilab olishda). Bu atama 1958-yilda IBM taqdiqotchisi Xans Piter Lun maqolasida birinchi bo'lib ko'rsatilgan. 1996-yilda axborot texnologiyalari bozorini o'rganishga asoslangan Gartner analitik agentligi business intelligence tarkibiga data mining metodikasini ham qo'shgan.

2. Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari. 2018 yil o'rtalariga kelib Vikipediya Big Data atamasiga quyidagi ta'rifni berdi: "Katta ma'lumotlar - bu 2000-yillarning oxirida paydo bo'lgan va ma'lumotlar bazasini boshqarishning an'anaviy tizimlari va Business Intelligence klassining echimlariga alternativa bo'lgan, gorizontal miqyosda kengaytiriladigan dasturiy vositalar yordamida samarali ishlov beriladigan juda katta hajmli va sezilarli tuzilmalarning ma'lumotlari". Ko'rib turganingizdek, ushbu ta'rifda "ulkan", "ahamiyatli", "samarali" va "alternativ" kabi noaniq atamalar mavjud. Hatto ismning o'zi ham juda subyektivdir. IBS kompaniyasi tahlilchilari "ma'lumotlarning butun dunyo hajmini" quyidagi ko'rsatkichlar bo'yicha baholadilar:  2003 - 5 ekzabayt ma'lumotlar (1 EB = 1 milliard gigabayt)  2008 yil - 0,18 zettabayt (1 zb = 1024 ekzabayt)  2015 yil - 6,5 zettabaytdan yuqori  2020 - 40-44 zettabayt (prognoz)  2025 yil - bu hajm 10 baravar ko'payadi. Hisobotda shuningdek, ma'lumotlarning aksariyati oddiy iste'molchilar tomonidan emas, balki korxonalar tomonidan yaratilmasligi ta'kidlanadi (Things Industrial Internet-ni eslang). Bundan tashqari, siz jurnalistlar va marketologlarning aniq fikriga mos keladigan sodda ta'rifdan foydalanishingiz mumkin. "Katta ma'lumotlar - bu uchta operatsiyani bajarish uchun mo'ljallangan texnologiyalarning birikmasi: Bundan tashqari, 2015 yil oktyabr oyida Gartner Big Data-ni mashhur tendentsiyalar ro'yxatidan chiqarib tashladi. Kompaniya tahlilchilari o'z qarorlarini "katta ma'lumotlar" tushunchasi korxonalarda allaqachon faol qo'llaniladigan, qisman boshqa mashhur sohalar va tendentsiyalar bilan bog'liq bo'lgan va kundalik ishlaydigan vositaga aylangan ko'plab texnologiyalarni o'z ichiga olganligi bilan izohlashdi.