logo

Beys formulasi. Beys usulini ma’lumotlar tahlilida qo‘llanilishi

Yuklangan vaqt:

12.08.2023

Ko'chirishlar soni:

0

Hajmi:

28.3974609375 KB
Mavzu: Beys formulasi. Beys usulini ma’lumotlar tahlilida qo‘llanilishi
Reja:
1. Axborotni izlash va ajratishda sodda bayes algoritmlari. 
2. Axborot va fayllarni izlash va ajratish printsiplari. 
3. Axborotlarni izlash va ajratish vektorlarning usul va algorit Ehtimollar nazariyasi va statistikada Tomas Bayes nomi bilan atalgan Bayes
teoremasi   (muqobil   ravishda   Bayes   qonuni   yoki   Bayes   qoidasi   )   hodisa   bilan
bog liq   bo lishi   mumkin  bo lgan  shart-sharoitlar   to g risida   oldindan   ma lumotgaʻ ʻ ʻ ʻ ʻ ʼ
asoslangan   holda   hodisa   ehtimolini   tavsiflaydi.   Misol   uchun,   agar   sog'liq
muammolarini   rivojlanish   xavfi   yoshga   qarab   ortib   borishi   ma'lum   bo'lsa,   Bayes
teoremasi   ma'lum   yoshdagi   odam   uchun   xavfni   shunchaki   taxmin   qilishdan   ko'ra
aniqroq   baholashga   imkon   beradi   (uning   yoshiga   qarab).   individ   butun   aholiga
xosdir.
Bayes teoremasining ko'plab qo'llanilishidan biri bu Bayes xulosasi , statistik
xulosaga   alohida   yondashuv.   Qo'llanilganda,   teoremaga   kiritilgan   ehtimollar   turli
xil   ehtimollik   talqinlariga   ega   bo'lishi   mumkin.   Bayes   ehtimollik   talqini   bilan
teorema,   ehtimollik   sifatida   ifodalangan   e'tiqod   darajasi   tegishli   dalillar
mavjudligini   hisobga   olish   uchun   qanday   qilib   oqilona   o'zgarishi   kerakligini
ifodalaydi.   Bayes   xulosasi   Bayes   statistikasi   uchun   asos   bo'lib,   bir   hokimiyat
tomonidan ko'rib chiqiladi; "ehtimollar nazariyasiga Pifagor teoremasi geometriya
uchun qanday bo'lsa".
Axborotni izlash va ajratishda sodda bayes algoritmlari
Internet   ko'plab   heterojen   mahalliy   kompyuter   tarmoqlarini   birlashtirgan
global tarmoqdir.
Internetdagi qabul qiluvchi kompyuterda paketlarni uzatish va yig'ish tartibi
TCP/IP   protokollar   to'plami   (   uzatish   )   bilan   belgilanadi.   boshqaruv   Protokol   /
Internet Protokol - uzatishni boshqarish protokoli/internet protokoli).
Axborotni izlash va ajratishda sodda bayes algoritmlari
TCP protokollariga 
http (gipermatnni uzatish protokoli ),
ftp (fayl uzatish protokoli )
Axborotni izlash va ajratishda sodda bayes algoritmlari
Internetdagi  har  bir  kompyuter  o'z IP manziliga ega bo'lishi  kerak. Bundan
tashqari, bu manzil noyob bo'lishi kerak.
IP manzil nuqta bilan ajratilgan to'rtta raqamdan iborat ketma-ketlikdir . Ushbu raqamlarning har biri bir bayt mashina xotirasini egallaydi va shuning
uchun 0 dan 255 gacha qiymatlarni qabul qilishi  mumkin (masalan, 147.120.3.28
va boshqalar).
Eng chap raqam - eng yuqori darajali tarmoq raqami.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Keyingi ikkita raqam pastki tarmoq segmentlarini ifodalaydi va oxirgi raqam
ma'lum bir tarmoqqa ulangan kompyuterni yoki xostni ( host ) belgilaydi. Umuman
olganda,   "host"   atamasi   boshqa   uskunalar   bilan   aloqa   qilish   uchun   TCP/IP   dan
foydalanadigan har qanday qurilmaga ishora qiladi .
IP manziliga misol
147.120.3.280
Axborotni izlash va ajratishda sodda bayes algoritmlari
Qulaylik   uchun   raqamli   IP-manzillar   uchun   odatiy   nomlar   taklif   qilingan   -
domen nomlari ( domen ). mezbon ism ).
Domen nomlarida yuqori darajadagi tarmoq nomi o'ng tomonda joylashgan .
Domen   nomining   oxirgi   qismi   identifikator   yoki   birinchi   darajali   domen   deb
ataladi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
darajadagi domen mamlakatga ishora qiladi .
uchun yuqori darajadagi domen odatda veb- saytga egalik qiluvchi tashkilot
turini belgilaydi .
Masalan,
• gov - davlat kompyuterlari uchun;
• edu - ta'lim muassasalari uchun;
• org - muassasalar va xususiy kompaniyalarni aniqlash
• com - tijorat tashkilotlari (firma va kompaniyalar) uchun.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Domen nomi kompyuterga qulay raqamli IP manzilga aylantiriladi. Ushbu maxsus xizmat - Domen Ism Tizim ( DNS - domen nomi tizimi). U
har   bir   kompyuterning   ramziy   domen   nomi   uchun   mos   IP-manzilni   o'z   ichiga
olgan ma'lumotlar bazasiga ega.
Axborotni izlash va ajratishda sodda bayes algoritmlari
URL Internetdagi axborot resurslariga to'g'ridan-to'g'ri ko'rsatgichdir .
URL manzili quyidagicha ko'rinadi:
Protokol:// server_address/path/fayl_name
ServerAddress   -   bu   ma'lumotlarni   joylashtiradigan   kompyuterning   domen
nomi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Path   -   bu   katalog   va   pastki   katalog   nomlari   ketma-ketligi   bo'lib,   ularning
oxirgisi kerakli faylni o'z ichiga oladi. Katalog nomlari slash (/) bilan ajratiladi.
Fayl   nomi   biz   izlayotgan   maqsadli   fayl   (hujjat)   nomidir.   U   maxsus
kengaytmaga   ega   bo'lishi   kerak.   Veb-   sahifa   nomlarida  html   kengaytmasi   ,  ilmiy
maqola   fayl   nomlarida   pdf   kengaytmasi   ,   multimedia   hujjat   nomlarida   gif   ,   jpeg
(grafik), wav , au (ovoz), avi (video) kengaytmalari mavjud.
Axborotni izlash va ajratishda sodda bayes algoritmlari
To liq   URL   juda   uzun.   Uning   to'g'ridan-to'g'ri   to'plami   juda   noqulay   vaʻ
bundan tashqari, xatolar bilan to'la. Shuning uchun, eng keng qamrovli va muhim
Internet -xizmatida, World Wide Web, giperhavola apparati ishlatiladi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Internetda axborot izlash ikki usulda amalga oshiriladi.
1. Qidiruv mexanizmlari.
2. Tematik ma'lumotnomalar.
Qidiruv tizimiga misollar: GOOGLE , Yandex .
Axborotni izlash va ajratishda sodda bayes algoritmlari
PM quyidagi 5 ta quyi tizimdan iborat.
1.O'rgimchak   _   ("o'rgimchak")   -   qidiruv   tizimiga   veb-   sahifalarni
yuklaydigan   dastur   .   Foydalanuvchining   kompyuterida   o'rnatilgan   brauzerga
o'xshash   ishlaydi,   lekin   hech   qanday   ekranda   hech   narsa   ko'rsatmaydi.   Agar   siz o'rgimchak   qidiruv   tizimiga   nima   yuklayotgani   haqida   tasavvurga   ega   bo'lishni
istasangiz,   veb-   sahifani   oching   va   brauzerning   Ko'rish   menyusidan   HTMLni
ko'rish-ni tanlang.
Internetda  Axborotni   izlash  va  ajratishda  sodda   bayes  algoritmlarima'lumot
qidirish
•   Crawler   ("qurt",   yoki   "sayohatchi   o'rgimchak")   -   veb-   sahifada   boshqa
sahifalarga   barcha   havolalarni   topadigan   dastur   .   Uning   vazifasi   havolalar   yoki
oldindan belgilangan manzillar ro'yxatiga asoslanib, "o'rgimchak" keyingi qayerda
sudralishi kerakligini aniqlashdir.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Indeksator   (indexer)   -   sahifani   uning   tarkibiy   qismlariga   "ajraladigan"   va
ularni tahlil qiladigan dastur. Web- sahifalarning sarlavhalari , hujjat sarlavhalari,
havolalar,   hujjatlar   matni,   alohida-alohida   -   qalin,   kursiv   va   hokazolar   alohida
ajratiladi va tahlil qilinadi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
• Ma'lumotlar bazasi (ma'lumotlar bazasi) - qidiruv tizimi yuklab oladigan va
tahlil qiladigan barcha ma'lumotlar ombori. Saqlash uchun ham, keyinchalik qayta
ishlash uchun ham katta resurslarni talab qiladi.
•   Qidiruv   dvigatel   Natijalar   dvigatel   (qidiruv   natijalari   tizimi   )   qaysi
sahifalar   foydalanuvchi   so rovini   qanoatlantirishini   va   qay   darajadaligini   halʻ
qiladi. Qidiruv tizimining ushbu qismi bilan foydalanuvchi "muloqot qiladi".
Internetda ma'lumot qidirish
Qidiruv   tizimi,   qidiruv   so'rovini   olgandan   so'ng,   ba'zi   foydalanuvchilar
ishonganidek, Butunjahon Internet tarmog'ida uzoq safarga bormaydi , lekin faqat
ilgari to'plangan ma'lumotlarni tahlil qiladi .
Internetdan   ma'lumotlarni   yuklab   olish   va   uning   qidiruv   tizimi   tomonidan
dastlabki   tahlil   qilish   jarayoni   indeksatsiya   deb   ataladi   va   to'plangan   ma'lumotlar
saqlanadigan qidiruv tizimining ma'lumotlar bazasining o'zi indeks deb ataladi .
Axborot va fayllarni izlash va ajratish printsiplari Axborot   olish   atamasining   ma'nosi   (   axborot   olish   -   IR)   juda   keng   bo'lishi
mumkin.
Hatto   uning   raqamini   bilish   uchun   hamyoningizdan   kredit   kartani   olib
qo'yish allaqachon Axborotni izlash va ajratishda sodda bayes algoritmlarining bir
turi sifatida talqin qilinishi mumkin.
Axborot   qidirish   (IR)   -   bu   axborotga   bo'lgan   ehtiyojni   qondiradigan   ba'zi
tuzilmagan   materiallar   (odatda   hujjat)   uchun   katta   to'plamni   (   odatda   kompyuter
xotirasida saqlanadi ) qidirish jarayoni .
Axborotni izlash va ajratishda sodda bayes algoritmlari
“ Tuzilishsiz ma lumotlar ” deganda biz aniq, semantik jihatdan ravshan vaʼ
kompyuterda   amalga   oshirish   oson   bo lgan   tuzilishga   ega   bo lmagan	
ʻ ʻ
ma lumotlarni nazarda tutamiz .	
ʼ
Ular   tuzilgan   ma'lumotlarga   qarama-qarshi   bo'lib,   relyatsion   ma'lumotlar
bazalari kanonik misoldir .
Aslida,   to'liq   "tuzilmagan   ma'lumotlar"   amalda   mavjud   emas.   Masalan,
oddiy matnli ma'lumotlar tabiiy tillar uchun xos bo'lgan yashirin 
Axborotni izlash va ajratishda sodda bayes algoritmlari
Qidiruv tizimining maqsadi - foydalanuvchi tomonidan bir martalik so'rovlar
orqali   tizimga   etkazilgan   o'zboshimchalik   bilan   ma'lumot   ehtiyojlariga   eng   mos
keladigan hujjatlarni to'plamdan topish . 
qidiruv   amalga   oshiriladigan   hujjatlar   guruhini   to'plam   deb   ataymiz.
(to'plam). U ba'zan tana ( korpus ) yoki matnlar majmuasi ( tana ning matnlar ).
Axborotni izlash va ajratishda sodda bayes algoritmlari
ma'lumotga   ehtiyoj   (   ma'lumot   kerak   )   -   foydalanuvchi   ko'proq   bilmoqchi
bo'lgan mavzu.
So'rov   -   bu   foydalanuvchi   o'zining   ma'lumotga   bo'lgan   ehtiyojini   ifodalash
uchun kompyuterga kiradigan narsa.
Hujjat   ,   agar   foydalanuvchi   nuqtai   nazaridan,   uning   axborotga   bo'lgan
ehtiyojini   qondiradigan   qimmatli   ma'lumotlarni   o'z   ichiga   olgan   bo'lsa   ,   tegishli
deb nomlanadi . Amaldagi   qidiruv   texnologiyalariga   ko'ra,   Axborotni   izlash   va   ajratishda
sodda bayes algoritmlarini 4 toifaga bo'lish mumkin:
1. Tematik ma'lumotnomalar;
2. Ixtisoslashgan kataloglar (onlayn kataloglar);
3. Qidiruv mexanizmlari (to‘liq matnli qidiruv);
4. Meta-qidiruv vositalari .
Axborotni izlash va ajratishda sodda bayes algoritmlari
Tematik   kataloglar   hujjatlarni   qayta   ishlash   va   ularni   ro'yxati   oldindan
belgilangan   bir   nechta   toifalardan   biriga   belgilashni   ta'minlaydi.   Aslida,   bu
tasnifga asoslangan indeksatsiya.
mashhur   veb-saytlarni   ko'rib   chiqadigan   va   xulosa   hujjatlarining   qisqacha
tavsifini (kalit so'zlar, abstrakt, abstrakt) tuzadigan mutaxassislar yordamida qo'lda
amalga oshiriladi .
Axborotni izlash va ajratishda sodda bayes algoritmlari
va boshqalar uchun maxsus kataloglar yoki kataloglar yaratiladi.
Axborotni izlash va ajratishda sodda bayes algoritmlari to'liq matnli qidiruv
texnologiyasini   amalga   oshiradi.   Indeks   bir   necha   milliard   hujjatlar   to'g'risidagi
ma'lumotlarni   o'z   ichiga   olishi   mumkin.   Misol   uchun,   mashhur   IPS   indeksi   "
Google " 2 milliarddan ortiq URL manziliga ega .
Axborotni izlash va ajratishda sodda bayes algoritmlari
Meta   -qidiruv   vositalaridan   foydalanganda   so'rov   bir   vaqtning   o'zida   bir
nechta Axborotni izlash va ajratishda sodda bayes algoritmlari tomonidan amalga
oshiriladi.   Qidiruv   natijasi   tegishlilik   bo'yicha   tartiblangan   umumiy   ro'yxatga
birlashtiriladi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
PM quyidagi 5 ta quyi tizimdan iborat.
1.O'rgimchak _ ("o'rgimchak") - qidiruv tizimiga 
ishlaydi , lekin hech qanday ekranda hech narsa ko'rsatmaydi. Agar   siz   o'rgimchak   qidiruv   tizimiga   nima   yuklayotgani   haqida   tasavvurga
ega   bo'lishni   istasangiz,   veb-   sahifani   oching   va   brauzerning   Ko'rish   menyusidan
HTMLni ko'rish-ni tanlang.
Axborotni izlash va ajratishda sodda bayes algoritmlari
•   Crawler   ("qurt",   yoki   "sayohatchi   o'rgimchak")   -   veb-   sahifada   boshqa
sahifalarga barcha havolalarni topadigan dastur .
Uning   vazifasi   havolalar   yoki   oldindan   belgilangan   manzillar   ro'yxatiga
asoslanib, "o'rgimchak" keyingi qayerda sudralishi kerakligini aniqlashdir.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Indeksator   (indexer)   -   sahifani   uning   tarkibiy   qismlariga   "ajraladigan"   va
ularni tahlil qiladigan dastur.
Veb-   sahifalarning   sarlavhalari,   hujjat   sarlavhalari,   havolalar,   hujjatlar
matni, alohida - qalin, kursiv va boshqalar ajratiladi va tahlil qilinadi .
Axborotni izlash va ajratishda sodda bayes algoritmlari
• Ma'lumotlar bazasi (ma'lumotlar bazasi) - qidiruv tizimi yuklab oladigan va
tahlil qiladigan barcha ma'lumotlar ombori. Saqlash uchun ham, keyinchalik qayta
ishlash uchun ham katta resurslarni talab qiladi.
•   Qidiruv   Natijalar   dvigatel   (qidiruv   natijalari   tizimi   )   qaysi   sahifalar
foydalanuvchi so rovini qanoatlantirishini va qay darajadaligini hal qiladi.ʻ
Qidiruv tizimining ushbu qismi bilan foydalanuvchi "muloqot qiladi" .
Axborotni izlash va ajratishda sodda bayes algoritmlari
Xulosa.
Qidiruv   tizimi,   qidiruv   so'rovini   olgan   holda   ,   ba'zi   foydalanuvchilar
ishonganidek,   World   Wide   Web   bo'ylab   uzoq   sayohatga   bormaydi   ,   lekin   faqat
ilgari to'plangan va ma'lumotlar bazasida saqlangan ma'lumotlarni tahlil qiladi.
Internetdan   ma'lumotlarni   yuklab   olish   va   uning   qidiruv   tizimi   tomonidan
dastlabki   tahlil   qilish   jarayoni   indeksatsiya   deb   ataladi   va   to'plangan   ma'lumotlar
saqlanadigan qidiruv tizimining ma'lumotlar bazasining o'zi indeks deb ataladi .
Internetda ma'lumot qidirish Internetdagi ma'lumotlarga samarali kirish Alta Vista ( AltaVista ), " Lycos
", "  Yahoo  ",  " Google  ",  " OpenText   ", "  Wais  ",  " WebCrawler  "  va  boshqalar
kabi xorijiy Axborotni izlash va ajratishda sodda bayes algoritmlari  (mashinalari)
tomonidan ta'minlanadi .
Rus   tilidagi   Axborotni   izlash   va   ajratishda   sodda   bayes   algoritmlariga
quyidagilar kiradi: Aport (" Aport " OAJ Agama), Rambler ( Stek ). Ltd. ), Yandeh
( ComTek tomonidan " Yandex " Int ), "Rossiya qidiruvi", "Yangi rus qidiruvi" va
boshqalar.   Ularning   Internetdagi   manzillari:   www.aport.ru,   www.rambler.ru,
www.yandex.ru,   search.interrussia.com,   www.openweb   .ru   mos   ravishda)   va
boshqalar.
Internetda ma'lumot qidirish
Xorijiy   "klassik"   meta-qidiruv   mexanizmlari   orasida   Dogpile
(www.dogpiLe.com) va Metacrawler ( www.metacrawLer.com ) , Yippy , Ixquick 
Ular Google , Yahoo! _ _ Ask , LookSmart , About , FindWhat va boshqa
mashinalar.
Olingan ro'yxatlar qayta ishlanadi va dolzarbligi bo'yicha tartiblanadi .
Internetda ma'lumot qidirish
Rus   tilidagi   metasearch   eng   yaxshi   Metabear   /   Metabot   ,   Nigma   tizimida
amalga oshiriladi . Qabul qilingan ma'lumotlar qo'shimcha ravishda o'z algoritmiga
muvofiq   qayta   ishlanadi.   Qidiruv   tizimi   bir   vaqtning   o'zida   ikkita   manzilda
ishlaydi: inglizcha versiyasi metabear.com saytida, ruscha versiyasi esa metabot.ru
saytida   joylashgan.   Qo'llab-quvvatlanadigan   Axborotni   izlash   va   ajratishda   sodda
bayes algoritmlari va kataloglari orasida Google, Yahoo! Ask ,
AltaVista , MSN, Yandex va Rambler 
mantiqiy qidiruv
Mantiqiy algebraning asosiy tushunchalari.
Asosiy uchta operatsiya:
1. VA , bog‘lovchisi, AND ( ) ;˄
2. OR , dis'yunksiya, OR (  ) ;
˅
3. YO‘Q , inkor, YO‘Q ( ˉ ) . Boolean algebrasining asosiy qoidalari.
1 VA 1 = 1
1 VA 0 = 0
0 VA 1 = 0
0 VA 0 = 0
Bulev poisk
1 YOKI 1 = 1
1 YOKI 0 = 1
0 YOKI 1 = 1
0 YOKI 0 = 0
NO 1 = 0
YO'Q 0 = 1
mantiqiy qidiruv
Ma'lumot olish misoli.
Aytaylik, bizda Shekspir pyesalari to‘plami bor.
Keling, ushbu to'plamni hujjatlar to'plami deb ataymiz .
Vazifa:
Qaysi   o'yinlarda   so'zlardan   foydalanishni   aniqlang   Brutus   VA   Tsezar   va
Kalpurniya emas
Ushbu   vazifani   bajarish   uchun   siz   matnni   boshidan   oxirigacha   o'qib
chiqishingiz va Brutus so'zlarini o'z ichiga olgan o'yinlarni belgilashingiz kerak va
Qaysar va Kalpurniya so'zi yo'q .
mantiqiy qidiruv
Ushbu   muammoni   hal   qilishning   eng   oddiy   kompyuter   usuli   -   ketma-ket
skanerlash ( linear skanerlash ) to'plamdagi barcha hujjatlarni.
Bu jarayon ko'pincha oldinga qidiruv yoki ingliz tilida grepping deb ataladi .
To'g'ridan-to'g'ri matn qidirish juda samarali bo'lishi  mumkin, ayniqsa zamonaviy
kompyuterlarda .
Zamonaviy kompyuterlarda o'rtacha o'lchamdagi ma'lumotlar to'plamida (bir
million so'zgacha) oddiy so'rovlarni bajarish oddiy foydalanuvchi uchun etarli. mantiqiy qidiruv
Biroq, ko'p hollarda ko'proq narsa talab qilinadi.
1. Milliardlab va trillionlab so'zlarni o'z ichiga olgan to'plamlarda ma'lumot
izlash .
2. Romans NEAR yurtdoshlari so'rovini chiziqli so'rov bilan bajarish qiyin ,
bu   erda   NEAR   so'zi   "5   so'zdan   ko'p   bo'lmagan"   yoki   "bir   jumla   ichida"   degan
ma'noni anglatishi mumkin.
3. Ba'zan tartiblangan qidiruvni amalga oshirish kerak. Ko'p holatlarda bizga
faqat javob emas, balki ma'lum bir so'zni o'z ichiga olgan hujjatlarga oid so'rovga
eng yaxshi javob kerak.
mantiqiy qidiruv
Bunday hollarda hujjat indeksidan foydalaniladi.
Hujjatlar indeksi hujjatni ketma-ket ko'rib chiqmaslik uchun ishlatiladi.
Buni amalga oshirish uchun, har bir hujjat uchun , biz vazifadan ma'lum bir
so'zni o'z ichiga olganligini ko'rsatadigan yozuvni yaratamiz . Barcha so'zlar uchun
yozuvlarni   yaratish   natijasida   "so'z-hujjat"   ikkilik   insidans   matritsasi   quriladi.
Bizning vazifamizda "Shekspirning so'zli o'yini".
Bu matritsada ustun hujjat vektori, satr so'z vektori hisoblanadi.
mantiqiy qidiruv
Antoni va Kleopatra 
Yuliy Tsezar 
Bo'ron 
Gamlet 
Otello 
Makbet 
Entoni 
bitta 
bitta  0 
0 
0 
bitta 
Brutus 
bitta 
bitta 
0 
bitta 
0 
0 
Qaysar 
bitta 
bitta 
0 
bitta 
1 
1 
Kalpurniya 
0 
1 
0 
0 
0 
0 
Kleopatra  1 
0 
0 
0 
0 
0 
rahm-shafqat 
1 
0 
1 
1 
1 
1 
yomonroq 
1 
0 
1 
1 
1 
0 
mantiqiy qidiruv
Muammoni hal qilish uchun biz ifodani baholashimiz kerak
Brutus VA Qaysar VA EMAS Kalpurniya
Bunda   so'zlar   o'rniga   ushbu   so'zlarning   tegishli   vektorlari   almashtirilishi
kerak:
Brutus = 110100
Qaysar = 110111
EMAS Kalpurniya = 101111 110100 VA 110111 VA 101111
mantiqiy qidiruv
Mantiqiy algebra asosida hisob-kitoblarni bajarib, muammo vektorini olamiz
100100
Shunday qilib, javob quyidagicha ko'rinadi:
Izlangan so'zlarning birikmalari o'yinlarda mavjud
Antoni va Kleopatra va Gamlet
mantiqiy qidiruv
Endi realroq stsenariyni ko'rib chiqing. Aytaylik, bizning ixtiyorimizda N =
1 million hujjat bor.
Hujjatlar   (   hujjatlar   )   har   qanday   ob'ektlar   bo'lib,   ular   asosida   axborot-
qidiruv   tizimini   qurishga   qaror   qilinadi.   Hujjatlar   shaxsiy   eslatmalar   yoki   kitob
bo'limlari bo'lishi mumkin.
Qidiriladigan hujjatlar guruhi to'plam deb ataladi .
Aytaylik , har bir hujjat 1000 ga yaqin so‘zdan iborat (2-3 kitob sahifasi).
mantiqiy qidiruv
Agar so'zni  saqlash  uchun bo'sh joylar va tinish belgilarini o'z ichiga olgan
holda o'rtacha 6 bayt ajratilgan deb hisoblasak, bunday hujjatlar to'plami taxminan
6 GB (GB ) ni oladi.
Bunday hujjatlarda M = 500 000 ga yaqin turli atamalar bo'lishi mumkin.
Endi biz atama-hujjat matritsasini sodda tarzda yarata olmaymiz. 500 K x 1
M matritsada yarim trillion nol va birlar mavjud bo'lib, ular kompyuter xotirasiga
sig'ish uchun juda katta .
mantiqiy qidiruv
Biroq,   insidans   matritsasi   juda   siyrak,   ya'ni.   faqat   oz   sonli   nolga   teng
bo'lmagan   elementlarni   o'z   ichiga   oladi.   Har   bir   hujjat   1000   ta   so zdan   iboratʻ
bo lganligi   sababli,  matritsada   bir   milliarddan  ko p  bo lmagan  1 bo ladi,  shuning	
ʻ ʻ ʻ ʻ
uchun kamida 99,8% katakchalarda nol bo ladi .	
ʻ
Xotirada faqat birliklarni saqlash ancha maqsadga muvofiqdir . Bu   g'oya   axborotni   izlashda   birinchi   muhim   kontseptsiya   -   teskari   indeks
uchun asosdir.
Invert indeks yaratish uchun birinchi urinish
Invert indeksni yaratish jarayoni quyidagi bosqichlardan iborat.
1.   Biz   indeksatsiya   qilinadigan   hujjatlarni   yig'amiz   .   Ya'ni,   biz   to'plamni
shakllantiramiz.
tokenlar ( tokenlar ) ro yxatiga aylantirish orqali matnni belgilang .ʻ
3 Biz dastlabki lingvistik ishlovni amalga oshiramiz , indekslangan atamalar
bo'lgan normalangan leksemalar ro'yxatini tuzamiz .
lug'at   va   so'z   pozitsiyalaridan   iborat   teskari   indeksni   yaratib,   atama
uchraydigan hujjatlarni indekslaymiz .
mantiqiy qidiruv
Dastlabki uchta qadam allaqachon bajarilgan deb faraz qiling va tartiblangan
indekslash asosida teskari indeks yaratish jarayonini ko'rib chiqing .
Hujjatlar   to'plamida   har   bir   hujjat   hujjat   identifikatori   (   docID   )   deb
ataladigan noyob seriya raqamiga 
mantiqiy qidiruv
Aytaylik, bizning kollektsiyamiz ikkita hujjatdan iborat:
Doc 1. Men Yuliy Tsezarni ijro etdim. Men Kapitoliyda o'ldirildim ; Brutus
meni o'ldirdi.
Doc 2. Shunday qilib, Qaysar bilan bo'lsin. Olijanob Brutus
shlyapa sizga Qaysar ambitsiyali ekanligini aytdi:
Keling,   jadval   tuzamiz,   uning   birinchi   ustuniga   barcha   shartlarni   yozamiz.
Dastlabki   uch   bosqichni   ko‘rib   chiqmaganimiz   uchun   matndagi   barcha   so‘zlarni
normalashgan leksema deb hisoblab yozamiz.
mantiqiy qidiruv
Keyin   biz   birinchi   belgini   olamiz   va   to'plamning   barcha   matnlarini   ko'rib
chiqamiz.   Keyingi   ustunda   biz   ushbu   token   topilgan   hujjatning   identifikatorini
yozamiz. Shunday   qilib,   barcha   tokenlar   uchun   “leksema   –   hujjat   identifikatori”
juftlarini aniqlaymiz.
Xuddi   shu   leksemaning   juftlarini   birlashtiramiz,   mos   ravishda   ikkinchi
ustunda   unga   mos   keladigan   aniqlovchilarni   sanab   o'tamiz.   Ikkinchi   ustunda
olingan hujjat identifikatorlarining ro'yxati so'z pozitsiyalari ro'yxati deb ataladi.
mantiqiy qidiruv
Keyin olingan jadvalni alfavit tartibida tokenlar bo'yicha tartiblaymiz.
har bir muddat uchun 
Natijada   barcha   tokenlar   uchun   tartiblangan   juftliklar   to'plamining   teskari
indeksi deyiladi .
Hujjatdagi   leksemalar   to'plami   va   unga   mos   keladigan   chastota   yoki
koordinata qiymatlari to'plami lug'at yoki leksika deb ataladi.
Jismoniy jihatdan lug'atlar operativ xotirada, so'z o'rinlari ro'yxati esa qattiq
diskda (qattiq diskda) saqlanadi.
Boolean so'rovlarni boshqarish
Qanday qilib so'rovlar teskari indeks va asosiy mantiqiy qidiruv modeli bilan
ishlanadi ?
Aytaylik, bizda Shekspir pyesalari to‘plamining teskari ko‘rsatkichi bor.
Brutus _ 1 → 2 → 4 → 11 → 31 → 45 → 173 → 174
Kalpurniya - 2 → 31 → 54 → 101
Oddiy   kon'yunktiv   so'rovni   qayta   ishlashni   ko'rib   chiqing   (   oddiy
kon'yunktiv so'rov)
Brutus va Kalpurniya
mantiqiy qidiruv
Brutus atamasini lug‘atdan topamiz .
2. Uning so‘z o‘rinlari ro‘yxatini toping.
Kalpurniya atamasini lug‘atda topamiz .
so'z pozitsiyalari ro'yxatini toping .
5. Ushbu ikki ro‘yxatning kesishgan joyini toping
Kesishma - 2 → 31 mantiqiy qidiruv
So'rovlarni   optimallashtirish   -   bu   tizim   bajarishi   kerak   bo'lgan   umumiy   ish
hajmini minimallashtirish uchun so'rovlarni qayta ishlashni qanday tashkil qilishni
tanlashdir.
asosiy omil - bu e'lonlar ro'yxatiga kirish tartibi.
So'rovni qayta ishlash uchun eng yaxshi buyurtma nima ?
AND amali bilan birlashtirilgan t atamalardan iborat so'rovni ko'rib chiqing.
Masalan,
Brutus VA Tsezar VA Kalpurniya
mantiqiy qidiruv
Amalda standart evristik qo'llaniladi, ya'ni  atamalar  hujjatlar  chastotasining
ortib borish tartibida qayta ishlanadi;
agar   biz  so'z   pozitsiyalarining  ikkita  eng  kichik  ro'yxatining   kesishmasidan
boshlasak, unda barcha oraliq natijalar so'z pozitsiyalarining eng kichik ro'yxatidan
oshmasligi kerak, ya'ni biz eng kam ish hajmini qilamiz .
Brutus − 1 →2 →4 →11→ 31 →45 →173→ 174
Sezar - 1→2→ 4→ 5→ 6 →16 →57→ 132. . .
Kalpurniya - 2→ 31→ 54→ 101 Foydalanilgan adabiyotlar
1. Joys,   Jeyms   (2003),   "Bayes   teoremasi"   ,   Zaltada,   Edvard   N.   (tahr.),
Stenford   falsafa   ensiklopediyasi   (bahor,   2019   yil   nashri),   Stenford
universiteti, Metafizika tadqiqot laboratoriyasi , olingan 17-01-2020
2. Jeffreys,   ser   Garold   (1973).   Ilmiy   xulosa   .   Kembrij:   Universitet
matbuotida. OCLC 764571529 . 
3. Styuart,   A.;   Ord,   K.   (1994),   Kendallning   ilg'or   statistik   nazariyasi:   I
jild – taqsimlash nazariyasi , Edvard Arnold , §8.7
4. Kolmogorov,   AN   (1933).   Ehtimollar   nazariyasi   asoslari   .   Chelsi
nashriyot kompaniyasi (1956 yil nashri).
5. Taraldsen,   Gunnar;   Tufto,   Jarle;   Lindqvist,   Bo   X.   (2021-07-24).
"Noto'g'ri   oldingi   va   noto'g'ri   posteriorlar"   .   Skandinaviya   statistika
jurnali . 49 (3): 969–991. doi : 10.1111/sjos.12550 . ISSN 0303-6898 .
S2CID 237736986 .  
6. Robert,   Kristian   P.;   Casella,   Jorj   (2004).   Monte-Karloning   statistik
usullari . Springer. ISBN 978-1-4757-4145-2. OCLC  1159112760 .
7. Li, Piter M. (2012). "1-bob" . Bayes statistikasi . Wiley . ISBN  978-1-
1183-3257-3.
8. "Bayes teoremasi: Kirish" . Trinity universiteti . 2004 yil 21 avgustda
asl nusxadan arxivlangan . 2014 -yil 5-avgustda olingan .
9. Audun   Josang,   2016,   Subyektiv   mantiq;   Noaniqlik   sharoitida   fikr
yuritish   uchun   rasmiyatchilik.   Springer,   Cham,   ISBN   978-3-319-
42337-1 
10. Audun   Josang,   2016,   Subyektiv   mantiqda   Bayes   teoremasini
umumlashtirish   .   Intellektual   tizimlar   uchun   multisensorli
termoyadroviy   va   integratsiya   bo'yicha   IEEE   xalqaro   konferentsiyasi
(MFI 2016), Baden-Baden, 2016 yil sentyabr

Mavzu: Beys formulasi. Beys usulini ma’lumotlar tahlilida qo‘llanilishi Reja: 1. Axborotni izlash va ajratishda sodda bayes algoritmlari. 2. Axborot va fayllarni izlash va ajratish printsiplari. 3. Axborotlarni izlash va ajratish vektorlarning usul va algorit

Ehtimollar nazariyasi va statistikada Tomas Bayes nomi bilan atalgan Bayes teoremasi (muqobil ravishda Bayes qonuni yoki Bayes qoidasi ) hodisa bilan bog liq bo lishi mumkin bo lgan shart-sharoitlar to g risida oldindan ma lumotgaʻ ʻ ʻ ʻ ʻ ʼ asoslangan holda hodisa ehtimolini tavsiflaydi. Misol uchun, agar sog'liq muammolarini rivojlanish xavfi yoshga qarab ortib borishi ma'lum bo'lsa, Bayes teoremasi ma'lum yoshdagi odam uchun xavfni shunchaki taxmin qilishdan ko'ra aniqroq baholashga imkon beradi (uning yoshiga qarab). individ butun aholiga xosdir. Bayes teoremasining ko'plab qo'llanilishidan biri bu Bayes xulosasi , statistik xulosaga alohida yondashuv. Qo'llanilganda, teoremaga kiritilgan ehtimollar turli xil ehtimollik talqinlariga ega bo'lishi mumkin. Bayes ehtimollik talqini bilan teorema, ehtimollik sifatida ifodalangan e'tiqod darajasi tegishli dalillar mavjudligini hisobga olish uchun qanday qilib oqilona o'zgarishi kerakligini ifodalaydi. Bayes xulosasi Bayes statistikasi uchun asos bo'lib, bir hokimiyat tomonidan ko'rib chiqiladi; "ehtimollar nazariyasiga Pifagor teoremasi geometriya uchun qanday bo'lsa". Axborotni izlash va ajratishda sodda bayes algoritmlari Internet ko'plab heterojen mahalliy kompyuter tarmoqlarini birlashtirgan global tarmoqdir. Internetdagi qabul qiluvchi kompyuterda paketlarni uzatish va yig'ish tartibi TCP/IP protokollar to'plami ( uzatish ) bilan belgilanadi. boshqaruv Protokol / Internet Protokol - uzatishni boshqarish protokoli/internet protokoli). Axborotni izlash va ajratishda sodda bayes algoritmlari TCP protokollariga http (gipermatnni uzatish protokoli ), ftp (fayl uzatish protokoli ) Axborotni izlash va ajratishda sodda bayes algoritmlari Internetdagi har bir kompyuter o'z IP manziliga ega bo'lishi kerak. Bundan tashqari, bu manzil noyob bo'lishi kerak. IP manzil nuqta bilan ajratilgan to'rtta raqamdan iborat ketma-ketlikdir .

Ushbu raqamlarning har biri bir bayt mashina xotirasini egallaydi va shuning uchun 0 dan 255 gacha qiymatlarni qabul qilishi mumkin (masalan, 147.120.3.28 va boshqalar). Eng chap raqam - eng yuqori darajali tarmoq raqami. Axborotni izlash va ajratishda sodda bayes algoritmlari Keyingi ikkita raqam pastki tarmoq segmentlarini ifodalaydi va oxirgi raqam ma'lum bir tarmoqqa ulangan kompyuterni yoki xostni ( host ) belgilaydi. Umuman olganda, "host" atamasi boshqa uskunalar bilan aloqa qilish uchun TCP/IP dan foydalanadigan har qanday qurilmaga ishora qiladi . IP manziliga misol 147.120.3.280 Axborotni izlash va ajratishda sodda bayes algoritmlari Qulaylik uchun raqamli IP-manzillar uchun odatiy nomlar taklif qilingan - domen nomlari ( domen ). mezbon ism ). Domen nomlarida yuqori darajadagi tarmoq nomi o'ng tomonda joylashgan . Domen nomining oxirgi qismi identifikator yoki birinchi darajali domen deb ataladi. Axborotni izlash va ajratishda sodda bayes algoritmlari darajadagi domen mamlakatga ishora qiladi . uchun yuqori darajadagi domen odatda veb- saytga egalik qiluvchi tashkilot turini belgilaydi . Masalan, • gov - davlat kompyuterlari uchun; • edu - ta'lim muassasalari uchun; • org - muassasalar va xususiy kompaniyalarni aniqlash • com - tijorat tashkilotlari (firma va kompaniyalar) uchun. Axborotni izlash va ajratishda sodda bayes algoritmlari Domen nomi kompyuterga qulay raqamli IP manzilga aylantiriladi.

Ushbu maxsus xizmat - Domen Ism Tizim ( DNS - domen nomi tizimi). U har bir kompyuterning ramziy domen nomi uchun mos IP-manzilni o'z ichiga olgan ma'lumotlar bazasiga ega. Axborotni izlash va ajratishda sodda bayes algoritmlari URL Internetdagi axborot resurslariga to'g'ridan-to'g'ri ko'rsatgichdir . URL manzili quyidagicha ko'rinadi: Protokol:// server_address/path/fayl_name ServerAddress - bu ma'lumotlarni joylashtiradigan kompyuterning domen nomi. Axborotni izlash va ajratishda sodda bayes algoritmlari Path - bu katalog va pastki katalog nomlari ketma-ketligi bo'lib, ularning oxirgisi kerakli faylni o'z ichiga oladi. Katalog nomlari slash (/) bilan ajratiladi. Fayl nomi biz izlayotgan maqsadli fayl (hujjat) nomidir. U maxsus kengaytmaga ega bo'lishi kerak. Veb- sahifa nomlarida html kengaytmasi , ilmiy maqola fayl nomlarida pdf kengaytmasi , multimedia hujjat nomlarida gif , jpeg (grafik), wav , au (ovoz), avi (video) kengaytmalari mavjud. Axborotni izlash va ajratishda sodda bayes algoritmlari To liq URL juda uzun. Uning to'g'ridan-to'g'ri to'plami juda noqulay vaʻ bundan tashqari, xatolar bilan to'la. Shuning uchun, eng keng qamrovli va muhim Internet -xizmatida, World Wide Web, giperhavola apparati ishlatiladi. Axborotni izlash va ajratishda sodda bayes algoritmlari Internetda axborot izlash ikki usulda amalga oshiriladi. 1. Qidiruv mexanizmlari. 2. Tematik ma'lumotnomalar. Qidiruv tizimiga misollar: GOOGLE , Yandex . Axborotni izlash va ajratishda sodda bayes algoritmlari PM quyidagi 5 ta quyi tizimdan iborat. 1.O'rgimchak _ ("o'rgimchak") - qidiruv tizimiga veb- sahifalarni yuklaydigan dastur . Foydalanuvchining kompyuterida o'rnatilgan brauzerga o'xshash ishlaydi, lekin hech qanday ekranda hech narsa ko'rsatmaydi. Agar siz

o'rgimchak qidiruv tizimiga nima yuklayotgani haqida tasavvurga ega bo'lishni istasangiz, veb- sahifani oching va brauzerning Ko'rish menyusidan HTMLni ko'rish-ni tanlang. Internetda Axborotni izlash va ajratishda sodda bayes algoritmlarima'lumot qidirish • Crawler ("qurt", yoki "sayohatchi o'rgimchak") - veb- sahifada boshqa sahifalarga barcha havolalarni topadigan dastur . Uning vazifasi havolalar yoki oldindan belgilangan manzillar ro'yxatiga asoslanib, "o'rgimchak" keyingi qayerda sudralishi kerakligini aniqlashdir. Axborotni izlash va ajratishda sodda bayes algoritmlari Indeksator (indexer) - sahifani uning tarkibiy qismlariga "ajraladigan" va ularni tahlil qiladigan dastur. Web- sahifalarning sarlavhalari , hujjat sarlavhalari, havolalar, hujjatlar matni, alohida-alohida - qalin, kursiv va hokazolar alohida ajratiladi va tahlil qilinadi. Axborotni izlash va ajratishda sodda bayes algoritmlari • Ma'lumotlar bazasi (ma'lumotlar bazasi) - qidiruv tizimi yuklab oladigan va tahlil qiladigan barcha ma'lumotlar ombori. Saqlash uchun ham, keyinchalik qayta ishlash uchun ham katta resurslarni talab qiladi. • Qidiruv dvigatel Natijalar dvigatel (qidiruv natijalari tizimi ) qaysi sahifalar foydalanuvchi so rovini qanoatlantirishini va qay darajadaligini halʻ qiladi. Qidiruv tizimining ushbu qismi bilan foydalanuvchi "muloqot qiladi". Internetda ma'lumot qidirish Qidiruv tizimi, qidiruv so'rovini olgandan so'ng, ba'zi foydalanuvchilar ishonganidek, Butunjahon Internet tarmog'ida uzoq safarga bormaydi , lekin faqat ilgari to'plangan ma'lumotlarni tahlil qiladi . Internetdan ma'lumotlarni yuklab olish va uning qidiruv tizimi tomonidan dastlabki tahlil qilish jarayoni indeksatsiya deb ataladi va to'plangan ma'lumotlar saqlanadigan qidiruv tizimining ma'lumotlar bazasining o'zi indeks deb ataladi . Axborot va fayllarni izlash va ajratish printsiplari