Beys formulasi. Beys usulini ma’lumotlar tahlilida qo‘llanilishi

Yuklangan vaqt:

12.08.2023

Ko'chirishlar soni:

0

Hajmi:

28.3974609375 KB

Ko'chirib olish

Mavzu: Beys formulasi. Beys usulini ma’lumotlar tahlilida qo‘llanilishi
Reja:
1. Axborotni izlash va ajratishda sodda bayes algoritmlari.
2. Axborot va fayllarni izlash va ajratish printsiplari.
3. Axborotlarni izlash va ajratish vektorlarning usul va algorit

Ehtimollar nazariyasi va statistikada Tomas Bayes nomi bilan atalgan Bayes
teoremasi (muqobil ravishda Bayes qonuni yoki Bayes qoidasi ) hodisa bilan
bog liq bo lishi mumkin bo lgan shart-sharoitlar to g risida oldindan ma lumotgaʻ ʻ ʻ ʻ ʻ ʼ
asoslangan holda hodisa ehtimolini tavsiflaydi. Misol uchun, agar sog'liq
muammolarini rivojlanish xavfi yoshga qarab ortib borishi ma'lum bo'lsa, Bayes
teoremasi ma'lum yoshdagi odam uchun xavfni shunchaki taxmin qilishdan ko'ra
aniqroq baholashga imkon beradi (uning yoshiga qarab). individ butun aholiga
xosdir.
Bayes teoremasining ko'plab qo'llanilishidan biri bu Bayes xulosasi , statistik
xulosaga alohida yondashuv. Qo'llanilganda, teoremaga kiritilgan ehtimollar turli
xil ehtimollik talqinlariga ega bo'lishi mumkin. Bayes ehtimollik talqini bilan
teorema, ehtimollik sifatida ifodalangan e'tiqod darajasi tegishli dalillar
mavjudligini hisobga olish uchun qanday qilib oqilona o'zgarishi kerakligini
ifodalaydi. Bayes xulosasi Bayes statistikasi uchun asos bo'lib, bir hokimiyat
tomonidan ko'rib chiqiladi; "ehtimollar nazariyasiga Pifagor teoremasi geometriya
uchun qanday bo'lsa".
Axborotni izlash va ajratishda sodda bayes algoritmlari
Internet ko'plab heterojen mahalliy kompyuter tarmoqlarini birlashtirgan
global tarmoqdir.
Internetdagi qabul qiluvchi kompyuterda paketlarni uzatish va yig'ish tartibi
TCP/IP protokollar to'plami ( uzatish ) bilan belgilanadi. boshqaruv Protokol /
Internet Protokol - uzatishni boshqarish protokoli/internet protokoli).
Axborotni izlash va ajratishda sodda bayes algoritmlari
TCP protokollariga
http (gipermatnni uzatish protokoli ),
ftp (fayl uzatish protokoli )
Axborotni izlash va ajratishda sodda bayes algoritmlari
Internetdagi har bir kompyuter o'z IP manziliga ega bo'lishi kerak. Bundan
tashqari, bu manzil noyob bo'lishi kerak.
IP manzil nuqta bilan ajratilgan to'rtta raqamdan iborat ketma-ketlikdir .

Ushbu raqamlarning har biri bir bayt mashina xotirasini egallaydi va shuning
uchun 0 dan 255 gacha qiymatlarni qabul qilishi mumkin (masalan, 147.120.3.28
va boshqalar).
Eng chap raqam - eng yuqori darajali tarmoq raqami.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Keyingi ikkita raqam pastki tarmoq segmentlarini ifodalaydi va oxirgi raqam
ma'lum bir tarmoqqa ulangan kompyuterni yoki xostni ( host ) belgilaydi. Umuman
olganda, "host" atamasi boshqa uskunalar bilan aloqa qilish uchun TCP/IP dan
foydalanadigan har qanday qurilmaga ishora qiladi .
IP manziliga misol
147.120.3.280
Axborotni izlash va ajratishda sodda bayes algoritmlari
Qulaylik uchun raqamli IP-manzillar uchun odatiy nomlar taklif qilingan -
domen nomlari ( domen ). mezbon ism ).
Domen nomlarida yuqori darajadagi tarmoq nomi o'ng tomonda joylashgan .
Domen nomining oxirgi qismi identifikator yoki birinchi darajali domen deb
ataladi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
darajadagi domen mamlakatga ishora qiladi .
uchun yuqori darajadagi domen odatda veb- saytga egalik qiluvchi tashkilot
turini belgilaydi .
Masalan,
• gov - davlat kompyuterlari uchun;
• edu - ta'lim muassasalari uchun;
• org - muassasalar va xususiy kompaniyalarni aniqlash
• com - tijorat tashkilotlari (firma va kompaniyalar) uchun.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Domen nomi kompyuterga qulay raqamli IP manzilga aylantiriladi.

Ushbu maxsus xizmat - Domen Ism Tizim ( DNS - domen nomi tizimi). U
har bir kompyuterning ramziy domen nomi uchun mos IP-manzilni o'z ichiga
olgan ma'lumotlar bazasiga ega.
Axborotni izlash va ajratishda sodda bayes algoritmlari
URL Internetdagi axborot resurslariga to'g'ridan-to'g'ri ko'rsatgichdir .
URL manzili quyidagicha ko'rinadi:
Protokol:// server_address/path/fayl_name
ServerAddress - bu ma'lumotlarni joylashtiradigan kompyuterning domen
nomi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Path - bu katalog va pastki katalog nomlari ketma-ketligi bo'lib, ularning
oxirgisi kerakli faylni o'z ichiga oladi. Katalog nomlari slash (/) bilan ajratiladi.
Fayl nomi biz izlayotgan maqsadli fayl (hujjat) nomidir. U maxsus
kengaytmaga ega bo'lishi kerak. Veb- sahifa nomlarida html kengaytmasi , ilmiy
maqola fayl nomlarida pdf kengaytmasi , multimedia hujjat nomlarida gif , jpeg
(grafik), wav , au (ovoz), avi (video) kengaytmalari mavjud.
Axborotni izlash va ajratishda sodda bayes algoritmlari
To liq URL juda uzun. Uning to'g'ridan-to'g'ri to'plami juda noqulay vaʻ
bundan tashqari, xatolar bilan to'la. Shuning uchun, eng keng qamrovli va muhim
Internet -xizmatida, World Wide Web, giperhavola apparati ishlatiladi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Internetda axborot izlash ikki usulda amalga oshiriladi.
1. Qidiruv mexanizmlari.
2. Tematik ma'lumotnomalar.
Qidiruv tizimiga misollar: GOOGLE , Yandex .
Axborotni izlash va ajratishda sodda bayes algoritmlari
PM quyidagi 5 ta quyi tizimdan iborat.
1.O'rgimchak _ ("o'rgimchak") - qidiruv tizimiga veb- sahifalarni
yuklaydigan dastur . Foydalanuvchining kompyuterida o'rnatilgan brauzerga
o'xshash ishlaydi, lekin hech qanday ekranda hech narsa ko'rsatmaydi. Agar siz

o'rgimchak qidiruv tizimiga nima yuklayotgani haqida tasavvurga ega bo'lishni
istasangiz, veb- sahifani oching va brauzerning Ko'rish menyusidan HTMLni
ko'rish-ni tanlang.
Internetda Axborotni izlash va ajratishda sodda bayes algoritmlarima'lumot
qidirish
• Crawler ("qurt", yoki "sayohatchi o'rgimchak") - veb- sahifada boshqa
sahifalarga barcha havolalarni topadigan dastur . Uning vazifasi havolalar yoki
oldindan belgilangan manzillar ro'yxatiga asoslanib, "o'rgimchak" keyingi qayerda
sudralishi kerakligini aniqlashdir.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Indeksator (indexer) - sahifani uning tarkibiy qismlariga "ajraladigan" va
ularni tahlil qiladigan dastur. Web- sahifalarning sarlavhalari , hujjat sarlavhalari,
havolalar, hujjatlar matni, alohida-alohida - qalin, kursiv va hokazolar alohida
ajratiladi va tahlil qilinadi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
• Ma'lumotlar bazasi (ma'lumotlar bazasi) - qidiruv tizimi yuklab oladigan va
tahlil qiladigan barcha ma'lumotlar ombori. Saqlash uchun ham, keyinchalik qayta
ishlash uchun ham katta resurslarni talab qiladi.
• Qidiruv dvigatel Natijalar dvigatel (qidiruv natijalari tizimi ) qaysi
sahifalar foydalanuvchi so rovini qanoatlantirishini va qay darajadaligini halʻ
qiladi. Qidiruv tizimining ushbu qismi bilan foydalanuvchi "muloqot qiladi".
Internetda ma'lumot qidirish
Qidiruv tizimi, qidiruv so'rovini olgandan so'ng, ba'zi foydalanuvchilar
ishonganidek, Butunjahon Internet tarmog'ida uzoq safarga bormaydi , lekin faqat
ilgari to'plangan ma'lumotlarni tahlil qiladi .
Internetdan ma'lumotlarni yuklab olish va uning qidiruv tizimi tomonidan
dastlabki tahlil qilish jarayoni indeksatsiya deb ataladi va to'plangan ma'lumotlar
saqlanadigan qidiruv tizimining ma'lumotlar bazasining o'zi indeks deb ataladi .
Axborot va fayllarni izlash va ajratish printsiplari

Axborot olish atamasining ma'nosi ( axborot olish - IR) juda keng bo'lishi
mumkin.
Hatto uning raqamini bilish uchun hamyoningizdan kredit kartani olib
qo'yish allaqachon Axborotni izlash va ajratishda sodda bayes algoritmlarining bir
turi sifatida talqin qilinishi mumkin.
Axborot qidirish (IR) - bu axborotga bo'lgan ehtiyojni qondiradigan ba'zi
tuzilmagan materiallar (odatda hujjat) uchun katta to'plamni ( odatda kompyuter
xotirasida saqlanadi ) qidirish jarayoni .
Axborotni izlash va ajratishda sodda bayes algoritmlari
“ Tuzilishsiz ma lumotlar ” deganda biz aniq, semantik jihatdan ravshan vaʼ
kompyuterda amalga oshirish oson bo lgan tuzilishga ega bo lmagan
ʻ ʻ
ma lumotlarni nazarda tutamiz .
ʼ
Ular tuzilgan ma'lumotlarga qarama-qarshi bo'lib, relyatsion ma'lumotlar
bazalari kanonik misoldir .
Aslida, to'liq "tuzilmagan ma'lumotlar" amalda mavjud emas. Masalan,
oddiy matnli ma'lumotlar tabiiy tillar uchun xos bo'lgan yashirin
Axborotni izlash va ajratishda sodda bayes algoritmlari
Qidiruv tizimining maqsadi - foydalanuvchi tomonidan bir martalik so'rovlar
orqali tizimga etkazilgan o'zboshimchalik bilan ma'lumot ehtiyojlariga eng mos
keladigan hujjatlarni to'plamdan topish .
qidiruv amalga oshiriladigan hujjatlar guruhini to'plam deb ataymiz.
(to'plam). U ba'zan tana ( korpus ) yoki matnlar majmuasi ( tana ning matnlar ).
Axborotni izlash va ajratishda sodda bayes algoritmlari
ma'lumotga ehtiyoj ( ma'lumot kerak ) - foydalanuvchi ko'proq bilmoqchi
bo'lgan mavzu.
So'rov - bu foydalanuvchi o'zining ma'lumotga bo'lgan ehtiyojini ifodalash
uchun kompyuterga kiradigan narsa.
Hujjat , agar foydalanuvchi nuqtai nazaridan, uning axborotga bo'lgan
ehtiyojini qondiradigan qimmatli ma'lumotlarni o'z ichiga olgan bo'lsa , tegishli
deb nomlanadi .

Amaldagi qidiruv texnologiyalariga ko'ra, Axborotni izlash va ajratishda
sodda bayes algoritmlarini 4 toifaga bo'lish mumkin:
1. Tematik ma'lumotnomalar;
2. Ixtisoslashgan kataloglar (onlayn kataloglar);
3. Qidiruv mexanizmlari (to‘liq matnli qidiruv);
4. Meta-qidiruv vositalari .
Axborotni izlash va ajratishda sodda bayes algoritmlari
Tematik kataloglar hujjatlarni qayta ishlash va ularni ro'yxati oldindan
belgilangan bir nechta toifalardan biriga belgilashni ta'minlaydi. Aslida, bu
tasnifga asoslangan indeksatsiya.
mashhur veb-saytlarni ko'rib chiqadigan va xulosa hujjatlarining qisqacha
tavsifini (kalit so'zlar, abstrakt, abstrakt) tuzadigan mutaxassislar yordamida qo'lda
amalga oshiriladi .
Axborotni izlash va ajratishda sodda bayes algoritmlari
va boshqalar uchun maxsus kataloglar yoki kataloglar yaratiladi.
Axborotni izlash va ajratishda sodda bayes algoritmlari to'liq matnli qidiruv
texnologiyasini amalga oshiradi. Indeks bir necha milliard hujjatlar to'g'risidagi
ma'lumotlarni o'z ichiga olishi mumkin. Misol uchun, mashhur IPS indeksi "
Google " 2 milliarddan ortiq URL manziliga ega .
Axborotni izlash va ajratishda sodda bayes algoritmlari
Meta -qidiruv vositalaridan foydalanganda so'rov bir vaqtning o'zida bir
nechta Axborotni izlash va ajratishda sodda bayes algoritmlari tomonidan amalga
oshiriladi. Qidiruv natijasi tegishlilik bo'yicha tartiblangan umumiy ro'yxatga
birlashtiriladi.
Axborotni izlash va ajratishda sodda bayes algoritmlari
PM quyidagi 5 ta quyi tizimdan iborat.
1.O'rgimchak _ ("o'rgimchak") - qidiruv tizimiga
ishlaydi , lekin hech qanday ekranda hech narsa ko'rsatmaydi.

Agar siz o'rgimchak qidiruv tizimiga nima yuklayotgani haqida tasavvurga
ega bo'lishni istasangiz, veb- sahifani oching va brauzerning Ko'rish menyusidan
HTMLni ko'rish-ni tanlang.
Axborotni izlash va ajratishda sodda bayes algoritmlari
• Crawler ("qurt", yoki "sayohatchi o'rgimchak") - veb- sahifada boshqa
sahifalarga barcha havolalarni topadigan dastur .
Uning vazifasi havolalar yoki oldindan belgilangan manzillar ro'yxatiga
asoslanib, "o'rgimchak" keyingi qayerda sudralishi kerakligini aniqlashdir.
Axborotni izlash va ajratishda sodda bayes algoritmlari
Indeksator (indexer) - sahifani uning tarkibiy qismlariga "ajraladigan" va
ularni tahlil qiladigan dastur.
Veb- sahifalarning sarlavhalari, hujjat sarlavhalari, havolalar, hujjatlar
matni, alohida - qalin, kursiv va boshqalar ajratiladi va tahlil qilinadi .
Axborotni izlash va ajratishda sodda bayes algoritmlari
• Ma'lumotlar bazasi (ma'lumotlar bazasi) - qidiruv tizimi yuklab oladigan va
tahlil qiladigan barcha ma'lumotlar ombori. Saqlash uchun ham, keyinchalik qayta
ishlash uchun ham katta resurslarni talab qiladi.
• Qidiruv Natijalar dvigatel (qidiruv natijalari tizimi ) qaysi sahifalar
foydalanuvchi so rovini qanoatlantirishini va qay darajadaligini hal qiladi.ʻ
Qidiruv tizimining ushbu qismi bilan foydalanuvchi "muloqot qiladi" .
Axborotni izlash va ajratishda sodda bayes algoritmlari
Xulosa.
Qidiruv tizimi, qidiruv so'rovini olgan holda , ba'zi foydalanuvchilar
ishonganidek, World Wide Web bo'ylab uzoq sayohatga bormaydi , lekin faqat
ilgari to'plangan va ma'lumotlar bazasida saqlangan ma'lumotlarni tahlil qiladi.
Internetdan ma'lumotlarni yuklab olish va uning qidiruv tizimi tomonidan
dastlabki tahlil qilish jarayoni indeksatsiya deb ataladi va to'plangan ma'lumotlar
saqlanadigan qidiruv tizimining ma'lumotlar bazasining o'zi indeks deb ataladi .
Internetda ma'lumot qidirish

Internetdagi ma'lumotlarga samarali kirish Alta Vista ( AltaVista ), " Lycos
", " Yahoo ", " Google ", " OpenText ", " Wais ", " WebCrawler " va boshqalar
kabi xorijiy Axborotni izlash va ajratishda sodda bayes algoritmlari (mashinalari)
tomonidan ta'minlanadi .
Rus tilidagi Axborotni izlash va ajratishda sodda bayes algoritmlariga
quyidagilar kiradi: Aport (" Aport " OAJ Agama), Rambler ( Stek ). Ltd. ), Yandeh
( ComTek tomonidan " Yandex " Int ), "Rossiya qidiruvi", "Yangi rus qidiruvi" va
boshqalar. Ularning Internetdagi manzillari: www.aport.ru, www.rambler.ru,
www.yandex.ru, search.interrussia.com, www.openweb .ru mos ravishda) va
boshqalar.
Internetda ma'lumot qidirish
Xorijiy "klassik" meta-qidiruv mexanizmlari orasida Dogpile
(www.dogpiLe.com) va Metacrawler ( www.metacrawLer.com ) , Yippy , Ixquick
Ular Google , Yahoo! _ _ Ask , LookSmart , About , FindWhat va boshqa
mashinalar.
Olingan ro'yxatlar qayta ishlanadi va dolzarbligi bo'yicha tartiblanadi .
Internetda ma'lumot qidirish
Rus tilidagi metasearch eng yaxshi Metabear / Metabot , Nigma tizimida
amalga oshiriladi . Qabul qilingan ma'lumotlar qo'shimcha ravishda o'z algoritmiga
muvofiq qayta ishlanadi. Qidiruv tizimi bir vaqtning o'zida ikkita manzilda
ishlaydi: inglizcha versiyasi metabear.com saytida, ruscha versiyasi esa metabot.ru
saytida joylashgan. Qo'llab-quvvatlanadigan Axborotni izlash va ajratishda sodda
bayes algoritmlari va kataloglari orasida Google, Yahoo! Ask ,
AltaVista , MSN, Yandex va Rambler
mantiqiy qidiruv
Mantiqiy algebraning asosiy tushunchalari.
Asosiy uchta operatsiya:
1. VA , bog‘lovchisi, AND ( ) ;˄
2. OR , dis'yunksiya, OR ( ) ;
˅
3. YO‘Q , inkor, YO‘Q ( ˉ ) .

Boolean algebrasining asosiy qoidalari.
1 VA 1 = 1
1 VA 0 = 0
0 VA 1 = 0
0 VA 0 = 0
Bulev poisk
1 YOKI 1 = 1
1 YOKI 0 = 1
0 YOKI 1 = 1
0 YOKI 0 = 0
NO 1 = 0
YO'Q 0 = 1
mantiqiy qidiruv
Ma'lumot olish misoli.
Aytaylik, bizda Shekspir pyesalari to‘plami bor.
Keling, ushbu to'plamni hujjatlar to'plami deb ataymiz .
Vazifa:
Qaysi o'yinlarda so'zlardan foydalanishni aniqlang Brutus VA Tsezar va
Kalpurniya emas
Ushbu vazifani bajarish uchun siz matnni boshidan oxirigacha o'qib
chiqishingiz va Brutus so'zlarini o'z ichiga olgan o'yinlarni belgilashingiz kerak va
Qaysar va Kalpurniya so'zi yo'q .
mantiqiy qidiruv
Ushbu muammoni hal qilishning eng oddiy kompyuter usuli - ketma-ket
skanerlash ( linear skanerlash ) to'plamdagi barcha hujjatlarni.
Bu jarayon ko'pincha oldinga qidiruv yoki ingliz tilida grepping deb ataladi .
To'g'ridan-to'g'ri matn qidirish juda samarali bo'lishi mumkin, ayniqsa zamonaviy
kompyuterlarda .
Zamonaviy kompyuterlarda o'rtacha o'lchamdagi ma'lumotlar to'plamida (bir
million so'zgacha) oddiy so'rovlarni bajarish oddiy foydalanuvchi uchun etarli.

mantiqiy qidiruv
Biroq, ko'p hollarda ko'proq narsa talab qilinadi.
1. Milliardlab va trillionlab so'zlarni o'z ichiga olgan to'plamlarda ma'lumot
izlash .
2. Romans NEAR yurtdoshlari so'rovini chiziqli so'rov bilan bajarish qiyin ,
bu erda NEAR so'zi "5 so'zdan ko'p bo'lmagan" yoki "bir jumla ichida" degan
ma'noni anglatishi mumkin.
3. Ba'zan tartiblangan qidiruvni amalga oshirish kerak. Ko'p holatlarda bizga
faqat javob emas, balki ma'lum bir so'zni o'z ichiga olgan hujjatlarga oid so'rovga
eng yaxshi javob kerak.
mantiqiy qidiruv
Bunday hollarda hujjat indeksidan foydalaniladi.
Hujjatlar indeksi hujjatni ketma-ket ko'rib chiqmaslik uchun ishlatiladi.
Buni amalga oshirish uchun, har bir hujjat uchun , biz vazifadan ma'lum bir
so'zni o'z ichiga olganligini ko'rsatadigan yozuvni yaratamiz . Barcha so'zlar uchun
yozuvlarni yaratish natijasida "so'z-hujjat" ikkilik insidans matritsasi quriladi.
Bizning vazifamizda "Shekspirning so'zli o'yini".
Bu matritsada ustun hujjat vektori, satr so'z vektori hisoblanadi.
mantiqiy qidiruv
Antoni va Kleopatra
Yuliy Tsezar
Bo'ron
Gamlet
Otello
Makbet
Entoni
bitta
bitta

0
0
0
bitta
Brutus
bitta
bitta
0
bitta
0
0
Qaysar
bitta
bitta
0
bitta
1
1
Kalpurniya
0
1
0
0
0
0
Kleopatra

1
0
0
0
0
0
rahm-shafqat
1
0
1
1
1
1
yomonroq
1
0
1
1
1
0
mantiqiy qidiruv
Muammoni hal qilish uchun biz ifodani baholashimiz kerak
Brutus VA Qaysar VA EMAS Kalpurniya
Bunda so'zlar o'rniga ushbu so'zlarning tegishli vektorlari almashtirilishi
kerak:
Brutus = 110100
Qaysar = 110111
EMAS Kalpurniya = 101111

110100 VA 110111 VA 101111
mantiqiy qidiruv
Mantiqiy algebra asosida hisob-kitoblarni bajarib, muammo vektorini olamiz
100100
Shunday qilib, javob quyidagicha ko'rinadi:
Izlangan so'zlarning birikmalari o'yinlarda mavjud
Antoni va Kleopatra va Gamlet
mantiqiy qidiruv
Endi realroq stsenariyni ko'rib chiqing. Aytaylik, bizning ixtiyorimizda N =
1 million hujjat bor.
Hujjatlar ( hujjatlar ) har qanday ob'ektlar bo'lib, ular asosida axborot-
qidiruv tizimini qurishga qaror qilinadi. Hujjatlar shaxsiy eslatmalar yoki kitob
bo'limlari bo'lishi mumkin.
Qidiriladigan hujjatlar guruhi to'plam deb ataladi .
Aytaylik , har bir hujjat 1000 ga yaqin so‘zdan iborat (2-3 kitob sahifasi).
mantiqiy qidiruv
Agar so'zni saqlash uchun bo'sh joylar va tinish belgilarini o'z ichiga olgan
holda o'rtacha 6 bayt ajratilgan deb hisoblasak, bunday hujjatlar to'plami taxminan
6 GB (GB ) ni oladi.
Bunday hujjatlarda M = 500 000 ga yaqin turli atamalar bo'lishi mumkin.
Endi biz atama-hujjat matritsasini sodda tarzda yarata olmaymiz. 500 K x 1
M matritsada yarim trillion nol va birlar mavjud bo'lib, ular kompyuter xotirasiga
sig'ish uchun juda katta .
mantiqiy qidiruv
Biroq, insidans matritsasi juda siyrak, ya'ni. faqat oz sonli nolga teng
bo'lmagan elementlarni o'z ichiga oladi. Har bir hujjat 1000 ta so zdan iboratʻ
bo lganligi sababli, matritsada bir milliarddan ko p bo lmagan 1 bo ladi, shuning
ʻ ʻ ʻ ʻ
uchun kamida 99,8% katakchalarda nol bo ladi .
ʻ
Xotirada faqat birliklarni saqlash ancha maqsadga muvofiqdir .

Bu g'oya axborotni izlashda birinchi muhim kontseptsiya - teskari indeks
uchun asosdir.
Invert indeks yaratish uchun birinchi urinish
Invert indeksni yaratish jarayoni quyidagi bosqichlardan iborat.
1. Biz indeksatsiya qilinadigan hujjatlarni yig'amiz . Ya'ni, biz to'plamni
shakllantiramiz.
tokenlar ( tokenlar ) ro yxatiga aylantirish orqali matnni belgilang .ʻ
3 Biz dastlabki lingvistik ishlovni amalga oshiramiz , indekslangan atamalar
bo'lgan normalangan leksemalar ro'yxatini tuzamiz .
lug'at va so'z pozitsiyalaridan iborat teskari indeksni yaratib, atama
uchraydigan hujjatlarni indekslaymiz .
mantiqiy qidiruv
Dastlabki uchta qadam allaqachon bajarilgan deb faraz qiling va tartiblangan
indekslash asosida teskari indeks yaratish jarayonini ko'rib chiqing .
Hujjatlar to'plamida har bir hujjat hujjat identifikatori ( docID ) deb
ataladigan noyob seriya raqamiga
mantiqiy qidiruv
Aytaylik, bizning kollektsiyamiz ikkita hujjatdan iborat:
Doc 1. Men Yuliy Tsezarni ijro etdim. Men Kapitoliyda o'ldirildim ; Brutus
meni o'ldirdi.
Doc 2. Shunday qilib, Qaysar bilan bo'lsin. Olijanob Brutus
shlyapa sizga Qaysar ambitsiyali ekanligini aytdi:
Keling, jadval tuzamiz, uning birinchi ustuniga barcha shartlarni yozamiz.
Dastlabki uch bosqichni ko‘rib chiqmaganimiz uchun matndagi barcha so‘zlarni
normalashgan leksema deb hisoblab yozamiz.
mantiqiy qidiruv
Keyin biz birinchi belgini olamiz va to'plamning barcha matnlarini ko'rib
chiqamiz. Keyingi ustunda biz ushbu token topilgan hujjatning identifikatorini
yozamiz.

Shunday qilib, barcha tokenlar uchun “leksema – hujjat identifikatori”
juftlarini aniqlaymiz.
Xuddi shu leksemaning juftlarini birlashtiramiz, mos ravishda ikkinchi
ustunda unga mos keladigan aniqlovchilarni sanab o'tamiz. Ikkinchi ustunda
olingan hujjat identifikatorlarining ro'yxati so'z pozitsiyalari ro'yxati deb ataladi.
mantiqiy qidiruv
Keyin olingan jadvalni alfavit tartibida tokenlar bo'yicha tartiblaymiz.
har bir muddat uchun
Natijada barcha tokenlar uchun tartiblangan juftliklar to'plamining teskari
indeksi deyiladi .
Hujjatdagi leksemalar to'plami va unga mos keladigan chastota yoki
koordinata qiymatlari to'plami lug'at yoki leksika deb ataladi.
Jismoniy jihatdan lug'atlar operativ xotirada, so'z o'rinlari ro'yxati esa qattiq
diskda (qattiq diskda) saqlanadi.
Boolean so'rovlarni boshqarish
Qanday qilib so'rovlar teskari indeks va asosiy mantiqiy qidiruv modeli bilan
ishlanadi ?
Aytaylik, bizda Shekspir pyesalari to‘plamining teskari ko‘rsatkichi bor.
Brutus _ 1 → 2 → 4 → 11 → 31 → 45 → 173 → 174
Kalpurniya - 2 → 31 → 54 → 101
Oddiy kon'yunktiv so'rovni qayta ishlashni ko'rib chiqing ( oddiy
kon'yunktiv so'rov)
Brutus va Kalpurniya
mantiqiy qidiruv
Brutus atamasini lug‘atdan topamiz .
2. Uning so‘z o‘rinlari ro‘yxatini toping.
Kalpurniya atamasini lug‘atda topamiz .
so'z pozitsiyalari ro'yxatini toping .
5. Ushbu ikki ro‘yxatning kesishgan joyini toping
Kesishma - 2 → 31

mantiqiy qidiruv
So'rovlarni optimallashtirish - bu tizim bajarishi kerak bo'lgan umumiy ish
hajmini minimallashtirish uchun so'rovlarni qayta ishlashni qanday tashkil qilishni
tanlashdir.
asosiy omil - bu e'lonlar ro'yxatiga kirish tartibi.
So'rovni qayta ishlash uchun eng yaxshi buyurtma nima ?
AND amali bilan birlashtirilgan t atamalardan iborat so'rovni ko'rib chiqing.
Masalan,
Brutus VA Tsezar VA Kalpurniya
mantiqiy qidiruv
Amalda standart evristik qo'llaniladi, ya'ni atamalar hujjatlar chastotasining
ortib borish tartibida qayta ishlanadi;
agar biz so'z pozitsiyalarining ikkita eng kichik ro'yxatining kesishmasidan
boshlasak, unda barcha oraliq natijalar so'z pozitsiyalarining eng kichik ro'yxatidan
oshmasligi kerak, ya'ni biz eng kam ish hajmini qilamiz .
Brutus − 1 →2 →4 →11→ 31 →45 →173→ 174
Sezar - 1→2→ 4→ 5→ 6 →16 →57→ 132. . .
Kalpurniya - 2→ 31→ 54→ 101

Foydalanilgan adabiyotlar
1. Joys, Jeyms (2003), "Bayes teoremasi" , Zaltada, Edvard N. (tahr.),
Stenford falsafa ensiklopediyasi (bahor, 2019 yil nashri), Stenford
universiteti, Metafizika tadqiqot laboratoriyasi , olingan 17-01-2020
2. Jeffreys, ser Garold (1973). Ilmiy xulosa . Kembrij: Universitet
matbuotida. OCLC 764571529 .
3. Styuart, A.; Ord, K. (1994), Kendallning ilg'or statistik nazariyasi: I
jild – taqsimlash nazariyasi , Edvard Arnold , §8.7
4. Kolmogorov, AN (1933). Ehtimollar nazariyasi asoslari . Chelsi
nashriyot kompaniyasi (1956 yil nashri).
5. Taraldsen, Gunnar; Tufto, Jarle; Lindqvist, Bo X. (2021-07-24).
"Noto'g'ri oldingi va noto'g'ri posteriorlar" . Skandinaviya statistika
jurnali . 49 (3): 969–991. doi : 10.1111/sjos.12550 . ISSN 0303-6898 .
S2CID 237736986 .
6. Robert, Kristian P.; Casella, Jorj (2004). Monte-Karloning statistik
usullari . Springer. ISBN 978-1-4757-4145-2. OCLC 1159112760 .
7. Li, Piter M. (2012). "1-bob" . Bayes statistikasi . Wiley . ISBN 978-1-
1183-3257-3.
8. "Bayes teoremasi: Kirish" . Trinity universiteti . 2004 yil 21 avgustda
asl nusxadan arxivlangan . 2014 -yil 5-avgustda olingan .
9. Audun Josang, 2016, Subyektiv mantiq; Noaniqlik sharoitida fikr
yuritish uchun rasmiyatchilik. Springer, Cham, ISBN 978-3-319-
42337-1
10. Audun Josang, 2016, Subyektiv mantiqda Bayes teoremasini
umumlashtirish . Intellektual tizimlar uchun multisensorli
termoyadroviy va integratsiya bo'yicha IEEE xalqaro konferentsiyasi
(MFI 2016), Baden-Baden, 2016 yil sentyabr

Mavzu: Beys formulasi. Beys usulini ma’lumotlar tahlilida qo‘llanilishi Reja: 1. Axborotni izlash va ajratishda sodda bayes algoritmlari. 2. Axborot va fayllarni izlash va ajratish printsiplari. 3. Axborotlarni izlash va ajratish vektorlarning usul va algorit

Ehtimollar nazariyasi va statistikada Tomas Bayes nomi bilan atalgan Bayes teoremasi (muqobil ravishda Bayes qonuni yoki Bayes qoidasi ) hodisa bilan bog liq bo lishi mumkin bo lgan shart-sharoitlar to g risida oldindan ma lumotgaʻ ʻ ʻ ʻ ʻ ʼ asoslangan holda hodisa ehtimolini tavsiflaydi. Misol uchun, agar sog'liq muammolarini rivojlanish xavfi yoshga qarab ortib borishi ma'lum bo'lsa, Bayes teoremasi ma'lum yoshdagi odam uchun xavfni shunchaki taxmin qilishdan ko'ra aniqroq baholashga imkon beradi (uning yoshiga qarab). individ butun aholiga xosdir. Bayes teoremasining ko'plab qo'llanilishidan biri bu Bayes xulosasi , statistik xulosaga alohida yondashuv. Qo'llanilganda, teoremaga kiritilgan ehtimollar turli xil ehtimollik talqinlariga ega bo'lishi mumkin. Bayes ehtimollik talqini bilan teorema, ehtimollik sifatida ifodalangan e'tiqod darajasi tegishli dalillar mavjudligini hisobga olish uchun qanday qilib oqilona o'zgarishi kerakligini ifodalaydi. Bayes xulosasi Bayes statistikasi uchun asos bo'lib, bir hokimiyat tomonidan ko'rib chiqiladi; "ehtimollar nazariyasiga Pifagor teoremasi geometriya uchun qanday bo'lsa". Axborotni izlash va ajratishda sodda bayes algoritmlari Internet ko'plab heterojen mahalliy kompyuter tarmoqlarini birlashtirgan global tarmoqdir. Internetdagi qabul qiluvchi kompyuterda paketlarni uzatish va yig'ish tartibi TCP/IP protokollar to'plami ( uzatish ) bilan belgilanadi. boshqaruv Protokol / Internet Protokol - uzatishni boshqarish protokoli/internet protokoli). Axborotni izlash va ajratishda sodda bayes algoritmlari TCP protokollariga http (gipermatnni uzatish protokoli ), ftp (fayl uzatish protokoli ) Axborotni izlash va ajratishda sodda bayes algoritmlari Internetdagi har bir kompyuter o'z IP manziliga ega bo'lishi kerak. Bundan tashqari, bu manzil noyob bo'lishi kerak. IP manzil nuqta bilan ajratilgan to'rtta raqamdan iborat ketma-ketlikdir .

Ushbu raqamlarning har biri bir bayt mashina xotirasini egallaydi va shuning uchun 0 dan 255 gacha qiymatlarni qabul qilishi mumkin (masalan, 147.120.3.28 va boshqalar). Eng chap raqam - eng yuqori darajali tarmoq raqami. Axborotni izlash va ajratishda sodda bayes algoritmlari Keyingi ikkita raqam pastki tarmoq segmentlarini ifodalaydi va oxirgi raqam ma'lum bir tarmoqqa ulangan kompyuterni yoki xostni ( host ) belgilaydi. Umuman olganda, "host" atamasi boshqa uskunalar bilan aloqa qilish uchun TCP/IP dan foydalanadigan har qanday qurilmaga ishora qiladi . IP manziliga misol 147.120.3.280 Axborotni izlash va ajratishda sodda bayes algoritmlari Qulaylik uchun raqamli IP-manzillar uchun odatiy nomlar taklif qilingan - domen nomlari ( domen ). mezbon ism ). Domen nomlarida yuqori darajadagi tarmoq nomi o'ng tomonda joylashgan . Domen nomining oxirgi qismi identifikator yoki birinchi darajali domen deb ataladi. Axborotni izlash va ajratishda sodda bayes algoritmlari darajadagi domen mamlakatga ishora qiladi . uchun yuqori darajadagi domen odatda veb- saytga egalik qiluvchi tashkilot turini belgilaydi . Masalan, • gov - davlat kompyuterlari uchun; • edu - ta'lim muassasalari uchun; • org - muassasalar va xususiy kompaniyalarni aniqlash • com - tijorat tashkilotlari (firma va kompaniyalar) uchun. Axborotni izlash va ajratishda sodda bayes algoritmlari Domen nomi kompyuterga qulay raqamli IP manzilga aylantiriladi.

Ushbu maxsus xizmat - Domen Ism Tizim ( DNS - domen nomi tizimi). U har bir kompyuterning ramziy domen nomi uchun mos IP-manzilni o'z ichiga olgan ma'lumotlar bazasiga ega. Axborotni izlash va ajratishda sodda bayes algoritmlari URL Internetdagi axborot resurslariga to'g'ridan-to'g'ri ko'rsatgichdir . URL manzili quyidagicha ko'rinadi: Protokol:// server_address/path/fayl_name ServerAddress - bu ma'lumotlarni joylashtiradigan kompyuterning domen nomi. Axborotni izlash va ajratishda sodda bayes algoritmlari Path - bu katalog va pastki katalog nomlari ketma-ketligi bo'lib, ularning oxirgisi kerakli faylni o'z ichiga oladi. Katalog nomlari slash (/) bilan ajratiladi. Fayl nomi biz izlayotgan maqsadli fayl (hujjat) nomidir. U maxsus kengaytmaga ega bo'lishi kerak. Veb- sahifa nomlarida html kengaytmasi , ilmiy maqola fayl nomlarida pdf kengaytmasi , multimedia hujjat nomlarida gif , jpeg (grafik), wav , au (ovoz), avi (video) kengaytmalari mavjud. Axborotni izlash va ajratishda sodda bayes algoritmlari To liq URL juda uzun. Uning to'g'ridan-to'g'ri to'plami juda noqulay vaʻ bundan tashqari, xatolar bilan to'la. Shuning uchun, eng keng qamrovli va muhim Internet -xizmatida, World Wide Web, giperhavola apparati ishlatiladi. Axborotni izlash va ajratishda sodda bayes algoritmlari Internetda axborot izlash ikki usulda amalga oshiriladi. 1. Qidiruv mexanizmlari. 2. Tematik ma'lumotnomalar. Qidiruv tizimiga misollar: GOOGLE , Yandex . Axborotni izlash va ajratishda sodda bayes algoritmlari PM quyidagi 5 ta quyi tizimdan iborat. 1.O'rgimchak _ ("o'rgimchak") - qidiruv tizimiga veb- sahifalarni yuklaydigan dastur . Foydalanuvchining kompyuterida o'rnatilgan brauzerga o'xshash ishlaydi, lekin hech qanday ekranda hech narsa ko'rsatmaydi. Agar siz

o'rgimchak qidiruv tizimiga nima yuklayotgani haqida tasavvurga ega bo'lishni istasangiz, veb- sahifani oching va brauzerning Ko'rish menyusidan HTMLni ko'rish-ni tanlang. Internetda Axborotni izlash va ajratishda sodda bayes algoritmlarima'lumot qidirish • Crawler ("qurt", yoki "sayohatchi o'rgimchak") - veb- sahifada boshqa sahifalarga barcha havolalarni topadigan dastur . Uning vazifasi havolalar yoki oldindan belgilangan manzillar ro'yxatiga asoslanib, "o'rgimchak" keyingi qayerda sudralishi kerakligini aniqlashdir. Axborotni izlash va ajratishda sodda bayes algoritmlari Indeksator (indexer) - sahifani uning tarkibiy qismlariga "ajraladigan" va ularni tahlil qiladigan dastur. Web- sahifalarning sarlavhalari , hujjat sarlavhalari, havolalar, hujjatlar matni, alohida-alohida - qalin, kursiv va hokazolar alohida ajratiladi va tahlil qilinadi. Axborotni izlash va ajratishda sodda bayes algoritmlari • Ma'lumotlar bazasi (ma'lumotlar bazasi) - qidiruv tizimi yuklab oladigan va tahlil qiladigan barcha ma'lumotlar ombori. Saqlash uchun ham, keyinchalik qayta ishlash uchun ham katta resurslarni talab qiladi. • Qidiruv dvigatel Natijalar dvigatel (qidiruv natijalari tizimi ) qaysi sahifalar foydalanuvchi so rovini qanoatlantirishini va qay darajadaligini halʻ qiladi. Qidiruv tizimining ushbu qismi bilan foydalanuvchi "muloqot qiladi". Internetda ma'lumot qidirish Qidiruv tizimi, qidiruv so'rovini olgandan so'ng, ba'zi foydalanuvchilar ishonganidek, Butunjahon Internet tarmog'ida uzoq safarga bormaydi , lekin faqat ilgari to'plangan ma'lumotlarni tahlil qiladi . Internetdan ma'lumotlarni yuklab olish va uning qidiruv tizimi tomonidan dastlabki tahlil qilish jarayoni indeksatsiya deb ataladi va to'plangan ma'lumotlar saqlanadigan qidiruv tizimining ma'lumotlar bazasining o'zi indeks deb ataladi . Axborot va fayllarni izlash va ajratish printsiplari

O'xshashlar

EHTIMOLLARNI QO‘SHISH FORMULASI VA UNING UMUMLASHMALARI

Aniq integrallarni taqribiy hisoblash. To'g'ri to'rtburchak usulini dasturini ishlab chiqish

DOIMIY MA’LUMOTLAR SUTRUKTURASI

ALGORITMLAR VA MA’LUMOTLAR

ETNIK JARAYONLAR ARXEOLGIK MADANIYATLAR TAHLILIDA TADQIQOT MUAMMOLARI VA ISTIQBOLI (O’RTA OSIYO TOSH ASRI MISOLIDA)