Beys formulasi. Beys usulini ma’lumotlar tahlilida qo‘llanilishi
Mavzu: Beys formulasi. Beys usulini ma’lumotlar tahlilida qo‘llanilishi Reja: 1. Axborotni izlash va ajratishda sodda bayes algoritmlari. 2. Axborot va fayllarni izlash va ajratish printsiplari. 3. Axborotlarni izlash va ajratish vektorlarning usul va algorit
Ehtimollar nazariyasi va statistikada Tomas Bayes nomi bilan atalgan Bayes teoremasi (muqobil ravishda Bayes qonuni yoki Bayes qoidasi ) hodisa bilan bog liq bo lishi mumkin bo lgan shart-sharoitlar to g risida oldindan ma lumotgaʻ ʻ ʻ ʻ ʻ ʼ asoslangan holda hodisa ehtimolini tavsiflaydi. Misol uchun, agar sog'liq muammolarini rivojlanish xavfi yoshga qarab ortib borishi ma'lum bo'lsa, Bayes teoremasi ma'lum yoshdagi odam uchun xavfni shunchaki taxmin qilishdan ko'ra aniqroq baholashga imkon beradi (uning yoshiga qarab). individ butun aholiga xosdir. Bayes teoremasining ko'plab qo'llanilishidan biri bu Bayes xulosasi , statistik xulosaga alohida yondashuv. Qo'llanilganda, teoremaga kiritilgan ehtimollar turli xil ehtimollik talqinlariga ega bo'lishi mumkin. Bayes ehtimollik talqini bilan teorema, ehtimollik sifatida ifodalangan e'tiqod darajasi tegishli dalillar mavjudligini hisobga olish uchun qanday qilib oqilona o'zgarishi kerakligini ifodalaydi. Bayes xulosasi Bayes statistikasi uchun asos bo'lib, bir hokimiyat tomonidan ko'rib chiqiladi; "ehtimollar nazariyasiga Pifagor teoremasi geometriya uchun qanday bo'lsa". Axborotni izlash va ajratishda sodda bayes algoritmlari Internet ko'plab heterojen mahalliy kompyuter tarmoqlarini birlashtirgan global tarmoqdir. Internetdagi qabul qiluvchi kompyuterda paketlarni uzatish va yig'ish tartibi TCP/IP protokollar to'plami ( uzatish ) bilan belgilanadi. boshqaruv Protokol / Internet Protokol - uzatishni boshqarish protokoli/internet protokoli). Axborotni izlash va ajratishda sodda bayes algoritmlari TCP protokollariga http (gipermatnni uzatish protokoli ), ftp (fayl uzatish protokoli ) Axborotni izlash va ajratishda sodda bayes algoritmlari Internetdagi har bir kompyuter o'z IP manziliga ega bo'lishi kerak. Bundan tashqari, bu manzil noyob bo'lishi kerak. IP manzil nuqta bilan ajratilgan to'rtta raqamdan iborat ketma-ketlikdir .
Ushbu raqamlarning har biri bir bayt mashina xotirasini egallaydi va shuning uchun 0 dan 255 gacha qiymatlarni qabul qilishi mumkin (masalan, 147.120.3.28 va boshqalar). Eng chap raqam - eng yuqori darajali tarmoq raqami. Axborotni izlash va ajratishda sodda bayes algoritmlari Keyingi ikkita raqam pastki tarmoq segmentlarini ifodalaydi va oxirgi raqam ma'lum bir tarmoqqa ulangan kompyuterni yoki xostni ( host ) belgilaydi. Umuman olganda, "host" atamasi boshqa uskunalar bilan aloqa qilish uchun TCP/IP dan foydalanadigan har qanday qurilmaga ishora qiladi . IP manziliga misol 147.120.3.280 Axborotni izlash va ajratishda sodda bayes algoritmlari Qulaylik uchun raqamli IP-manzillar uchun odatiy nomlar taklif qilingan - domen nomlari ( domen ). mezbon ism ). Domen nomlarida yuqori darajadagi tarmoq nomi o'ng tomonda joylashgan . Domen nomining oxirgi qismi identifikator yoki birinchi darajali domen deb ataladi. Axborotni izlash va ajratishda sodda bayes algoritmlari darajadagi domen mamlakatga ishora qiladi . uchun yuqori darajadagi domen odatda veb- saytga egalik qiluvchi tashkilot turini belgilaydi . Masalan, • gov - davlat kompyuterlari uchun; • edu - ta'lim muassasalari uchun; • org - muassasalar va xususiy kompaniyalarni aniqlash • com - tijorat tashkilotlari (firma va kompaniyalar) uchun. Axborotni izlash va ajratishda sodda bayes algoritmlari Domen nomi kompyuterga qulay raqamli IP manzilga aylantiriladi.
Ushbu maxsus xizmat - Domen Ism Tizim ( DNS - domen nomi tizimi). U har bir kompyuterning ramziy domen nomi uchun mos IP-manzilni o'z ichiga olgan ma'lumotlar bazasiga ega. Axborotni izlash va ajratishda sodda bayes algoritmlari URL Internetdagi axborot resurslariga to'g'ridan-to'g'ri ko'rsatgichdir . URL manzili quyidagicha ko'rinadi: Protokol:// server_address/path/fayl_name ServerAddress - bu ma'lumotlarni joylashtiradigan kompyuterning domen nomi. Axborotni izlash va ajratishda sodda bayes algoritmlari Path - bu katalog va pastki katalog nomlari ketma-ketligi bo'lib, ularning oxirgisi kerakli faylni o'z ichiga oladi. Katalog nomlari slash (/) bilan ajratiladi. Fayl nomi biz izlayotgan maqsadli fayl (hujjat) nomidir. U maxsus kengaytmaga ega bo'lishi kerak. Veb- sahifa nomlarida html kengaytmasi , ilmiy maqola fayl nomlarida pdf kengaytmasi , multimedia hujjat nomlarida gif , jpeg (grafik), wav , au (ovoz), avi (video) kengaytmalari mavjud. Axborotni izlash va ajratishda sodda bayes algoritmlari To liq URL juda uzun. Uning to'g'ridan-to'g'ri to'plami juda noqulay vaʻ bundan tashqari, xatolar bilan to'la. Shuning uchun, eng keng qamrovli va muhim Internet -xizmatida, World Wide Web, giperhavola apparati ishlatiladi. Axborotni izlash va ajratishda sodda bayes algoritmlari Internetda axborot izlash ikki usulda amalga oshiriladi. 1. Qidiruv mexanizmlari. 2. Tematik ma'lumotnomalar. Qidiruv tizimiga misollar: GOOGLE , Yandex . Axborotni izlash va ajratishda sodda bayes algoritmlari PM quyidagi 5 ta quyi tizimdan iborat. 1.O'rgimchak _ ("o'rgimchak") - qidiruv tizimiga veb- sahifalarni yuklaydigan dastur . Foydalanuvchining kompyuterida o'rnatilgan brauzerga o'xshash ishlaydi, lekin hech qanday ekranda hech narsa ko'rsatmaydi. Agar siz
o'rgimchak qidiruv tizimiga nima yuklayotgani haqida tasavvurga ega bo'lishni istasangiz, veb- sahifani oching va brauzerning Ko'rish menyusidan HTMLni ko'rish-ni tanlang. Internetda Axborotni izlash va ajratishda sodda bayes algoritmlarima'lumot qidirish • Crawler ("qurt", yoki "sayohatchi o'rgimchak") - veb- sahifada boshqa sahifalarga barcha havolalarni topadigan dastur . Uning vazifasi havolalar yoki oldindan belgilangan manzillar ro'yxatiga asoslanib, "o'rgimchak" keyingi qayerda sudralishi kerakligini aniqlashdir. Axborotni izlash va ajratishda sodda bayes algoritmlari Indeksator (indexer) - sahifani uning tarkibiy qismlariga "ajraladigan" va ularni tahlil qiladigan dastur. Web- sahifalarning sarlavhalari , hujjat sarlavhalari, havolalar, hujjatlar matni, alohida-alohida - qalin, kursiv va hokazolar alohida ajratiladi va tahlil qilinadi. Axborotni izlash va ajratishda sodda bayes algoritmlari • Ma'lumotlar bazasi (ma'lumotlar bazasi) - qidiruv tizimi yuklab oladigan va tahlil qiladigan barcha ma'lumotlar ombori. Saqlash uchun ham, keyinchalik qayta ishlash uchun ham katta resurslarni talab qiladi. • Qidiruv dvigatel Natijalar dvigatel (qidiruv natijalari tizimi ) qaysi sahifalar foydalanuvchi so rovini qanoatlantirishini va qay darajadaligini halʻ qiladi. Qidiruv tizimining ushbu qismi bilan foydalanuvchi "muloqot qiladi". Internetda ma'lumot qidirish Qidiruv tizimi, qidiruv so'rovini olgandan so'ng, ba'zi foydalanuvchilar ishonganidek, Butunjahon Internet tarmog'ida uzoq safarga bormaydi , lekin faqat ilgari to'plangan ma'lumotlarni tahlil qiladi . Internetdan ma'lumotlarni yuklab olish va uning qidiruv tizimi tomonidan dastlabki tahlil qilish jarayoni indeksatsiya deb ataladi va to'plangan ma'lumotlar saqlanadigan qidiruv tizimining ma'lumotlar bazasining o'zi indeks deb ataladi . Axborot va fayllarni izlash va ajratish printsiplari