KOMPYUTER LINGVISTIKASIDA METODLAR


KOMPY UTER LIN GV ISTIKASIDA METODLA R Reja: 1. Statistik tahlili metodi haqida. 2. Modellashtirish metodi haqida.
Statistik tahlil metodi boshqa fanlar qatori tilshunoslik fani uchun ham muhim ahamiyatga ega. Bunda tilda mavjud hodisalar aniq matematik parametrlarda baholanadi, tekshiriladi. Statistika lotincha «status» so'zidan olingan bo'lib, hodisalarning holati, ahvolini bildiradi. «Status» so‘zidan «stato» - davlat, «statusta» - davlatni biluvchi, «statustica» - davlat to'g'risida muayyan bilim, ma’lumotlar yig‘indisi ma’nosini bildiruvchi so'zlar kelib chiqqan. 1 Bundan 3500 yil oldin Qadimgi Misrda o‘tkazilgan aholi hisobi, Rossiyada Pyotr I davridagi «aholi taftishi», Angliyadagi «Dahshatli sud kitobi» kabilar dastlabki statistik ma’lumotlardir. XVII asrda Angliyada yuzaga kelgan «siyosiy arifmetika» (U.Petti va Jon Grauntlar nomi bilan bog‘liq) fani statistikaning shakllanishiga asos bo'lgan. Statistika ijtimoiy hodisalarning miqdoriy tomonlarini ularning sifat tomonlari bilan uzviy aloqadorlikda o'rganuvchi fandir. Hodisalar ning sifat tomonlarini maxsus fanlar o'rganadi. Xususan, tovushlar, so'zlar, gaplarni lingvistika, qofiya, ritm, vazn, she’r tuzilishini adabiyotshunoslik, organik hayotni biologiya, yer qatlamlari va boyliklarini geologiya kabi fanlar o'rganadi. Statistika esa ushbu hodisalarni miqdoriy parametrlar aso- sida o'rganadi. Bunda statistika hodisalarni turli omillar ta’siridagi o'zgaruvchanlik xususiyatini - variatsiyasini e’tiborga oladi. Shu jihatdan statistik ma’lumotlar hodisalar rivojining dinamikasini aks 1 Abdullayev Y. Statistika nazariyasi. - Toshkent, 2002. - B.4 - 5
ettira oladi. Lekin sliu o'rinda aytib o‘tish lozimki, statistikaga yagona mutlaq haqiqat deb yondashish, statistik ma’lumotlarga haddan tashqari ishonish ham to‘g‘ri emas. Ayrim yolg‘on faktik materiallarga asoslanib tayyorlangan statistik ma’lumotlar hodisalar haqida xato tushunchalar berishi mumkin. Shu ma’noda statistika yuzasidan shunday hazilomuz gap aytiladi: « Yolg ‘onning uch turi bor: a) yolg‘on; b) g'irt yo'lg'on; c) statistika». Statistikaning til hodisalariga tatbiq etilishi natijasida lingvostatistika sohasi shakllandi, unda til birliklari, lisoniy hodisalar, matnlar statistik tah- lil etiladi. Matnning statistik tahlili - tilni ehtimollik belgilariga ko‘ra tahlil qilish, til hodisalarining statistik xarakteristikalari asosida baholash de- makdir. Til birligining gapda yoki matnda qo‘llanish chastotasi (sur’ati) ehtimollik deyiladi. Til hodisalari haqidagi haqiqatlar lingvostatistik tad- qiqotlar yordamida aniqlanadi. Masalan, o‘zbek tili uchun qaysi bo‘g‘in strukturasi tipik ekanligini, gap modcllaridan qaysi biri eng asosiy konst- ruksiya ekanligini, bosh kelishikdagi otlarning asosan qaysi gap bo‘lagi vazifasida kelishini, tanlangan matnda so‘z turkumlarining qay darajada ishlatilishini aniqlash uchun lingvostatistik tahlillarga ehtiyoj seziladi. Til hodisalarini statistik metod asosida tahlil qilish uchun doim ma’lum bir matn yoki matnlar to'plami olinadi. Ular badiiy adabiyotdan, gazeta va jurnallardan, publitsistik maqolalardan, ilmiy asarlardan, dialektologlar- ningjonli nutqidan yozib olgan
materiallaridan tanlanadi. Statistik xusu- siyati o‘rganilayotgan muayyan matnlar «tanlama» deyiladi. Tanlamaning hajmi tekshirilayotgan hodisalarning umumiy sonidir, uni « Н » bilan belgi lash mumkin. Masalan, 100 ta so‘z; 37 ta bosh kelishik shaklidagi ot kabi. Aniqlanayotgan hodisani ko‘rsatadigan miqdor (masalan, ot oldida aniqlov- chi vazifasida keladigan takrorlangan otlar miqdori) absolut chastota hisob lanadi, uni « М » harfi bilan belgilash mumkin. 37 ta otdan 30 tasining aniqlovchi vazifasida kelishi absolut chastotadir. Absolut chastota (M)ning tanlama hajmi (H)ga nisbati (M/H)dan nisbiy chastota kelib chiqadi. 48 Nis- biy chastota « Р » harfi bilan belgilanadi. Nisbiy chastota uch xil usul bilan aniqlanadi: a) oddiy kasr hisobida: P = M/H b) protsent asosida: P = МЧ 100/ Н c) promil hisobida: Р = МЧ 1000/H Matnning statistik tahlilida Zif qonunidan o‘rinli foydalaniladi. Katta 48 Усмонов С . Умумий тилшунослик . - Тошкент : У ^ итувчи , 1972. - Б .199. 50 A. Rahimov hajmdagi matnlarda har bir so‘zning qanchalik tez takrorlanishini (chasto- tasini) va ularning takrorlanish tezligini hisoblashda Zif qonuni amal qila di. 49 Bunda so‘zning chastotasi (f),