KOMPYUTER LINGVISTIKASIDA METODLAR
KOMPY UTER LIN GV ISTIKASIDA METODLA R Reja: 1. Statistik tahlili metodi haqida. 2. Modellashtirish metodi haqida.
Statistik tahlil metodi boshqa fanlar qatori tilshunoslik fani uchun ham muhim ahamiyatga ega. Bunda tilda mavjud hodisalar aniq matematik parametrlarda baholanadi, tekshiriladi. Statistika lotincha «status» so'zidan olingan bo'lib, hodisalarning holati, ahvolini bildiradi. «Status» so‘zidan «stato» - davlat, «statusta» - davlatni biluvchi, «statustica» - davlat to'g'risida muayyan bilim, ma’lumotlar yig‘indisi ma’nosini bildiruvchi so'zlar kelib chiqqan. 1 Bundan 3500 yil oldin Qadimgi Misrda o‘tkazilgan aholi hisobi, Rossiyada Pyotr I davridagi «aholi taftishi», Angliyadagi «Dahshatli sud kitobi» kabilar dastlabki statistik ma’lumotlardir. XVII asrda Angliyada yuzaga kelgan «siyosiy arifmetika» (U.Petti va Jon Grauntlar nomi bilan bog‘liq) fani statistikaning shakllanishiga asos bo'lgan. Statistika ijtimoiy hodisalarning miqdoriy tomonlarini ularning sifat tomonlari bilan uzviy aloqadorlikda o'rganuvchi fandir. Hodisalar ning sifat tomonlarini maxsus fanlar o'rganadi. Xususan, tovushlar, so'zlar, gaplarni lingvistika, qofiya, ritm, vazn, she’r tuzilishini adabiyotshunoslik, organik hayotni biologiya, yer qatlamlari va boyliklarini geologiya kabi fanlar o'rganadi. Statistika esa ushbu hodisalarni miqdoriy parametrlar aso- sida o'rganadi. Bunda statistika hodisalarni turli omillar ta’siridagi o'zgaruvchanlik xususiyatini - variatsiyasini e’tiborga oladi. Shu jihatdan statistik ma’lumotlar hodisalar rivojining dinamikasini aks 1 Abdullayev Y. Statistika nazariyasi. - Toshkent, 2002. - B.4 - 5
ettira oladi. Lekin sliu o'rinda aytib o‘tish lozimki, statistikaga yagona mutlaq haqiqat deb yondashish, statistik ma’lumotlarga haddan tashqari ishonish ham to‘g‘ri emas. Ayrim yolg‘on faktik materiallarga asoslanib tayyorlangan statistik ma’lumotlar hodisalar haqida xato tushunchalar berishi mumkin. Shu ma’noda statistika yuzasidan shunday hazilomuz gap aytiladi: « Yolg ‘onning uch turi bor: a) yolg‘on; b) g'irt yo'lg'on; c) statistika». Statistikaning til hodisalariga tatbiq etilishi natijasida lingvostatistika sohasi shakllandi, unda til birliklari, lisoniy hodisalar, matnlar statistik tah- lil etiladi. Matnning statistik tahlili - tilni ehtimollik belgilariga ko‘ra tahlil qilish, til hodisalarining statistik xarakteristikalari asosida baholash de- makdir. Til birligining gapda yoki matnda qo‘llanish chastotasi (sur’ati) ehtimollik deyiladi. Til hodisalari haqidagi haqiqatlar lingvostatistik tad- qiqotlar yordamida aniqlanadi. Masalan, o‘zbek tili uchun qaysi bo‘g‘in strukturasi tipik ekanligini, gap modcllaridan qaysi biri eng asosiy konst- ruksiya ekanligini, bosh kelishikdagi otlarning asosan qaysi gap bo‘lagi vazifasida kelishini, tanlangan matnda so‘z turkumlarining qay darajada ishlatilishini aniqlash uchun lingvostatistik tahlillarga ehtiyoj seziladi. Til hodisalarini statistik metod asosida tahlil qilish uchun doim ma’lum bir matn yoki matnlar to'plami olinadi. Ular badiiy adabiyotdan, gazeta va jurnallardan, publitsistik maqolalardan, ilmiy asarlardan, dialektologlar- ningjonli nutqidan yozib olgan
materiallaridan tanlanadi. Statistik xusu- siyati o‘rganilayotgan muayyan matnlar «tanlama» deyiladi. Tanlamaning hajmi tekshirilayotgan hodisalarning umumiy sonidir, uni « Н » bilan belgi lash mumkin. Masalan, 100 ta so‘z; 37 ta bosh kelishik shaklidagi ot kabi. Aniqlanayotgan hodisani ko‘rsatadigan miqdor (masalan, ot oldida aniqlov- chi vazifasida keladigan takrorlangan otlar miqdori) absolut chastota hisob lanadi, uni « М » harfi bilan belgilash mumkin. 37 ta otdan 30 tasining aniqlovchi vazifasida kelishi absolut chastotadir. Absolut chastota (M)ning tanlama hajmi (H)ga nisbati (M/H)dan nisbiy chastota kelib chiqadi. 48 Nis- biy chastota « Р » harfi bilan belgilanadi. Nisbiy chastota uch xil usul bilan aniqlanadi: a) oddiy kasr hisobida: P = M/H b) protsent asosida: P = МЧ 100/ Н c) promil hisobida: Р = МЧ 1000/H Matnning statistik tahlilida Zif qonunidan o‘rinli foydalaniladi. Katta 48 Усмонов С . Умумий тилшунослик . - Тошкент : У ^ итувчи , 1972. - Б .199. 50 A. Rahimov hajmdagi matnlarda har bir so‘zning qanchalik tez takrorlanishini (chasto- tasini) va ularning takrorlanish tezligini hisoblashda Zif qonuni amal qila di. 49 Bunda so‘zning chastotasi (f),
uning ro'yxatdagi holati qatori (r) deb belgilanadi. Zif qonuniga ko‘ra, matnda eng ko‘p ishlatilgan so‘z г = 1, undan pastroq chastotada kuzatilgan so‘z r = 2, undan keyingisi r = 3 tarzida belgilanadi. Bundan kelib chiqadiki, matndagi ixtiyoriy so‘z uchun (f) chas- totaga (r)ning ko'paytmasi natijasi o‘zgarmas miqdor- konstanta (C)ga teng bo‘ladi (r4f = C), bu yerda С matn hajmiga bog'liq. Masalan, amerikalik yozuvchi Mark Tvenning « Тош Soyerning sarguzashtlari» asari Zif qonuni asosida tahlil etilgan. Asarda jami 71 370 ta belgi mavjud bo‘lib, takror- lanmagan so‘z tiplari 8018 ta. Matnda ishlatilgan so‘zlarning o‘rtacha tak rorlanish chastotasi 8,9 dir, ya’ni matndagi so‘zlar taqriban 9 marta takror- lanadi. Lekin bunda eng katta muammo shuki, so‘z tiplarining barchasi matn ichida qo'llanish darajasi bir xil emas. Ayrim so‘zlar 700 marta tak- rorlanadi, bunday so'zlar romanning 1% qismini tashkil etadi. Yana shun day so'zlar ham borki, ular bir marta takrorlanadi. Bunday so'zlar hapas legomena (yunoncha so‘z «faqat bir marta o‘qi», degan ma’noni anglatadi) deb ataladi, ular asarning qariyb yarmini tashkil etadi. Qariyb 90% so‘zlar 10 marta yoki undan kam, 10% ga yaqin so‘z tiplari 3 marta yoki undan kam miqdorda takrorlanadi. Matnning statistik tahlili matn atributsiyasi muammosiga ham oydinlik kiritishda muhim tadqiqot usuli hisoblanadi. Ayniqsa, badiiy matnlarning statistik tahlili natijasida o'sha matn muallifi ham aniqlanmoqda. Bunda matnda tez-tez ishlatiluvchi til birliklari