logo

KOMPYUTER LINGVISTIKASIDA METODLAR

Yuklangan vaqt:

08.08.2023

Ko'chirishlar soni:

0

Hajmi:

25.83203125 KB
KOMPY UTER LIN GV ISTIKASIDA  METODLA R
Reja:
1. Statistik tahlili metodi haqida.
2. Modellashtirish metodi haqida. Statistik   tahlil   metodi   boshqa   fanlar   qatori   tilshunoslik   fani
uchun ham muhim ahamiyatga ega. Bunda tilda mavjud hodisalar
aniq   matematik   parametrlarda   baholanadi,   tekshiriladi.   Statistika
lotincha   «status»   so'zidan   olingan   bo'lib,   hodisalarning   holati,
ahvolini   bildiradi.   «Status»   so‘zidan   «stato»   -   davlat,   «statusta»   -
davlatni   biluvchi,   «statustica»   -   davlat   to'g'risida   muayyan   bilim,
ma’lumotlar   yig‘indisi   ma’nosini   bildiruvchi   so'zlar   kelib   chiqqan. 1
Bundan   3500   yil   oldin   Qadimgi   Misrda   o‘tkazilgan   aholi   hisobi,
Rossiyada Pyotr I davridagi «aholi taftishi», Angliyadagi «Dahshatli
sud kitobi» kabilar dastlabki statistik ma’lumotlardir.
XVII   asrda   Angliyada   yuzaga   kelgan   «siyosiy   arifmetika»
(U.Petti   va   Jon   Grauntlar   nomi   bilan   bog‘liq)   fani   statistikaning
shakllanishiga   asos   bo'lgan.   Statistika   ijtimoiy   hodisalarning
miqdoriy   tomonlarini   ularning   sifat   tomonlari   bilan   uzviy
aloqadorlikda   o'rganuvchi   fandir.   Hodisalar ning   sifat   tomonlarini
maxsus   fanlar   o'rganadi.   Xususan,   tovushlar,   so'zlar,   gaplarni
lingvistika,   qofiya,   ritm,   vazn,   she’r   tuzilishini   adabiyotshunoslik,
organik hayotni biologiya, yer qatlamlari va boyliklarini geologiya
kabi   fanlar   o'rganadi.   Statistika   esa   ushbu   hodisalarni   miqdoriy
parametrlar aso- sida o'rganadi.  Bunda statistika hodisalarni turli
omillar ta’siridagi
o'zgaruvchanlik xususiyatini - variatsiyasini e’tiborga oladi. Shu
jihatdan statistik ma’lumotlar hodisalar rivojining dinamikasini aks
1
 Abdullayev Y. Statistika nazariyasi. - Toshkent, 2002. - B.4 - 5 ettira   oladi.   Lekin   sliu   o'rinda   aytib   o‘tish   lozimki,   statistikaga
yagona   mutlaq   haqiqat   deb   yondashish,   statistik   ma’lumotlarga
haddan   tashqari   ishonish   ham   to‘g‘ri   emas.   Ayrim   yolg‘on   faktik
materiallarga   asoslanib   tayyorlangan   statistik   ma’lumotlar
hodisalar haqida xato tushunchalar berishi mumkin. Shu ma’noda
statistika   yuzasidan   shunday   hazilomuz   gap   aytiladi:   «   Yolg
‘onning uch turi bor: a) yolg‘on; b) g'irt yo'lg'on; c) statistika».
Statistikaning   til   hodisalariga   tatbiq   etilishi   natijasida
lingvostatistika   sohasi   shakllandi,   unda   til   birliklari,   lisoniy
hodisalar, matnlar statistik tah- lil etiladi. Matnning statistik tahlili
-   tilni   ehtimollik   belgilariga   ko‘ra   tahlil   qilish,   til   hodisalarining
statistik   xarakteristikalari   asosida   baholash   de-   makdir.   Til
birligining   gapda   yoki   matnda   qo‘llanish   chastotasi   (sur’ati)
ehtimollik   deyiladi.   Til   hodisalari   haqidagi   haqiqatlar
lingvostatistik tad- qiqotlar yordamida aniqlanadi. Masalan, o‘zbek
tili   uchun   qaysi   bo‘g‘in   strukturasi   tipik   ekanligini,   gap
modcllaridan   qaysi   biri   eng   asosiy   konst-  ruksiya   ekanligini,   bosh
kelishikdagi otlarning asosan qaysi gap bo‘lagi vazifasida kelishini,
tanlangan   matnda   so‘z   turkumlarining   qay   darajada   ishlatilishini
aniqlash uchun lingvostatistik tahlillarga ehtiyoj seziladi.
Til hodisalarini statistik metod asosida tahlil qilish uchun doim
ma’lum   bir   matn   yoki   matnlar   to'plami   olinadi.   Ular   badiiy
adabiyotdan,   gazeta   va   jurnallardan,   publitsistik   maqolalardan,
ilmiy   asarlardan,   dialektologlar-   ningjonli   nutqidan   yozib   olgan materiallaridan   tanlanadi.   Statistik   xusu-   siyati   o‘rganilayotgan
muayyan   matnlar   «tanlama»   deyiladi.   Tanlamaning   hajmi
tekshirilayotgan   hodisalarning   umumiy   sonidir,   uni   « Н »   bilan
belgi lash   mumkin.   Masalan,   100   ta   so‘z;   37   ta   bosh   kelishik
shaklidagi ot kabi. Aniqlanayotgan hodisani ko‘rsatadigan miqdor
(masalan, ot oldida aniqlov- chi vazifasida keladigan takrorlangan
otlar   miqdori)   absolut   chastota   hisob lanadi,   uni   « М »   harfi   bilan
belgilash   mumkin.   37   ta   otdan   30   tasining   aniqlovchi   vazifasida
kelishi   absolut   chastotadir.   Absolut   chastota   (M)ning   tanlama
hajmi   (H)ga   nisbati   (M/H)dan   nisbiy   chastota   kelib   chiqadi. 48
  Nis-
biy   chastota   « Р »   harfi   bilan   belgilanadi.   Nisbiy   chastota   uch   xil
usul bilan aniqlanadi:
a) oddiy kasr hisobida: P = M/H
b) protsent asosida: P =  МЧ 100/ Н
c) promil hisobida:  Р  =  МЧ  1000/H
Matnning   statistik   tahlilida   Zif   qonunidan   o‘rinli   foydalaniladi.
Katta
48
Усмонов   С .   Умумий   тилшунослик .   -   Тошкент :   У ^ итувчи ,
1972. -  Б .199.
50
A. Rahimov
hajmdagi   matnlarda   har   bir   so‘zning   qanchalik   tez
takrorlanishini   (chasto-   tasini)   va   ularning   takrorlanish   tezligini
hisoblashda Zif qonuni amal qila di. 49
 Bunda so‘zning chastotasi (f), uning   ro'yxatdagi   holati   qatori   (r)   deb   belgilanadi.   Zif   qonuniga
ko‘ra,   matnda   eng   ko‘p   ishlatilgan   so‘z   г   =   1,   undan   pastroq
chastotada   kuzatilgan   so‘z   r   =   2,   undan   keyingisi   r   =   3   tarzida
belgilanadi. Bundan kelib chiqadiki, matndagi ixtiyoriy so‘z uchun
(f)   chas-   totaga   (r)ning   ko'paytmasi   natijasi   o‘zgarmas   miqdor-
konstanta   (C)ga   teng   bo‘ladi   (r4f   =   C),   bu   yerda   С   matn   hajmiga
bog'liq.   Masalan,   amerikalik   yozuvchi   Mark   Tvenning   « Тош
Soyerning   sarguzashtlari»   asari   Zif   qonuni   asosida   tahlil   etilgan.
Asarda   jami   71   370   ta   belgi   mavjud   bo‘lib,   takror-   lanmagan   so‘z
tiplari 8018 ta. Matnda ishlatilgan so‘zlarning o‘rtacha tak rorlanish
chastotasi  8,9 dir,  ya’ni matndagi  so‘zlar  taqriban  9 marta  takror-
lanadi.   Lekin   bunda   eng   katta   muammo   shuki,   so‘z   tiplarining
barchasi matn ichida qo'llanish darajasi bir xil emas. Ayrim so‘zlar
700   marta   tak-   rorlanadi,   bunday   so'zlar   romanning   1%   qismini
tashkil   etadi.   Yana   shun day   so'zlar   ham   borki,   ular   bir   marta
takrorlanadi.   Bunday   so'zlar   hapas   legomena   (yunoncha   so‘z
«faqat bir marta o‘qi», degan ma’noni anglatadi) deb ataladi, ular
asarning qariyb yarmini tashkil etadi. Qariyb 90% so‘zlar 10 marta
yoki undan kam, 10% ga yaqin so‘z tiplari 3 marta yoki undan kam
miqdorda takrorlanadi.
Matnning  statistik  tahlili  matn  atributsiyasi  muammosiga   ham
oydinlik   kiritishda   muhim   tadqiqot   usuli   hisoblanadi.   Ayniqsa,
badiiy   matnlarning   statistik   tahlili   natijasida   o'sha   matn   muallifi
ham aniqlanmoqda. Bunda matnda tez-tez ishlatiluvchi til birliklari (otlar,   sifatlar,   kalit   so'zlar,   fe’llar,   grammatik   shakllar,   jumla
qurilishi,   bir   so‘z   bilan   aytganda,   yozuvchining   idiostilini   -   o‘ziga
xos  uslubini   ko‘rsatuvchi   vositalai)  lingvostatistik   tahlil  yordamida
aniqlanadi.   Turli   matnlardan   olingan   dalillarning   qiyosiy   tah lili
bizga   o'sha   matnning   mazmun-mundarijasini,   matn   tuzilgan
davrni,   da-   lillarni   argumentlash   xarakterini   va   hatto   mualliflikni
aniqlashga   imkon   beradi.   Badiiy   asarlarning   sujet   qurilishiga,
matn   strukturasiga   kvantitativ   metodlarning   tatbiq   etilishi
natijasida   F.Dostoyevskiy,   L.Tolstoy,   M.Sholoxov   kabi
yozuvchilarning   matnlari   atributsiyasi   amalga   oshirilgan.   Keyingi
paytlarda   anonim   (muallifi   noma’lum)   va   psevdonim   (soxta
muallifli)   matnlarning   aniqlanishi   yuzasidan   ham   tadqiqotlar
amalga   oshirilmoqda. 2
  Bu   aspekt   kriminalistika   sohasida   muhim
ahamiyat kasb etmoqda.
Amerikalik   olim   Jozef   Grinberg   kvantitativ   metodni
tilshunoslikka   -   morfologik   tiplar   nazariyasiga   tatbiq   etgan.
Tadqiqot natijalarini «Quanti tative approach to the morphological
typology   of   languages»   (1960)   («Tillar   morfologik   tipologiyasiga
kvantitativ yondashuv») nomli maqolasida umum- lashtirgan. Olim
o‘zigacha   amalga   oshirilgan   ishlar   haqida   shunday   yoza-   di:
«Tillarning   tipologik   tasnifi   mantiqiy-ratsional   mezonlar   asosida
yuza ga   kelgan.   Tasnif   namunalari   nazariy   jihatdan   asoslangan,
2
Баранов  A . H . Введение в прикладную лингвистику. - М.: Эдиториал УРСС, 2001.-С.24. ammo   lingvistik   fakt   bilan   uzviyligi   yaqqol   ко   ‘zga   tashlanmaydi.
Bu esa tasnifni amaliyotga
tatbiq   etib   tekshirishni   taqozo   etadi». 5
'   Shu   nuqtayi   nazardan
olim   matema tik   aniqlikka   erishish   maqsadida   til   hodisalarini,
mavjud lisoniy tiplarning uchrash darajasini miqdoriy parametrlar
asosida   qayta   baholadi.   J.Grinberg   kvantitativ   metodni   8   tilga
(sanskrit,   anglo-saks,   yoqut,   vyetnam,   fors,   ing-   liz,   suaxili,
eskimos   tillariga)   tatbiq   qilgan.   Bunda   olim   o‘zi   belgilagan   for-
mulalar   asosida   lisoniy   tiplarning   va   tillarda   kuzatiladigan
tipologik   belgi larning   miqdoriy   tavsifini,   statistik   ma’lumotlarni
ilmiy jamoatchilikka havola etdi.
Masalan,   sintetiklikning   dunyo   tillaridagi   darajasini   aniqlash
uchun   М /   W,   agglutinatsiyani   aniqlash   uchun   A/J,   kompozitsiyani
aniqlash   uchun   RI   W,   derivatsiyani   aniqlash   uchun   D/W,
prefiksatsiyani aniqlash uchun P/W, suffiksatsiyani aniqlash uchun
S/W formulalaridan foydalandi. Bu yerda M
- ma’lum   tipdagi   chekli   (100   so‘zdan   iborat)   matn   ichida
uchragan   morflar   soni,   A   -   agglutinatsiya,   R   (root)   -   o‘zak,   D
(derivational)   -   yasovchi   qism,   P   -   prefiks,   S   -   suffiks,   W   (Word)   -
matndagi  so'zlar  sonidir. Hisoblash  natijalariga  ko‘ra,  vyetnam  tili
uchun - 1,06 (ya’ni 100 so‘zda 106 morf uchraydi), ingliz tili uchun -
1,68,   sanskrit   tili   uchun   -   2,59,   eskimos   tili   uchun   -   3,72   dir.
Natijalardan   kelib   chiqib   olim   tillarni   baholaydi:   «2   dan   past
ko‘rsatkichga ega boigan tillar (vyetnam, ingliz, fors, xitoy, italyan, nemis   tillari)   analitik   tillar,   2   dan   3   gacha   miqdoriy   ko'rsatkichga
ega bo‘lgan tillar (rus, sanskrit, qadimgi yunon, lotin, eski slavyan,
chex,   polyak,   yoqut,   suaxili   tillari)   sintetik   tillar,   3   dan   yuqori
ko'rsatkichga   ega   bo'lgan   tillar   (eskimos,   ayrim   kavkaz   tillari,
Amerika   hindulari   tillari)   polisintetik   tillar   hisoblanadi».   Rus   olimi
V.Z.Demyankovning   fikricha,   Grinberg   tavsiya   et-   gan   metod
tilshunoslikdu   mavjud   ho‘lgan   kartotekalash   usulidan   ishonchli-
roq va aniqroqdir. (7- жадвал )
Chastotali   lug‘atlar   matnda   so‘zlarning   ishlatilish   chastotasi
(qay   dara-   jada   ishlatilishi,   tez-tez   ishlatilishi)dan   kelib   chiqqan
holda   tayyorlanadi-   gan   so'zliklar   hisoblanadi.   Chastotali   lug'atlar
statistik leksikografiyaning rivoji natijasida yuzaga kelgan. Bunday
lug'atlar,   ayniqsa,   til   o‘qitish   jara-   yonida   leksik   minimumlarni
aniqlashda   muhim   ahamiyatga   ega.   So'zlarning   chastotasini
aniqlash   lingvostatistik   tahlillar   yordamida   amalga   oshiriladi.
Chastotali   lug‘atlar   kompyuterning   lingvistik   informatsion   bazasi
hisobla nadi.   Masalan,   chastotali   lug‘atdagi   birinchi   10   va   50   eng
ko‘p   uchraydigan   so‘z   formalarining   miqdori   umumiy   so‘z
birliklariga nisbatan agglutinativ tillarda fiektiv tillarga qaraganda
kamroq foizni tashkil etadi. Agglutinativ tillarda dastlabki 1000 so
‘z formasi umumiy so ‘z birliklarining 50 - 60 foizini
Model   (lotincha   «modelus»   so'zidan   olingan   boiib,   «nusxa»,
«anda- za», «o'lchov», «me’yor» ma’nolarini anglatadi) tabiiy fanlar
yoki   umu-   man   fanda   shunday   moddiy   qurilma,   grafik,   sxema, umuraan,   bilish   vosita-   si   sifatida   tushuniladiki,   u   muayyan
original-obyekt   haqidagi   ma’lumotlar   majmui   tarzida   yuzaga
kelgan   hosila-obyekt   demakdir.   Boshqacharoq   tushuntirganda,
model   tabiiy   obyektlarning   imitatsiyasidir   (o‘xshashi,   taq-   lidiy
ko‘rinishi),   u   o‘zbek   tilidagi   qolip,   andaza   so‘zlariga   mos   keladi.   U
hodisalarning   yuzaga   kelishi   uchun   asos   vazifasini   o‘taydi,   bunda
aniq   yoki   mavhum   obyektlar   kichraytirilgan   obyektlar,   sxemalar,
chizmalar,   fizikaviy   konstruksiyalarda   tadqiq   etiladi.   Buni   oddiy
hayotiy   misol   bilan   tushuntira-   digan   bo‘lsak,   olmani
xarakterlovchi   belgilar,   atributlar   -   uning   dumaloq-   ligi,   mevaligi,
shirinligi   o'sha   tushunchaning   fikriy   modeli   hisoblanadi.   Agar   biz
olmani   loydan   yoki   sun’iy   bir   materialdan   yasasak,   bu   uning
moddiy modeli hisoblanadi. Yoki globus yerning modeli, o‘yinchoq
mashina   haqi-   qiy   mashinaning   modeli   sifatida   baholanishi
mumkin.   Model   quyidagi   asoslarga   ko‘ra   bilishda   muhim
hisoblanadi:
- birinchidan, u o‘rganish obyektini soddalashtiradi;
- ikkinchidan, uni boshqa obyektlar ta’siridan ajratadi;
- uchinchidan, model obyektni ta’riflashni osonlashtiradi.
Model   dastlab   amaliy   sohalarda   ishlatilgan.   Keyinchalik   ilm-
fanning ijtimoiy sohalariga ham kirib keldi. Bu matematika, kimyo
fanlariga   keng   tatbiq   qilingani   yaqqol   ko‘rinadi.   «Model»
tushunchasi fan va texnikada turli   ma’nolarda   ishlatilgani   bois   modellashtirish   turlarining
yagona   tasnifi   mavjud   emas.   Tasnif   modelning   xarakteriga   ko‘ra,
modellashtirilayotgan   obyektning   tabiatiga   ko'ra,   modellashtirish
tatbiq qilinayotgan soha yoki yo'nalishga qarab amalga oshirilishi
mumkin.   Masalan,   modellashtirish-   ning   quyidagi   turlarini   ajratib
ko‘rsatish   mumkin:   informatsion   modellash tirish,   lingvistik
modellashtirish,   kompyuterli   modellashtirish,   matematik
modellashtirish,   matematik-kartografik   modellashtirish,
molekulyar   model lashtirish,   mantiqiy   modellashtirish,   pedagogik
modellashtirish,   psixologik   modellashtirish,   statistik
modellashtirish,   struktur   modellashtirish,   fizik   modellashtirish,
iqtisodiy-matematik   modellashtirish,   imitatsion   modellash tirish,
evolutsion modellashtirish, kognitiv modellashtirish kabi.
Modellarni shartli ravishda quyidagicha tasniflash mumkin:
1. Tabiiy   modellar   -   o‘rganilayotgan   obyekt   bilan   bir   turda
bo‘ladi va undan faqat oMchamlari, jarayonlarining tezligi va ba’zi
hollarda yasalgan materiali bilan farq qiladi.
2. Matematik   modellar   -   prototipdan   (asl   nusxadan)   jismoniy
tuzilishi   bilan   farq   qiladi,   lekin   prototip   bilan   bir   xil   matematik
tasvirga ega boMadi.
3. Mantiqiy-matematik   modellar   -   belgilardan   iborat   bo‘lib,
abstrakt   model   hisoblanadi   va   tafakkur   jarayonini   o‘rganishda
qo'llaniladi. 4. Kompyuterli   modellar   -   matematik   va   mantiqiy
modellashtirish   metodlariga   asoslanib   kompyuterda   algoritm   va
dasturlardan foydalanib yaratiladigan modellar.
Kompyuterli   modellashtirish   bugungi   kunda   barcha   fanlarda,
xususan,   kompyuter   lingvistikasida   ham   samarali   metod
hisoblanadi. 31
  Kompyuter   modellashtirish   quyidagi   asosiy
bosqichlardan iborat:
- masalaning   qo'yilishi,   modellashtirish   obyektining
aniqlashtirilishi;
- konseptual   (tushunchaviy,   fikriy)   modelning   ishlab   chiqilishi,
tizim aso siy unsurlarining ajratib olinishi;
- formalizatsiya,   ya’ni   matematik   model   bosqichi;   algoritm
yaratilishi hamda dastur ishlanishi;
- kompyuter eksperimentlarini o‘tkazish;
- natijalar tahlili va talqini.
Sun’iy   intellekt   tizimi   doirasidagi   tabiiy   tilli   interfeys,   ekspert
tizimlari,   eyron   tarmoqlar,   lingvoanalizatorlar,   gapiruvchi
avtomatlar   -   barchasi   kompyuter   modellashtirish   natijasi
hisoblanadi.
Modellashtirish jarayoni uchta unsurni o‘z ichiga oladi:
- subyekt (tadqiqotchi);
- tadqiqot obyekti;
- o‘   rganuvchi   subyekt   va   o‘   rganiluvchi   obyekt   munosabatini
aks ettiruv- chi model. Modellashtirish   har   bir   fan   obyektini   soddalashtiruvchi
metoddir.   Lingvis tik   birliklarni   modellashtirish   bu   belgilar
tarkibidagi   elementlarning   bar-   qaror   munosabatlariga
asoslanadi.   Shuning   uchun   ham   butunlik   tarkibida gi   elementlar
o'rtasida   munosabatlarning   barqaror   va   beqaror   turlarga   ajra-
tilishi   lingvistik   modellashtirish   uchun   katta   ahamiyatga   ega.
Modellashti rish   barcha   fanlar   uchun   xos   boigan   umumilmiy
metod hisoblanadi va u quyidagi tamoyillarga amal qiladi:
- deduktivlik   -  mantiqiy   xulosa   chiqarishga   asoslangan   boiadi,
xusu- siylikdan umumiylikka tamoyilida boiadi;
- tafakkur eksperimentidan foydalanish;
- evristik   funksiyaga   ega   boiishi.   Ya’ni   u   yangi   g'oyalar   bera
olishi va uni amaliyotda sinab ko'rish imkoniyati boiishi zarur;
- eksplanatorlik   xususiyatiga,   ya’ni   tushuntirish   kuchiga   ega
boiishi   kerak.   Shundagina   model   eski   nazariya   tushuntirib   bera
olmagan   muam-   moni   hal   qiladi,   obyektning   ilgari   kuzatilmagan,
ammo   kelajakda   amalga   oshishi   mumkin   boigan   tomonini   kashf
etadi; 12
- modelni ideallashtirilgan obyekt sifatida talqin qilish.
Shu   o'rinda   aytib   o'tish   zarurki,   modellashtirish   obyektni
umumlashti- rish darajasiga ko'ra quyidagicha boiadi:
1. Lingvistik faktni tavsiflashga qaratilgan analitik model.
2. Oraliq model yoki toidiruvchi model.
3. Maksimal umumlashtirishga asoslangan sintezlovchi model. Lingvistik model tushunchasi struktur tilshunoslikning E.Sepir,
L.Blumfild,   R.Yakobson,   N.Chomskiy,   Z.Harris,   Ch.Hokket   kabi
namoyan- dalari tomonidan kirib kelgan. Uning taraqqiyoti esa XX
asrning   60   -   70-   yillariga   (matematik   va   kibernetik   lingvistika
rivojlana   boshlagan   davrga)   to‘g‘ri   keladi.   Lingvistik   modelni
quyidagi turlarga ajratish mumkin:
1. Inson   nutqiy   faoliyati   modellari.   Bu   modellar   konkret   nutq
jarayonini   va   hodisalarini   aks   ettiradi.   Masalan,   aniq   bir
tovushning talaffuz modeli yoki nutqning yuzaga chiqish modeli.
2. Lingvistik   tadqiqot   modellari.   Bunda   muayyan   til   hodisalari
asosida   olib   borilgan   tadqiqot   jarayonini   aks   ettiradi.   Masalan,
o‘zbek   tilida   mor fologik   usul   asosida   so‘z   yasalishining   umumiy
modeli: asos + so‘z yasovchi qo‘shimcha; xususiy modellari: asos +
-chi; asos + -dosh; asos + -do‘z kabi.
3. Metamodellar   -   bunda   lingvistik   modellar   saralanadi,   u
gipotetik-   deduktiv   xarakterga   ega,   o‘ta   abstraktlashgan   va
ratsionallashgan bo‘Iadi.
Modellashtirish   metodi   ayrim   tillarga,   jumladan,   ingliz   tiliga
faol tatbiq qilingan. 0‘zbek tilida sodda gap qurilishi:
S +  О  + V : Men kitob o'qidim. Men xat yozdim.
S = ega,  О  - to'ldiruvchi, V = kesim.
Bundan   kelib   chiqib   aytish   mumkinki,   o‘zbek   tilida   qo'shma
gapning eng kichik modeli quyidagicha boiadi:
S,
+  V, S
2  + V
2 : Bahor keldi, ishlar qizib ketdi. Ingliz, rus tillarida sodda gap qurilishi quyidagicha belgilangan:
S + V + O:
Я пишу диссертацию. Он   читает   книгу .
I have read the book. I am writing a research work.
Modellashtirish   tilshunoslikda   strukturalizm   yo‘nalishi   ta’sirida
faol   tatbiq   qilina   boshlandi.   Gap   strukturasini   modellashtirish
g'oyasi   XX   asrning   50-   yillarida   amerikalik   tilshunos   Charlz   Friz
tomonidan olg'a surildi. Olim o‘z qarashlarini umumlashtirib 1952-
yilda   «The   Structure   of   English»  nomli   tadqiqotini   yaratdi:   Ch.Friz
o‘z   konsepsiyasini   distributiv   model   deb   nom-   lagan.   Unga   ko‘ra,
gap   muayyan   so‘z   turkumlariga   oid   bo‘lgan   so'zlar   zan-   jiri
hisoblanadi va tahlilda morfologiya bazasiga tayaniladi.
  Adabiy ot lar :
1. Пиотровский   Р.Г.   Инженерная   лингвистика   и   теория
языка. - Л.: Наука, 1979.
Kompyuter lingvistikasi asoslari
57
2. Пиотровский Р.Г. Текст, машина, человек. - Jl.: Наука, 1975.
3. Гринберг Дж. Квантитативный подход к морфологической
типологии языков  //  Новое в лингвистике.  -  М.,  1963.  Вып . Ш . -
С .60 - 94.
4. Campbell   L.,   Bubenik   V.,   Saxon   L.   Word   Order   Universals:
Refine ments   and   Clarifications   //   Canadian   Journal   of   Linguistics.
№2. 1988. - P.209 - 230.
5. Abdullayev Y. Statistika nazariyasi. - Toshkent, 2002.
6. Плат   У .   Математическая   лингвистика   //   Новое   в
лингвистике .  Вып.ГУ. - М.: Прогресс, 1965.
7. Усмонов   С.   Умумий   тилшунослик.   -   Тошкент:   У^итувчи,
1972.
8. Баранов   А.Н.   Введение   в   прикладную   лингвистику.   -   М.:
Эдиториал УРСС, 2001.

KOMPY UTER LIN GV ISTIKASIDA METODLA R Reja: 1. Statistik tahlili metodi haqida. 2. Modellashtirish metodi haqida.

Statistik tahlil metodi boshqa fanlar qatori tilshunoslik fani uchun ham muhim ahamiyatga ega. Bunda tilda mavjud hodisalar aniq matematik parametrlarda baholanadi, tekshiriladi. Statistika lotincha «status» so'zidan olingan bo'lib, hodisalarning holati, ahvolini bildiradi. «Status» so‘zidan «stato» - davlat, «statusta» - davlatni biluvchi, «statustica» - davlat to'g'risida muayyan bilim, ma’lumotlar yig‘indisi ma’nosini bildiruvchi so'zlar kelib chiqqan. 1 Bundan 3500 yil oldin Qadimgi Misrda o‘tkazilgan aholi hisobi, Rossiyada Pyotr I davridagi «aholi taftishi», Angliyadagi «Dahshatli sud kitobi» kabilar dastlabki statistik ma’lumotlardir. XVII asrda Angliyada yuzaga kelgan «siyosiy arifmetika» (U.Petti va Jon Grauntlar nomi bilan bog‘liq) fani statistikaning shakllanishiga asos bo'lgan. Statistika ijtimoiy hodisalarning miqdoriy tomonlarini ularning sifat tomonlari bilan uzviy aloqadorlikda o'rganuvchi fandir. Hodisalar ning sifat tomonlarini maxsus fanlar o'rganadi. Xususan, tovushlar, so'zlar, gaplarni lingvistika, qofiya, ritm, vazn, she’r tuzilishini adabiyotshunoslik, organik hayotni biologiya, yer qatlamlari va boyliklarini geologiya kabi fanlar o'rganadi. Statistika esa ushbu hodisalarni miqdoriy parametrlar aso- sida o'rganadi. Bunda statistika hodisalarni turli omillar ta’siridagi o'zgaruvchanlik xususiyatini - variatsiyasini e’tiborga oladi. Shu jihatdan statistik ma’lumotlar hodisalar rivojining dinamikasini aks 1 Abdullayev Y. Statistika nazariyasi. - Toshkent, 2002. - B.4 - 5

ettira oladi. Lekin sliu o'rinda aytib o‘tish lozimki, statistikaga yagona mutlaq haqiqat deb yondashish, statistik ma’lumotlarga haddan tashqari ishonish ham to‘g‘ri emas. Ayrim yolg‘on faktik materiallarga asoslanib tayyorlangan statistik ma’lumotlar hodisalar haqida xato tushunchalar berishi mumkin. Shu ma’noda statistika yuzasidan shunday hazilomuz gap aytiladi: « Yolg ‘onning uch turi bor: a) yolg‘on; b) g'irt yo'lg'on; c) statistika». Statistikaning til hodisalariga tatbiq etilishi natijasida lingvostatistika sohasi shakllandi, unda til birliklari, lisoniy hodisalar, matnlar statistik tah- lil etiladi. Matnning statistik tahlili - tilni ehtimollik belgilariga ko‘ra tahlil qilish, til hodisalarining statistik xarakteristikalari asosida baholash de- makdir. Til birligining gapda yoki matnda qo‘llanish chastotasi (sur’ati) ehtimollik deyiladi. Til hodisalari haqidagi haqiqatlar lingvostatistik tad- qiqotlar yordamida aniqlanadi. Masalan, o‘zbek tili uchun qaysi bo‘g‘in strukturasi tipik ekanligini, gap modcllaridan qaysi biri eng asosiy konst- ruksiya ekanligini, bosh kelishikdagi otlarning asosan qaysi gap bo‘lagi vazifasida kelishini, tanlangan matnda so‘z turkumlarining qay darajada ishlatilishini aniqlash uchun lingvostatistik tahlillarga ehtiyoj seziladi. Til hodisalarini statistik metod asosida tahlil qilish uchun doim ma’lum bir matn yoki matnlar to'plami olinadi. Ular badiiy adabiyotdan, gazeta va jurnallardan, publitsistik maqolalardan, ilmiy asarlardan, dialektologlar- ningjonli nutqidan yozib olgan

materiallaridan tanlanadi. Statistik xusu- siyati o‘rganilayotgan muayyan matnlar «tanlama» deyiladi. Tanlamaning hajmi tekshirilayotgan hodisalarning umumiy sonidir, uni « Н » bilan belgi lash mumkin. Masalan, 100 ta so‘z; 37 ta bosh kelishik shaklidagi ot kabi. Aniqlanayotgan hodisani ko‘rsatadigan miqdor (masalan, ot oldida aniqlov- chi vazifasida keladigan takrorlangan otlar miqdori) absolut chastota hisob lanadi, uni « М » harfi bilan belgilash mumkin. 37 ta otdan 30 tasining aniqlovchi vazifasida kelishi absolut chastotadir. Absolut chastota (M)ning tanlama hajmi (H)ga nisbati (M/H)dan nisbiy chastota kelib chiqadi. 48 Nis- biy chastota « Р » harfi bilan belgilanadi. Nisbiy chastota uch xil usul bilan aniqlanadi: a) oddiy kasr hisobida: P = M/H b) protsent asosida: P = МЧ 100/ Н c) promil hisobida: Р = МЧ 1000/H Matnning statistik tahlilida Zif qonunidan o‘rinli foydalaniladi. Katta 48 Усмонов С . Умумий тилшунослик . - Тошкент : У ^ итувчи , 1972. - Б .199. 50 A. Rahimov hajmdagi matnlarda har bir so‘zning qanchalik tez takrorlanishini (chasto- tasini) va ularning takrorlanish tezligini hisoblashda Zif qonuni amal qila di. 49 Bunda so‘zning chastotasi (f),

uning ro'yxatdagi holati qatori (r) deb belgilanadi. Zif qonuniga ko‘ra, matnda eng ko‘p ishlatilgan so‘z г = 1, undan pastroq chastotada kuzatilgan so‘z r = 2, undan keyingisi r = 3 tarzida belgilanadi. Bundan kelib chiqadiki, matndagi ixtiyoriy so‘z uchun (f) chas- totaga (r)ning ko'paytmasi natijasi o‘zgarmas miqdor- konstanta (C)ga teng bo‘ladi (r4f = C), bu yerda С matn hajmiga bog'liq. Masalan, amerikalik yozuvchi Mark Tvenning « Тош Soyerning sarguzashtlari» asari Zif qonuni asosida tahlil etilgan. Asarda jami 71 370 ta belgi mavjud bo‘lib, takror- lanmagan so‘z tiplari 8018 ta. Matnda ishlatilgan so‘zlarning o‘rtacha tak rorlanish chastotasi 8,9 dir, ya’ni matndagi so‘zlar taqriban 9 marta takror- lanadi. Lekin bunda eng katta muammo shuki, so‘z tiplarining barchasi matn ichida qo'llanish darajasi bir xil emas. Ayrim so‘zlar 700 marta tak- rorlanadi, bunday so'zlar romanning 1% qismini tashkil etadi. Yana shun day so'zlar ham borki, ular bir marta takrorlanadi. Bunday so'zlar hapas legomena (yunoncha so‘z «faqat bir marta o‘qi», degan ma’noni anglatadi) deb ataladi, ular asarning qariyb yarmini tashkil etadi. Qariyb 90% so‘zlar 10 marta yoki undan kam, 10% ga yaqin so‘z tiplari 3 marta yoki undan kam miqdorda takrorlanadi. Matnning statistik tahlili matn atributsiyasi muammosiga ham oydinlik kiritishda muhim tadqiqot usuli hisoblanadi. Ayniqsa, badiiy matnlarning statistik tahlili natijasida o'sha matn muallifi ham aniqlanmoqda. Bunda matnda tez-tez ishlatiluvchi til birliklari