logo

KORPUS LINGVISTIKASI

Загружено в:

08.08.2023

Скачано:

0

Размер:

23.357421875 KB
KORPUS LIN GV ISTIKA SI 
Reja:
1. Korpus   lingvistikasi   kompyuter   leksikografiyasining   alohida
yo‘nalishi sifatida.
2. Korpus turlari .
3. Til korpuslarini yaratish muammolari . Kompyuter   leksikografiyasini   elektron   matnlar   korpusi   yoki
parallel   matnlar   korpuslarisiz   tazavvur   qilish   mumkin   emas.
Matnlar   korpusi   («cor pus»   lotincha   «tana»   degan   ma’noni
anglatadi)   -   bu   elektron   holda   saqla-   nadigan   ma’lum   til   birliklari
bo‘lib,   ular   tilshunoslar   uchun   turli   xil   muam-   molarni   hal   etish
uchun   tatbiq   etishda   va   turli   yo'nalishdagi   tadqiqotlar   uchun
zaruriyatga qarab turli shakllarda tuziladi. Bular fonema, grafema,
morfemalardan   tortib   undan   kattaroq   birliklar   -   leksema,   gap   va
matnlar-   dan   (badiiy   yoki   ilmiy   asar,   gazeta   va   jurnal   matnlari)
tashkil   topishi   mumkin.   Ularning   qay   tarzda   saqlanishiga   qarab
maxsus dasturlar yorda mida har bir kerakli so‘z yoki so‘z birikmasi
uchun   darhol   uning   qoilanishi   bo‘yicha   misollar   topilishi,   imlo
bo‘yicha  variantlari,   sinonimik  qatorlari  topilishi  mumkin.   Matnlar
korpusiga   oid   ilmiy   tadqiqotlar   salmog‘ining   ko'payishi   natijasida
tilshunoslikda korpus lingvistikasi yo‘nalishi shakl- landi. 1
Kompyuterda   yaratilgan   birinchi   matnlar   korpusi   Braun
korpusi ( БК , inglizcha Brown Corpus, BC) hisoblanadi, u 1961-yilda
Braun   universiteti-   da   yaratilgan,   har   biri   2000   so'zli   500   ta   matn
fragmentini   o‘z   ichiga   oladi.   1970-yillarda   1   mln   so‘zni   o‘z   ichiga
olgan   matnlar   korpusi   asosida   rus   tilining   chastotali   lug'ati
yaratildi.   1980-yillarda   Shvetsiyaning   Upsala   uni-   versitetida   ham
rus   tilida   matnlar   korpusi   yaratildi.   Keyinchalik   kompyuter
1
  Баранов  A . H . Введение в прикладную лингвистику. - М.: Эдиториал УРСС, 2001. -С.61. leksikografiyasining   rivojlanishi   natijasida   katta   hajmli   matnlar
korpusiga   ehtiyoj   tug‘ildi.   Ya’ni   1   mln   ta   so‘z   elektron   lug‘atlar
bazasi uchun yetarli emas. Shu asosda yirik hajmli matnlar korpusi
yaratila boshlandi. Ko'pgina
mamlakatlarda XX asrning 80-yillaridan boshlab bunday korpuslar
tuzila   boshlandi.   Ular   turli   maqsad   va   vazifalarga   xizmat   qiladi.
Buyuk   Britani-   yada   Ingliz   tili   Banki   (Bank   of   English)   hamda
Britaniya   Milliy  Korpusi   (British   National   Corpus.  BMC),   Rossiyada
Rus   tilining   mashina   fondi   ( Машинный   фонд   русского   языка )
hamda   Rus   tilining   Milliy   Korpusi   ( Национальный   корпус
русского   языка )   loyihalari   ishlab   chiqildi. 73
  Masalan,   Rus   tilining
milliy korpusi hajmi hozirgi kunda 149 mln so‘zdan iborat. Keyingi
yillarda   Internet   tizimining   rivojlanishi   virtual   matnlar   kor pusi
yuzaga kelishiga olib keldi. Ya’ni Internetdagi qidiriv saytlari, elek-
tron   kutubxonalar,   virtual   ensiklopediyalar   korpus   vazifasini
bajarmoqda.   Korpusning   janri   va   tematik   rang-barangligi
Internetdan   foydalanuvchi-   ning   qiziqishlariga   bog‘liq.   Masalan,
ilm-fan   doirasida   Wikipedia   katta   hajm-   dagi   matnlar   korpusi
sifatida foydalanilmoqda. 74
Korpus   lingvistikasida   parallel   matnlar   korpusi   ham   muhim
ahamiyat   kasb   etadi.   Parallel   matnlar   korpusi   esa,   o‘z   navbatida,
badiiy   asar,   qo‘llanma,   ommaviy   axborot   vositalari,   turli   xil
hujjatlarning   ikki   yoki   undan   ko‘p   tillardagi   elektron   holdagi
ko‘rinishlaridir. Masalan, Yevropa Ittifoqi o'zining barcha qonun va hujjatlarini ingliz,  fransuz,  nemis,  ispan  va  ital- yan tillarida  nashr
qiladi   hamda   ular   Internet   tizimiga   barchaga   ochiq   arxiv   sifatida
qo‘yiladi. Bunday korpuslarning afzalligi shundaki, ular yordami da
nafaqat   biron   bir   so‘z   yoki   jumlaning,   balki   butun   boshli
matnlarning   turli   tillardagi   variantlarini   bilish   imkoniyati   mavjud.
Xuddi   mana   shu   im-   koniyat   tufayli   maxsus   konkordanser
dasturlar   ishlab   chiqish   orqali   turli   xil   ixtisoslik   lug‘atlari   tuzish
imkoniyati   tug‘iladi.   Ushbu   imkoniyatlar   komp yuter
leksikografiyasi uchun ulkan ahamiyat kasb etadi.
Kompyuter   leksikografiyasiga   semantik   maydon,   semantik
tarmoq,   se mantik   to‘r   hamda   freym   semantikasining   faol   tatbiq
etilishi   natijasida   ul kan   kompyuter   leksikografiya   resurslari
yaratildi. Shunday yirik lek- sikografik resurslardan biri FRAMENET
bo‘lib,  u Internet tizimida on-line rejimida  ishlaydi. 75
  Mazkur tizim
Ch.Fillmorning   «Tools   for   Lexicon   Buil ding»   loyihasi   asosida
Kaliforniya   shtati,   Berkli   shahridagi   Xalqaro   infor-   matika
institutida ishlab chiqilgan. Framenet resursining ma’lumotlar ba-
zasida 10 000 ta leksik birlik mavjud, undan 6000 dan ortig'i toiiq
anno-   tatsiyaga   ega.   Bundan   tashqari,   ma’lumotlar   bazasida   800
ta   semantik   freym   ko‘rsatilgan,   135   000   annotatsiyali   gaplar
keltirilgan.
Elektron   Iug‘atlar   tuzish   jarayonida   ma’lumotlar   ombori,
matnlar   korpusini   yaratish,   qidiruv   tizimi,   kodlash,   lingvistik   va
dasturiy ta’minot un- surlari qatorida lemmatizatsiya bosqichi ham mavjud.   Lemmatizatsiya   -   bu   so‘zning   dastlabki,   boshlang'ich
formasini   (lug‘atdagi   shaklini   -   lemmasi-   ni)   tashkillashtirish
texnikasi   boiib,   bu   jarayon   o‘sha   so'zning   boshqa   so‘z-
shakllaridan   kelib   chiqqan   holda   amalga   oshiriladi.
Lemmatizatsiya   mor fologik   tahlil   metodi   tarkibiga   kiradi,   u   ikki
bosqichni o‘z ichiga oladi: 1) deklarativ bosqich - bunda  muayyan
so'zning   mumkin   boigan   barcha   shakl-   lari   (so‘z-shakllar)
belgilanadi;   2)   protsedura   bosqichi   -   bunda   so‘z   asos   va
qo'shimchalarga,   ya’ni   leksemalarga   yoki   morfemalarga   boiinadi.
Lem matizatsiya   so'zlarning   grammatik   valentligi,   qaysi   affikslar
bilan   birika   olish   imkoniyatini   ham   belgilab   beradi.   Masalan,
o'zbek tilida so‘zlarning lug‘atdagi shakli - lemmasi quyidagicha:
- ot so‘z turkumi uchun - bosh kelishik, birlik shakli;
- fe’l so‘z turkumi uchun - harakat nomi shakli;
- sifat so‘z turkumi uchun - oddiy daraja shakli.
Daftarlarni,   daftarlarga,   daftarlarning,   daftarlardan,
daftarlarda! daftar
Yugurdi, yugurgan, yuguryapti, yugurmoqchi ! yugurmoq
Ko‘kimtir, ko'kish, ko‘kroq ! ko‘k
Kitobiy   lug‘atlar   va   elektron   lug'atlarning   farqi   quyidagilarda
ko'rinadi:
1. Kitobiy   lug'atlarning   tuzilishi:   a)   lug‘atning   so'zligi
shakllantiriladi;   b)   misollar   kartotekalari   tuziladi;   c)   lug'at
maqolalari   yoziladi;   d)   lug‘atning   qolyozma   varianti   tayyorlanadi; e)   qoiyozma   tahrir   etiladi;   f)   muallif   tuza-   tishlar   qiladi;   g)   nashr
uchun   teriladi;   h)   lug‘at   sahifalanadi;   i)   korrektirovka   qilinadi;   j)
lug‘at nashr etiladi.
2. Elektron   lug'atlarning   tayyorlanishi:   a)   lug'atning   so‘zligi
shakllanti riladi; b) misollar korpusi (elektron kartotekalari) tuziladi;
c)   lug'at   maqola lari   yoziladi;   d)   lug‘at   maqolalarini   ma’lumotlar
bazasiga ko'chiriladi;
e) bevosita   ma’lumotlar   bazasida   lug'at   matni   tahrir   etiladi,
korrektirovka   qilinadi;   0   lingvistik   ta’minot   dasturiy   ta’minot   bilan
uyg'unlashtiriladi;
g) elektron lug‘at.
Kitobiy   lug'atlar   tuzilishi   sahifalar   ketma-ketligiga   tayanadigan
chiziq-   lilik   tamoyiliga   bo‘ysunadi.   Elektron   lug‘atlar   strukturasi
gipertekst   tex-   nologiyasiga   asoslangan   boiadi,   bu   esa
foydalanuvchiga   lug'at   maqola-   larining   ixtiyoriy   qismiga   tezkor
murojaat qilish imkonini beradi.
Elektron   lug'atlarning   ishlash   prinsiplarini   umumlashtirib
quyidagicha izohlash mumkin: 76
  Tilning har bir so'ziga mutanosib
keluvchi   kod   ishlab   chiqiladi   va   qoilanadi,   kodni   qayta   ishlash
jarayonida zaruriy boigan
Ma’lumotlar ombori
Dasturiy ta’minot (matematik modellashtirish va algoritm- lash)
Lingvistik ta’minot (faktografiya, matnlar korpusi)
Simvollar orqalj so'zlarni berish (kodlash) So'zlik tayyorlash (lemmatizaciya)
Qidiruv tizimi
Natija (dekodlash)
ma’lumotlar,   tarjimalar,   sinonim,   antonim   va   sharhlarga   ega
bo'lish mumkin.
So'zlarni   kodlashtirish   quyidagicha   amalga   oshiriladi.
Ma’lumotlar tekst fayllarga joylashtiriladi, uning har bir elementi 3
qismdan iborat bo‘ladi: 1) so'zning tartib raqami; 2) so'z; 3) kod.
«So‘zning   tartib   raqami»   (ya’ni   uning   adresi).   So‘zlarning
tarjimasi, si- nonimlari va antonimlarini ko‘rsatish ularning birinchi
harflarini ko- dirovkadagi tartib raqamlari bilan birgalikda keltirish
bilan amalga oshi riladi.
«So'z» - mutanosib alfavit harflari bilan yozilgan oddiy so'z.
«Kod» - raqam va harflar ketma-ketligi bo'lib, unda so'z barcha
zaruriy   morfologik,   sintaktik,   leksik   xususiyatlari   hamda   ushbu
so'zning   qaysi   so'zga   tegishliligi   haqidagi   ma’lumotlar   jamlangan
bo'ladi: grammatik ma’lumot, adreslar, tarjima, sinonim, antonim,
mutanosib sharhlar.
Kodlarni yaratish CREATE va CREATE 1 dasturlari orqali amalga
oshiriladi. Ular quyidagi tartibda ishlaydi:
So'z kiritiladi.
1. Grammatik   ma’lumotlar   yaratiladi   -   kompyuter   so'z   haqida
mor fologik va sintaktik ma’lumotlarni so'raydi va ular darhol aniq
nisbat asosi da shifrlanadi. 2. Tayyor   shifr   «Grammatik   ma’lumotlar»   bo'limiga   yozib
qo'yiladi.
3. Tarjimalar sinonimlar, antonimlar adreslari yaratiladi:
a) tarjimasi boiishi mumkin bo'lgan so'z so'raladi;
b) kiritilgan so‘z kodning mutanosib boiimiga yozib qo'yiladi;
v)   kodlashning   oxirida   tarjimalar   (sinonimlar,   antonimlar)   kodi
topiladi   va   kiritilgan   so‘zlar   o‘rniga   ularning   birinchi   harflari   va
tartib   raqamlari   yoziladi   (masalan,   «katta»   so‘zi   o‘rniga   K0083),
agar tarjimalar (sinonim, antonimlar) kodi topilmasa, u holda shu
so'zga   nisbatan   kodlash   operatsi-   yasi   amalga   oshiriladi   va   bu
bilan bosqich tamomlanadi.
5. Mazkur so'zga sharh kiritiladi:
a) matn kiritiladi;
b) maxsus  dastur   asosida   so'z  va   unng   sharhi  orasidagi   moslik
belgilana-   di,   so'ngra   kiritilgan   matn   xotiraga   yoziladi,   ular
orasidagi moslik esa so‘z kodida o‘z ifodasini topadi.
Dastur   ishlay   boshlashi   bilan   ekranda   u   va   uni   ishlab
chiquvchilari   haqi-   da   ma’lumotlar   paydo   bo'ladi.   Ular   bilan
tanishilgandan   so'ng   klavish   bosi-   ladi   va   dastur   quyidagi
bosqichlarda o‘z ishini davom ettiradi:
1. Ekranga 6 rejimga ega oyna chiqdi.
1-rejim.   Only   translation   (faqat   tarjima)   -   podstrochnikda
foydalani-   ladigan   tarjimalarni   va   mazkur   so'zning   qaysi   sohaga
tegishliligi   haqidagi   ma’lumotlarni   beradi.   Mazkur   rejimning asosiy   funksiyasini   Only-tran   maxsus   protsedurasi   amalga
oshiradi. Ushbu protsedura, avvalo, mazkur so‘z kodining adreslar
bo'limidan   tarjimalar   adresini   izlab   topadi.   So‘ng   uni   qayta
ishlashni   boshlaydi:   tarjimaning   birinchi   harfini   olib,   tekst   faylini
ochadi   (shu   harf   bilan   nomlangan)   va   berilgan   tartib   raqamiga
ko'ra tarji- mani topib, uni ekranga chiqaradi.
2. Grammatical information (grammatik ma’lumotlar) - so'zning
barcha   morfologik   va   sintaktik   xususiyatlari   va   undan
foydalanishdagi   ayrim   noa-   niqliklar   haqidagi   ma’lumotlarni
beradi.   Gram   info   maxsus   protsedurasi   ishlaydi.   Grammatik
ma’lumotlar   kodi   bo'limida   jamlangan   ma’lumotlarni   rasshifrovka
qiladi.
3. List of synonyms (sinonimlar ro'yxati).
4. List of antonyms (antonimlar ro‘yxati).
Ushbu   rejimlar   Syn-List   va   Ant-list   maxsus   protseduralar
yordamida   sinonimlar   va   antonimlar   ro'yxatini   beradi.   Ular
quyidagi   tartibda   ishlay di:   sinonim   va   antonimlar   kiritilgan   so'z
kodning «sinonimlar adresi» va «antonimlar adresi» bo'limlaridan
topiladi hamda ekranga chiqariladi.
5. New   word   formation   (yangi  so‘zlarni  qayta   yasash)   -  mazkur
so'z   bi lan   bir   xil   o'zakka   ega   bo'lgan   barcha   so'zlarni   chiqarib
beradi. Asosiy ish NWF protsedurasi vositasida amalga oshiriladi:
a) so'zning o'zagi ajratiladi; b) so'z haqidagi barcha ma’lumotlarga ega bo'lgan holda ushbu
o'zakka
Kompyuter lingvistikasi asoslari
91
old   qo'shimcha   va   boshqa   qo‘shimchalarni   qo‘shish   orqali
o'zgartirilishi mumkin bo‘lgan barcha so'zlarni chiqarib beradi.
6. Comments   (sharhlar)   -   o‘rganilayotgan   so‘z   tez   esda   qolishi
uchun   «aytib   berish»   (podskazka)   ko'rinishidagi   sharhlarni
chiqarib beradi.
II. lsh   uchun   zarur   bo'lgan   rejim   tanlanganidan   so‘ng   so‘z
kiritiladi.   Ayrim   elektron   lug‘atlarda   leksikon   bazasi   ozligi   sababli
ayrim so‘zlarning xotirada kodi bo'lmasligi ham mumkin. Shuning
uchun   kirishdan   so'ng   Find   Word   protsedurasi   ish   boshlaydi.
Uning   vazifasi   xotiradagi   so‘z   kodini   izlash-   dan   iborat.   Agar   u
topilsa, maxsus protseduralar uzatiladi, aks holda quyi- dagi xabar
chiqadi   «Sorry,   1   do   not   know   (Uzr,   men   buni   bilmayman)   va
keyingi so'z kiritiladi.
III. Topilgan   kod   tanlangan   rejimning   maxsus   dasturlari
bilan qayta ishlanadi, buning natijasida talab qilingan ma’lumotlar
chiqariladi.
IV. Tanlangan   rejimlarda   ishni   davom   ettirish   haqida
so'raladi.   « На »   javobidan   so'ng   dastur   ishi   ikkinchi   bosqichda
davom ettiriladi. Aks holda keyingi bosqichga o'tiladi.
V. Dastur ishini tamom qilish haqida so'raladi. Kompyuter   leksikografiyasi   bugungi   kunda   turli   qo'shimcha
imkoniyat-   lar   asosida   rivojlanib   bormoqda.   Xususan,   dastlab
kompyuter lug'atlari bir tilli, ikki tilli bo'lgan, hozirdako'p tilli (uch,
to'rt,   olti,   o'n   tilli)   elektron   lug'atlar   yaratilmoqda.   Shuningdek,
keyingi   paytlarda   muayyan   sohalarga   ixtisoslashgan   elektron
lug'atlar   ham   yaratilmoqda.   Ya’ni   dastlab   kompyu ter   lug'atlari
faqat   umumiy   leksikon   bilangina   cheklangan   edi,   hozirda   fanga
oid   bo'lgan,   qurilish,   aviatsiya,   avtomobilsozlik,   harbiy,   diniy,
yuridik   so halarga   oid   so'zlar   bazasi   ham   e’tiborga   olinmoqda.
Hatto   so'zlarning   matn-   da   qo'llanish   imkoniyatlari,   distributiv
holatlari, birikma holidagi ko'rinishlari ham nazarda tutilgan holda
lug'atlar   yaratilmoqda.   Bu   ko'rsatkichlar   komp yuter
leksikografiyasi sohasining taraqqiy etayotganidan darak beradi. Adabiy ot lar:
1.   Нелюбин   JI.   Л.   Компьютерная   лингвистика   и   машинный
перевод.
- М.: ВЦП, 1991.
A. Rahimov
2. Шемакин   Ю.И.   Начало   компьютерной   лингвистики.   -   М.:
МГОУ, 1992.
3. PoMatov   A.,   Muhamedova   S.   Kompyuter   lingvistikasi.   -
Toshkent, 2007.
4. Пиотровский   P.Г.   Текст,   машина,   человек.   -   М.:
Просвещение, 1989.
5. Баранов   А.Н.   Введение   в   прикладную   лингвистику.   -   М.:
Эди гориал УРСС, 2001.
6. Белоногов   Г.Г.   Компьютерная   лингвистика   и
перспективные   информационные   технологии.   -   М.:   Русский
мир, 2004.

KORPUS LIN GV ISTIKA SI Reja: 1. Korpus lingvistikasi kompyuter leksikografiyasining alohida yo‘nalishi sifatida. 2. Korpus turlari . 3. Til korpuslarini yaratish muammolari .

Kompyuter leksikografiyasini elektron matnlar korpusi yoki parallel matnlar korpuslarisiz tazavvur qilish mumkin emas. Matnlar korpusi («cor pus» lotincha «tana» degan ma’noni anglatadi) - bu elektron holda saqla- nadigan ma’lum til birliklari bo‘lib, ular tilshunoslar uchun turli xil muam- molarni hal etish uchun tatbiq etishda va turli yo'nalishdagi tadqiqotlar uchun zaruriyatga qarab turli shakllarda tuziladi. Bular fonema, grafema, morfemalardan tortib undan kattaroq birliklar - leksema, gap va matnlar- dan (badiiy yoki ilmiy asar, gazeta va jurnal matnlari) tashkil topishi mumkin. Ularning qay tarzda saqlanishiga qarab maxsus dasturlar yorda mida har bir kerakli so‘z yoki so‘z birikmasi uchun darhol uning qoilanishi bo‘yicha misollar topilishi, imlo bo‘yicha variantlari, sinonimik qatorlari topilishi mumkin. Matnlar korpusiga oid ilmiy tadqiqotlar salmog‘ining ko'payishi natijasida tilshunoslikda korpus lingvistikasi yo‘nalishi shakl- landi. 1 Kompyuterda yaratilgan birinchi matnlar korpusi Braun korpusi ( БК , inglizcha Brown Corpus, BC) hisoblanadi, u 1961-yilda Braun universiteti- da yaratilgan, har biri 2000 so'zli 500 ta matn fragmentini o‘z ichiga oladi. 1970-yillarda 1 mln so‘zni o‘z ichiga olgan matnlar korpusi asosida rus tilining chastotali lug'ati yaratildi. 1980-yillarda Shvetsiyaning Upsala uni- versitetida ham rus tilida matnlar korpusi yaratildi. Keyinchalik kompyuter 1 Баранов A . H . Введение в прикладную лингвистику. - М.: Эдиториал УРСС, 2001. -С.61.

leksikografiyasining rivojlanishi natijasida katta hajmli matnlar korpusiga ehtiyoj tug‘ildi. Ya’ni 1 mln ta so‘z elektron lug‘atlar bazasi uchun yetarli emas. Shu asosda yirik hajmli matnlar korpusi yaratila boshlandi. Ko'pgina mamlakatlarda XX asrning 80-yillaridan boshlab bunday korpuslar tuzila boshlandi. Ular turli maqsad va vazifalarga xizmat qiladi. Buyuk Britani- yada Ingliz tili Banki (Bank of English) hamda Britaniya Milliy Korpusi (British National Corpus. BMC), Rossiyada Rus tilining mashina fondi ( Машинный фонд русского языка ) hamda Rus tilining Milliy Korpusi ( Национальный корпус русского языка ) loyihalari ishlab chiqildi. 73 Masalan, Rus tilining milliy korpusi hajmi hozirgi kunda 149 mln so‘zdan iborat. Keyingi yillarda Internet tizimining rivojlanishi virtual matnlar kor pusi yuzaga kelishiga olib keldi. Ya’ni Internetdagi qidiriv saytlari, elek- tron kutubxonalar, virtual ensiklopediyalar korpus vazifasini bajarmoqda. Korpusning janri va tematik rang-barangligi Internetdan foydalanuvchi- ning qiziqishlariga bog‘liq. Masalan, ilm-fan doirasida Wikipedia katta hajm- dagi matnlar korpusi sifatida foydalanilmoqda. 74 Korpus lingvistikasida parallel matnlar korpusi ham muhim ahamiyat kasb etadi. Parallel matnlar korpusi esa, o‘z navbatida, badiiy asar, qo‘llanma, ommaviy axborot vositalari, turli xil hujjatlarning ikki yoki undan ko‘p tillardagi elektron holdagi ko‘rinishlaridir. Masalan, Yevropa Ittifoqi o'zining barcha qonun va

hujjatlarini ingliz, fransuz, nemis, ispan va ital- yan tillarida nashr qiladi hamda ular Internet tizimiga barchaga ochiq arxiv sifatida qo‘yiladi. Bunday korpuslarning afzalligi shundaki, ular yordami da nafaqat biron bir so‘z yoki jumlaning, balki butun boshli matnlarning turli tillardagi variantlarini bilish imkoniyati mavjud. Xuddi mana shu im- koniyat tufayli maxsus konkordanser dasturlar ishlab chiqish orqali turli xil ixtisoslik lug‘atlari tuzish imkoniyati tug‘iladi. Ushbu imkoniyatlar komp yuter leksikografiyasi uchun ulkan ahamiyat kasb etadi. Kompyuter leksikografiyasiga semantik maydon, semantik tarmoq, se mantik to‘r hamda freym semantikasining faol tatbiq etilishi natijasida ul kan kompyuter leksikografiya resurslari yaratildi. Shunday yirik lek- sikografik resurslardan biri FRAMENET bo‘lib, u Internet tizimida on-line rejimida ishlaydi. 75 Mazkur tizim Ch.Fillmorning «Tools for Lexicon Buil ding» loyihasi asosida Kaliforniya shtati, Berkli shahridagi Xalqaro infor- matika institutida ishlab chiqilgan. Framenet resursining ma’lumotlar ba- zasida 10 000 ta leksik birlik mavjud, undan 6000 dan ortig'i toiiq anno- tatsiyaga ega. Bundan tashqari, ma’lumotlar bazasida 800 ta semantik freym ko‘rsatilgan, 135 000 annotatsiyali gaplar keltirilgan. Elektron Iug‘atlar tuzish jarayonida ma’lumotlar ombori, matnlar korpusini yaratish, qidiruv tizimi, kodlash, lingvistik va dasturiy ta’minot un- surlari qatorida lemmatizatsiya bosqichi ham

mavjud. Lemmatizatsiya - bu so‘zning dastlabki, boshlang'ich formasini (lug‘atdagi shaklini - lemmasi- ni) tashkillashtirish texnikasi boiib, bu jarayon o‘sha so'zning boshqa so‘z- shakllaridan kelib chiqqan holda amalga oshiriladi. Lemmatizatsiya mor fologik tahlil metodi tarkibiga kiradi, u ikki bosqichni o‘z ichiga oladi: 1) deklarativ bosqich - bunda muayyan so'zning mumkin boigan barcha shakl- lari (so‘z-shakllar) belgilanadi; 2) protsedura bosqichi - bunda so‘z asos va qo'shimchalarga, ya’ni leksemalarga yoki morfemalarga boiinadi. Lem matizatsiya so'zlarning grammatik valentligi, qaysi affikslar bilan birika olish imkoniyatini ham belgilab beradi. Masalan, o'zbek tilida so‘zlarning lug‘atdagi shakli - lemmasi quyidagicha: - ot so‘z turkumi uchun - bosh kelishik, birlik shakli; - fe’l so‘z turkumi uchun - harakat nomi shakli; - sifat so‘z turkumi uchun - oddiy daraja shakli. Daftarlarni, daftarlarga, daftarlarning, daftarlardan, daftarlarda! daftar Yugurdi, yugurgan, yuguryapti, yugurmoqchi ! yugurmoq Ko‘kimtir, ko'kish, ko‘kroq ! ko‘k Kitobiy lug‘atlar va elektron lug'atlarning farqi quyidagilarda ko'rinadi: 1. Kitobiy lug'atlarning tuzilishi: a) lug‘atning so'zligi shakllantiriladi; b) misollar kartotekalari tuziladi; c) lug'at maqolalari yoziladi; d) lug‘atning qolyozma varianti tayyorlanadi;