KORPUS LINGVISTIKASI
KORPUS LIN GV ISTIKA SI Reja: 1. Korpus lingvistikasi kompyuter leksikografiyasining alohida yo‘nalishi sifatida. 2. Korpus turlari . 3. Til korpuslarini yaratish muammolari .
Kompyuter leksikografiyasini elektron matnlar korpusi yoki parallel matnlar korpuslarisiz tazavvur qilish mumkin emas. Matnlar korpusi («cor pus» lotincha «tana» degan ma’noni anglatadi) - bu elektron holda saqla- nadigan ma’lum til birliklari bo‘lib, ular tilshunoslar uchun turli xil muam- molarni hal etish uchun tatbiq etishda va turli yo'nalishdagi tadqiqotlar uchun zaruriyatga qarab turli shakllarda tuziladi. Bular fonema, grafema, morfemalardan tortib undan kattaroq birliklar - leksema, gap va matnlar- dan (badiiy yoki ilmiy asar, gazeta va jurnal matnlari) tashkil topishi mumkin. Ularning qay tarzda saqlanishiga qarab maxsus dasturlar yorda mida har bir kerakli so‘z yoki so‘z birikmasi uchun darhol uning qoilanishi bo‘yicha misollar topilishi, imlo bo‘yicha variantlari, sinonimik qatorlari topilishi mumkin. Matnlar korpusiga oid ilmiy tadqiqotlar salmog‘ining ko'payishi natijasida tilshunoslikda korpus lingvistikasi yo‘nalishi shakl- landi. 1 Kompyuterda yaratilgan birinchi matnlar korpusi Braun korpusi ( БК , inglizcha Brown Corpus, BC) hisoblanadi, u 1961-yilda Braun universiteti- da yaratilgan, har biri 2000 so'zli 500 ta matn fragmentini o‘z ichiga oladi. 1970-yillarda 1 mln so‘zni o‘z ichiga olgan matnlar korpusi asosida rus tilining chastotali lug'ati yaratildi. 1980-yillarda Shvetsiyaning Upsala uni- versitetida ham rus tilida matnlar korpusi yaratildi. Keyinchalik kompyuter 1 Баранов A . H . Введение в прикладную лингвистику. - М.: Эдиториал УРСС, 2001. -С.61.
leksikografiyasining rivojlanishi natijasida katta hajmli matnlar korpusiga ehtiyoj tug‘ildi. Ya’ni 1 mln ta so‘z elektron lug‘atlar bazasi uchun yetarli emas. Shu asosda yirik hajmli matnlar korpusi yaratila boshlandi. Ko'pgina mamlakatlarda XX asrning 80-yillaridan boshlab bunday korpuslar tuzila boshlandi. Ular turli maqsad va vazifalarga xizmat qiladi. Buyuk Britani- yada Ingliz tili Banki (Bank of English) hamda Britaniya Milliy Korpusi (British National Corpus. BMC), Rossiyada Rus tilining mashina fondi ( Машинный фонд русского языка ) hamda Rus tilining Milliy Korpusi ( Национальный корпус русского языка ) loyihalari ishlab chiqildi. 73 Masalan, Rus tilining milliy korpusi hajmi hozirgi kunda 149 mln so‘zdan iborat. Keyingi yillarda Internet tizimining rivojlanishi virtual matnlar kor pusi yuzaga kelishiga olib keldi. Ya’ni Internetdagi qidiriv saytlari, elek- tron kutubxonalar, virtual ensiklopediyalar korpus vazifasini bajarmoqda. Korpusning janri va tematik rang-barangligi Internetdan foydalanuvchi- ning qiziqishlariga bog‘liq. Masalan, ilm-fan doirasida Wikipedia katta hajm- dagi matnlar korpusi sifatida foydalanilmoqda. 74 Korpus lingvistikasida parallel matnlar korpusi ham muhim ahamiyat kasb etadi. Parallel matnlar korpusi esa, o‘z navbatida, badiiy asar, qo‘llanma, ommaviy axborot vositalari, turli xil hujjatlarning ikki yoki undan ko‘p tillardagi elektron holdagi ko‘rinishlaridir. Masalan, Yevropa Ittifoqi o'zining barcha qonun va
hujjatlarini ingliz, fransuz, nemis, ispan va ital- yan tillarida nashr qiladi hamda ular Internet tizimiga barchaga ochiq arxiv sifatida qo‘yiladi. Bunday korpuslarning afzalligi shundaki, ular yordami da nafaqat biron bir so‘z yoki jumlaning, balki butun boshli matnlarning turli tillardagi variantlarini bilish imkoniyati mavjud. Xuddi mana shu im- koniyat tufayli maxsus konkordanser dasturlar ishlab chiqish orqali turli xil ixtisoslik lug‘atlari tuzish imkoniyati tug‘iladi. Ushbu imkoniyatlar komp yuter leksikografiyasi uchun ulkan ahamiyat kasb etadi. Kompyuter leksikografiyasiga semantik maydon, semantik tarmoq, se mantik to‘r hamda freym semantikasining faol tatbiq etilishi natijasida ul kan kompyuter leksikografiya resurslari yaratildi. Shunday yirik lek- sikografik resurslardan biri FRAMENET bo‘lib, u Internet tizimida on-line rejimida ishlaydi. 75 Mazkur tizim Ch.Fillmorning «Tools for Lexicon Buil ding» loyihasi asosida Kaliforniya shtati, Berkli shahridagi Xalqaro infor- matika institutida ishlab chiqilgan. Framenet resursining ma’lumotlar ba- zasida 10 000 ta leksik birlik mavjud, undan 6000 dan ortig'i toiiq anno- tatsiyaga ega. Bundan tashqari, ma’lumotlar bazasida 800 ta semantik freym ko‘rsatilgan, 135 000 annotatsiyali gaplar keltirilgan. Elektron Iug‘atlar tuzish jarayonida ma’lumotlar ombori, matnlar korpusini yaratish, qidiruv tizimi, kodlash, lingvistik va dasturiy ta’minot un- surlari qatorida lemmatizatsiya bosqichi ham
mavjud. Lemmatizatsiya - bu so‘zning dastlabki, boshlang'ich formasini (lug‘atdagi shaklini - lemmasi- ni) tashkillashtirish texnikasi boiib, bu jarayon o‘sha so'zning boshqa so‘z- shakllaridan kelib chiqqan holda amalga oshiriladi. Lemmatizatsiya mor fologik tahlil metodi tarkibiga kiradi, u ikki bosqichni o‘z ichiga oladi: 1) deklarativ bosqich - bunda muayyan so'zning mumkin boigan barcha shakl- lari (so‘z-shakllar) belgilanadi; 2) protsedura bosqichi - bunda so‘z asos va qo'shimchalarga, ya’ni leksemalarga yoki morfemalarga boiinadi. Lem matizatsiya so'zlarning grammatik valentligi, qaysi affikslar bilan birika olish imkoniyatini ham belgilab beradi. Masalan, o'zbek tilida so‘zlarning lug‘atdagi shakli - lemmasi quyidagicha: - ot so‘z turkumi uchun - bosh kelishik, birlik shakli; - fe’l so‘z turkumi uchun - harakat nomi shakli; - sifat so‘z turkumi uchun - oddiy daraja shakli. Daftarlarni, daftarlarga, daftarlarning, daftarlardan, daftarlarda! daftar Yugurdi, yugurgan, yuguryapti, yugurmoqchi ! yugurmoq Ko‘kimtir, ko'kish, ko‘kroq ! ko‘k Kitobiy lug‘atlar va elektron lug'atlarning farqi quyidagilarda ko'rinadi: 1. Kitobiy lug'atlarning tuzilishi: a) lug‘atning so'zligi shakllantiriladi; b) misollar kartotekalari tuziladi; c) lug'at maqolalari yoziladi; d) lug‘atning qolyozma varianti tayyorlanadi;