logo

END-TO-END MODELLAR ASOSIDA O‘ZBEK TILIDAGI NUTQNI AVTOMATIK TANIB OLISHNING ALGORITMLARI VA DASTURIY TA’MINOTINI ISHLAB CHIQISH

Загружено в:

12.08.2023

Скачано:

0

Размер:

3646.583984375 KB
END-TO-END MODELLAR ASOSIDA O‘ZBEK TILIDAGI NUTQNI
AVTOMATIK TANIB OLISHNING ALGORITMLARI VA DASTURIY
TA’MINOTINI ISHLAB CHIQISH 
MUNDARIJA
KIRISH ………………………………………………………...................... 4
I-
BOB NUTQ SIGNALLARINI AVTOMATIK TANIB OLISHNING
USULLAR TAHLILI 7
1.1 -§ Nutq signallarini tarkibi va xususiyatlari ………………….............. 7
1.2 -§ Nutq signallariga dastlabki ishlov berishda qo’llaniladigan 
algoritmlar tahlili…………………. ……………………….……..... 10
Birinchi bob bo yicha xulosalar.........................................................ʻ 17
II- 
BOB NUTQ SIGNALLARINI PARAMETRLASH 
ALGORITMLARI.......................................................................... 18
2.1 -§ Nutq signallarini spektral taqdim etishning algoritmlari va 
usullari…………………………………………………….….......... 18
2.2 -§ Nutq signalini parametrlash tasnifi…………………….….............. 24
2.3 -§ Nutq korpusi shakllantirish texnologiyalari...................................... 29
Ikkinchi bob bo yicha xulosalar
ʻ   …..………………………………. 33
III- 
BOB  NUTQNI TANISH TIZIMINI LOYIHALASHTIRISH  …........
34
3.1 -§ Neyron tarmoqlari………………………………………………..... 34
3.2 -§ Chuqur neyron tarmoqlarining arxitekturalari………………......... 40
  3.3 -§ Nutqni tanish tizimining strukturali sxemasi……………….......... 43
 3.4 -§ Neyron tarmoqni loyihalashtirish va arxitekturasini ishlab 
chiqish……………………………………………………………… 45
Uchinchi bob bo yicha xulosalar
ʻ   …..……………………………… 58
IV- 
BOB End-to-End tizimiga asosan nutqni tanish modulini ishlab 
chiqish  ….….……........................................................................... 59
    4.1 -§ Python dasturlash tili. TensorFlow kutubxonasi………………........ 59
    4.2 -§ Tanib olish modullarini dasturiy amalga oshirish.............................. 61
    4.3 -§ Nutqni tanib olish moduli ishini sifatini baholash............................. 64
To‘rtinchi bob bo yicha xulosalar
ʻ   ………………………………… 67
1 XULOSA …………………………………………………..…....................... 69
ADABIYOTLAR RO YXATIʻ ………………………………………….… 71
ILOVALAR …………………………………………………..….............… 76
ANNOTATSIYA
Ushbu ilmiy tadqiqot ishida  neyron tarmoqlari modeli asosida o‘zbek tili nutqi
nutqini   tanib  olish   masalasini  yechish   jarayoni   o‘rganib  chiqilgan.  Nutq  signallariga
ishlov   berish,   ularni   tanib   olish   va   tahlil   qilish   uchun   avtomatlashtirilgan   tizimlar
yaratishning   mavjud   usul   va   algoritmlarini   takomillashtirish   hamda   yangi   hisoblash
algoritmlarini ishlab chiqishga yo‘naltirilgan keng qamrovli ilmiy-tadqiqot ishlari olib
borilgan.   N utq   signallarga   ishlov   berish   algoritmlari     tahliliga   asoslangan   holda
o’zbek   tili   uchun     nutq   signalarlarni   tanishning   neyron   tarmog’iga   asoslangan
algoritmlari   va   dasturiy   vositasi   ishlab   chiqilgan.   Bu   borada,   nutq   korpusini
shakllantirish,   nutq   signallarini   xarakterlovchi   belgilarni   ajratish   usullari
takomillashtirish va yaratish hamda ushbu xarakterlovchi belgilar asosida tanib olish
algoritmlarini   ishlab   chiqish,   ular   asosida   nutqni   avtomatik   tanib   olishning   dasturiy
vositalarini yaratish axborot texnologiyalarini rivojlantirishning muhim vazifalaridan
biri hisoblanadi.
ANNOTATION
In this scientific research, the process of solving the problem of Uzbek language
speech   recognition  based  on  the  neural  network  model   was   studied.  Comprehensive
research   and   development   activities   aimed   at   improving   the   existing   methods   and
algorithms   for   creating   automated   systems   for   processing   speech   signals,   their
recognition and analysis, as well as developing new calculation algorithms have been
carried   out.   In   this   regard,   the   formation   of   a   speech   corpus,   the   improvement   and
creation   of   methods   for   distinguishing   characters   characterizing   speech   signals,   the
development of recognition algorithms based on these characterizing characters, and
2 the creation of software tools for automatic speech recognition based on them are one
of the important tasks of the development of information technologies.
KIRISH
    Dissertasiya ishining dolzarbligi.  Mamlakatimizda mustaqillik yillarida ilm fan
sohasida   keng   ko’lamli   ishlar   amalga   oshirildi.   Axborot   texnologiyalari   sohasida
zamonaviy   texnologiyalarning   joriy   etilishi   muhim   ahamiyat   kasb   etdi.   Sohalarga
zamonaviy   axborot   texnologiyalarning   kirib   borishi   natijasida   ilm-fan   va   tadqiqot
sohalarining   masalalari   kengaydi.   Hozirgi   kunda   har   bir   sohaga   axborot
texnologiyalari kirib bormoqda. Davlatimizni yanada barqaror va jadal sur’atlar bilan
rivojlantirish   uchun   mutlaqo   yangicha   yondashuv   hamda   tamoyillarni   ishlab   chiqish
va   ro’yobga   chiqarish,   Respublikada   olib   borilayotgan   islohotlar   samarasini   yanada
oshirish,   davlat   va   jamiyatning   har   tomonlama   va   jadal   rivojlanishi   uchun   shart-
sharoitlar   yaratish,   mamlakatimizni   modernizasiya   qilish   hamda   hayotning   barcha
sohalarini liberallashtirish bo’yicha ustuvor yo’nalishlarni amalga oshirish maqsadida,
O’zbekiston   Respublikasi   Prezidentining   2017   yil   7   fevraldagi   “O’zbekiston
Respublikasini   yanada   rivojlantirish   bo’yicha   Harakatlar   strategiyasi   to’g’risida”gi
PF-4947-son farmoni qabul qilindi [1]. 
Mazkur   farmonda   ko’rsatilgan   vazifalarni   amalga   oshirishda   jumladan,   nutqni
tanib   olish   usullaridan   foydalanib   axborot   tizimlarida   ovozli   so’rovlarni   amalga
oshirish,   texnik   qurilmalarni   ovozli   buyruqlar   asosida   boshqarish,   ovozli   qidiruv,
eshitish   va   nutqida   muammosi   mavjud   bolalar   reabilitasiyasi   hamda   ularni   o’qitish
muhim   masalalardan   biridir .     Shuning   uchun   nutqga   dastlabki   ishlov   berish,   ularni
tavsiflovchi xarakterli belgilarni ajratish va tanib olish masalalari, intellektual ishlov
berish usul va algoritmlarini rivojlantirish hamda ularni nutqni avtomatik tanib olish
tizimlarda qo’llash dolzarb muammo hisoblanadi.
3 Tadqiqot   obyekti   va   predmeti .   Tadqiqot   obyekti   sifatida   turli   sharoitlarda
yozib   olingan     o’zbek   tili   nutq   signallari   va   ulardan   hosil   qilingan   muhim   belgilar
to’plami, rekurrent neyron tarmoqlarini o’qitish jarayoni qaralgan. Tadqiqot predmeti
sifatida     nutq   signallarni   tanishda   foydalaniladigan   algoritmlar,   nutq   signalning
parametrlari, nutq signallarga ishlov berishda  qo’llaniladigan intelektual  algoritmlari
va modellar tashkil etadi.
Tadqiqotning   maqsadi   va   vazifalari.     Tadqiqot   maqsadi   nutq   signallarga
ishlov   berish   algoritmlari     tahliliga   asoslangan   holda     o’zbek   tili   uchun     nutq
signallarni   tanishning   neyron   tarmog’iga   asoslangan   algoritmlari   va   dasturiy
vositasini ishlab chiqishdan iborat. 
Ushbu   maqsadga   erishish   uchun   dissertasiya   ishida   quyidagi   vazifalar   hal
etiladi: 
- Nutq   signallariga   ishlov   berish   va   ularni   tanib   olishga   mo’ljallangan
adabiyotlar tahlilini olib borish;
- nutq signallarga ishlov beruvchi apparat va dasturiy vositalarni tahlil qilish
va imkoniyatlarini o’rganish;
- nutq   signallarga   ishlov   berish   jarayonlarida     qo’llaniladigan   algoritmlarni,
modellarni tahlil qilish va ularning asosiy vazifalarini o’zlashtirish;
- neyron   tarmoqlariga   asoslangan   nutq   signallarini   akustik   modellashtirishni
usullarini tahlil qilish va tanlash.
- O’zbek   tili   nutqini   tanib   olishning   algoritmi   va   dasturiy   vositasini   ishlab
chiqish.  
Tadqiqot   usullari.   Dissertasiya   ishi     tadqiqotlarni   olib   borish   quyidagi
usullardan   foydalaniladi:   ehtimollar   nazariyasi;   timsollarni   tanish;   ma’lumotlarga
intellektual   ishlov   berish;   matematik   statistika;   chiziqli   algebra;   signallarga   raqamli
ishlov berish; obyektga yo’naltirilgan dasturlash.
Tadqiqotning ilmiy yangiligi  quyidagilardan iborat: 
4  audio manbalardan nutq korpusini shakllantirish uchun  audio fayl va unga mos
keluvchi   matnni   segmentasiyalash   algoritmlari     hamda   segmentlangan
audiofayl   va   uning   matni   mosligini   tekshiruvchi   dasturiy   interfeysi   ishlab
chiqilgan;
 o’zbek   tili   nutqini   avtomatik   tanib   olishning   rekurrent   neyron   tarmog’i
arxitekturasi yaratilgan.
Tadqiqotning   amaliy   natijasi   quyidagilardan   iborat:   Ishlab   chiqilgan
algoritmlar   va   dasturiy   vositalar   asosida   quyidagi   tizim   va   sohalarga   keng   qo’llash
mumkin: 
 turli   audio   manbalardan   nutq   korpusini   shakllantirish   algoritmlari   asosida
dastur ishlab chiqildi va cheklangan lug’atdagi o’zbek tili nutqini tanish tizimi
uchun qo’llandi;
 nutq   signallarini   yaxshi   ifodalay   oladigan,   turli   halaqitlarga   barqaror   bo’lgan
belgilar vektorini hosil qilish algoritmi va dasturi yaratildi; 
 cheklangan   lug’atdagi   o’zbek   tili   nutqini   avtomatik   tanib   olish   dasturlari
texnikalarni ovozli boshqaruv jarayonlariga qo’llaniladi.
Dissertasiyaning hajmi va tuzilishi.  Magistrlik dissertasiyasi tarkibi kirish, to’rtta
bob,   umumiy   xulosalar,   foydalanilgan   adabiyotlar   ro’yxati   va   ilovalardan   iborat.
Dissertatsiya ishida 4 ta jadval, 38 ta rasm keltirilgan. Dissertasiyaning hajmi  83  betni
tashkil etgan. 
5 I-BOB. NUTQ SIGNALLARINI AVTOMATIK TANIB OLISHNING
USULLAR TAHLILI 
Ushbu bobda nutq signallarini tarkibi va xususiyatlari, o’zbek tilida nutqni hosil
qilishda qo’llaniladigan tovushlat  tavsifi, nutqni  tanish  tizimlarining klassifikatsiyasi
hamda nutq signallariga dastlabki ishlov berishda qo’llaniladigan algoritmlar tahlillari
keltirib o’tilgan.
1.1§    Nutq signallarining tarkibi va xususiyatlari
Nutq   signallariga   raqamli   ishlov   berishda   dastlab   inson   nutqning   hosil   qilish
jarayonini,   nutq   signallarining   tarkibi,   tuzilishi   va   xususiyatlarini     o’rganishni   talab
qiladi.     Nutq   fonemalar   talaffuzidan   tovushlar,   tovushlarning   birlashishidan
bo’g’inlar,     bo’g’inlarni   birlashtirishdan   so’zlar,   so’zlar   jamlanmasidan   gaplar   kelib
chiqadi. Nutq  tovushlari nutq a’zolari qatnashishidan vujudga keladi. Nutq a’zolariga
o’pka,  kekirdak, tovush  paychalari,   og’iz  bo’shlig’i, katta va kichik tillar, yumshoq
va qattiq tanglaylar, yuqori va pastki lablar,  yuqori va pastki tishlar, burun bo’shlig’i
va   bo’g’iz   bo’shliqlari   kiradi.Yuqoridagi   nutq   a’zolari   insonga   nutqni   to’liq   talaffuz
qilishida xizmat qiladi. Nutq tovushlari so’z ma’nolarini farqlash uchun xizmat qiladi.
Bu   ularning   asosiy   vazifasidir.   Inson   nutqining   hosil   bo’lishi   uchun   ko’plab
murakkab   jarayonlar   ketma   ketligi   amalga   oshiriladi.   Nutq   tovushlarini   hosil
bo’lishida   avval   o’pkadan   chiqayotgan   havo   oqimi   nafas   yo’li,     kekirdak   orqali
bo’g’izga,   undan   og’iz   bo’shlig’i   yoki   burun   bo’shlig’iga   o’tib   so’ngra   tashqariga
chiqadi. Nutq tovushlarini hosil qilishda tovush naychalari, lablari va til juda muhim
ahamiyatga   ega.     Nutq   tovushlari   inson   nutq     a’zolarining   o’zaro   ta’sirida   havo
zarralarining   tebranish   to’lqini   yig’indisidan   tashkil   topgan.   Inson   tovushlari   huddi
shu     qonuniyat   asosida   vujudga   keladi.   Nutq  tovushlari   boshqa   tovushlardan   tubdan
farqlanadi,   buning   sababi   so’zdagi   har   bir   tovush   uning   lug’aviy   ma’nosini
o’zgartirishidadir. Inson  nutq a’zolarining  markazlashib harakatlanishi sababli  nutq
6 yuzaga   keladi.     Inson   nutqining     paydo   bo’lishi   quyidagi   rasmda   aks   ettirilgan(1.1-
rasm). 
Nutqning shakllanishi natijasida analog ko’rinishdagi tabiiy nutq vujudga keladi.
Nutqni   raqamli     ko’rinishda   ifodalash   natijasida   nutq   signali   hosil   bo’ladi.     Nutq
signali   murakkab   signal   sirasiga   kiradi.   Chunki   nutq   signali   yuzaga   kelishida   inson
nutq a’zolarining ko’pchiligi  ishtirok etadi.  Insinning nutq a’zolari    nutq signalining
tebranishini  murakkablashtiradi. Natijada murakkab tebranishlar asosidagi  murakkab
nutq signali hosil bo’ladi.   
1.1-rasm. Inson nutqining shakllanishi
Nutqni   hosil   qiluvchi   inson   a’zolarining   hammasi   markaziy   nerv   sistemasi
boshqaruvida bo’ladi.  Bu a’zolarning qay darajada ishtirok etishi, tebranishi yoki shu
kabi   parametrlariga   asosan,   dasturiy   mahsulot   ishlab   chiqarishdagi   ishlatiladigan
xususiyatlar o’zgaradi. Inson nutqining xususiyatlari:
1. Nutq   tovushlarining   balandligi   –   ma’lum   bir   vaqt   mobaynida   paychalarining
tebranishinishga   k o’ ra   turli   bo’lishidir .   ushbu   tebranishlar   nutq   tovushining
amplitudasiga ta’sir qilmaydi;
2. Nutq   tovushlarining   kuchi   –   ma’lum   kenglikdagi   maydondan   ma’lum   bir
va q tda   o’ tadigan   energiya   mi q doridir.   Bu   ko’rsatkich   nutqning   quvvati   va
energiyasiga ta’sir qilmaydi;
7 3. Nutq tovushlarining tembri – asosiy ton bilan hosil bo’ladi. Bu xususiyat har
bir   inson   uchun   alohida   bo’ladi   shu   sababli   bu   bilan   inson   nutqni   tanib   olish
tizimlarida foydalaniladi.
Inson nutqi yuzaga kelishida har bir nutq a’zolari har xil shakllanishlari asosida
o’zining vazifasini bajaradi. Ya’ni, qaysi biridir zarurligicha tebranadi  yoki yopiladi.
Nutq   yuzaga   keishida   qancha   ko’p   nutq   a’zolari   qatnashsa,   shuncha   nutqni   qayta
ishlash   murakkablashib   boradi.   Shuningdek   nutq   fonemalarining   ketma   ketligi   ham
nutqni qayta ishlash jarayoniga ta’sir qiladi.
Tabiatda inson tovushining har xil turlari bor. Inson tovushini sinflarga bo’lishda
asosan qo’shiqchilarning qo’shiq aytayotgan paytidagi olgan diapozoniga asoslanadi.
Ovoz   kuchini   aniqlashda   tovushni   tiniqligiga   va   yo’g’onligiga   ko’proq   e’tibor
qaratiladi. Inson nutqining sinflanishi  1.1-jadvalda keltirilgan.
Inson ovozining sinflanishi                             1.1-jadval
Ayollar tovushi Soprano   — yuqori 1400 Gs gacha
Metsso – soprano  
(o’rta) 260–1050 Gs
Kontralto (quyi) 260–780 Gs
Erkaklar tovushi Tenor (yuqori) 130–520 Gs
Bariton (o’rta) 110–149 Gs
Bas (quyi) 80–350 Gs
Nutq tovushlarining  sinflanishida ovoz diapozoni va nutq aytayotgan insonning
jinsi   ahamiyatga   ega.   Asosiy   o’lchov   kriteriyalari   atiga   ikkita   bo’lsa   ham,   o’lchov
jarayonida   har   xil,   bir-birini   takrorlamaydigan   nutq   tovushlari   hosil   bo’ladi.   Nutq
tovushlarining   sinflanishi   va   nutq   tovushlarining   yuzaga   kelish   jarayonini
birlashtirishdan nutq signalining kriteriyalarini aniqlash mumkin.  
Birinchidan   nutq   signali   murakab   tebranishlardan   hosil   bo’lgan   signal.
Ikkinchidan bir nutq signalining tarkibi boshqa nutq signalining tarkibiga mos emas.
8 Uchinchidan   nutq   signalining   formant   chastotasi   shaxslar   uchun   turli   chastota
oralig’ida bo’ladi. Yuqoridagi kriteriyalarga asoslangan holda nutq signallariga ishlov
berish     murakkab   algoritmlar   asosida  amalga  oshiriladi.     Nutq  signallariga  dastlabki
ishlov   berishda   qo’llaniladigan   algoritmlar   tahlili   tahlili   keyingi   bo’limda   amalga
oshirilgan.
1.2§. Nutq   signallariga dastlabki ishlov berishda qo’llaniladigan algoritmlar
tahlili
Nutq   signallariga   dastlabki   ishlov   berish   jarayononing   ketma   ketligi   quyidagi
1.2-rasmda ko’rsatilgan.
1.2-rasm. Dastlabki ishlov berish bosqichlari.
Nutqni   yozib   olish   jarayonida   tovush   signalining   amplitudasiga   quyidagi
omillar  ta’sir  qiladi:  Nutq so’zlovchi  va mikrofon orasidagi  masofa,  nutq so’zlovchi
ovozining   balandligi,   va   hk.   Yuqoridagi   omillar   nutq   signali   balandligining   katta
o zgaruvchanligiga olib keladi . Turli xil ovoz yozish uskunalari qo’llanilsa bu hodisaʻ
yanada   ko’proq   seziladi.   Amplitudani   normallashtirish   tartibi   yordamida   ovoz
9Diskretlash Va d Filtrlash Freymlash Silliqlash balandligining tarqalishi  bartaraf  etiladi. Ushbu  usulda signal  amplitudasi  chegaralar
bilan   ajratiladi  [
∆
2,−	∆
2] .   Normallashtirilgan   signal  	^s [n]   namunalarini   olish   quyidagi
formula bo’yicha amalga oshiriladi:	
^s[n]=	∆	
max	∨s[m]∨¿∙s[n]¿
                                ( 1.1)
             Bu yerda   ∆
-  normalizasiya chizig ining kengligi , absissa o qiga nisbatan 
ʻ ʻ
simmetrik, (masalan,  1.3-rasmda. ∆ = 1).
                                    a)                                                                b)
1.3-rasm   (a) va (b) normalizasiyadan keyin raqamlashtirilgan nutq signali.
Ovoz   balandligining   o zgaruvchanligini   baholash   uchun   bir   yoki   bir   nechta	
ʻ
so’zlarni talaffuz qilishning  ??????  misollarini ko rib chiqamiz. Uzunligi 	
ʻ ??????  na’munalar
bo lgan  	
ʻ ?????? -misol   uchun   o rtacha   ovoz   balandligi   qiymatini  	ʻ ??????   ( ??????)     va   ??????   misollar
uchun o rtacha 	
ʻ ??????
Q  ni topamiz:
M	
( q) =
∑
n = 1N
s	[ n	] , q = 1 , … , Q ;                ( 1.2)
             M
Q = 1
Q ∑
q = 1Q
M ( q )
                                  ( 1.3)
10             Shundan so ng, biz har bir misolning ovoz balandligining o rtacha qiymatdan ʻ ʻ
nisbiy og ishini 	
ʻ ??????  ( ?????? ) hisoblaymiz:
           D	
( q	) =	| 1 − M	
( q	)
M
Q
|                                    ( 1.4)
              (1.2), (1.3) formulalardan quyidagi xulosaga kelamiz, natijaga na’munaning
mutlaq qiymati ham, misoldagi  ushbu na’munalar soni ham ta’sir qiladi, shu sababli
uzunligi   taxminan   bir   xil   bo lgan   bir   sinfga   oid   misollar   to plami   va   umuman	
ʻ ʻ
asosning   ovoz   balandligining   o zgarishi   ovoz   balandligining   o zgaruvchanligini	
ʻ ʻ
baholash   kerak.   Shakllar   1.4   a)   -b)   ??????   ( ?????? )   ni   ko’rsatadi   ??????   =   100   ta   "uch"   so zining	
ʻ
normalizasiyadan oldin va keyin qayd yetilgan misollari. Ovoz balandligi asl misollar
uchun 28,5% va normallashtirilganlar uchun 14,3% ni tashkil etadi. Grafiklar 1.4 c) -
d)   nutq   bazasi   uchun   ??????   =   2000   ta   turli   talaffuz   misollari   ??????   ( ?????? )   ni   ko’rsatadi.   Ovoz
balandligi asl baza uchun 25,8% va normallashtirilgan baza uchun 23,11% ni tashkil
etadi.
a)                                                                  b)
11                                                 c)                                                            d)
1.4-rasm. Normallashtirilgan chiqish misollari uchun energiyaning o rtachaʻ
qiymatidan energiyaning og ishiga misol	
ʻ
                Tadqiqotdan   quyidagilar   ma’lum   bo’ladi,   normalizasiyadan   foydalanish   har
doim   turli   talaffuzlar   uchun   ovoz   balandligining   tarqalishini   kamaytirishga   imkon
yaratadi. Bu natijalar bir xil  sharoitlarda mavjud bo lgan yagona uskunada yig ilgan	
ʻ ʻ
nutq bazasi uchun olinganligi sababli normalizasiya umuman ahamiyat kasb etmaydi.
Ammo,   turli   xil   sharoitlarda   nutq   signali   qabul   qilinganda,   haqiqiy   tizimning
ishlashida normalizatsiya kerak bo‘ladi.
           Avtomatik nutqni tanish  tizimiga (ANTT) kirish signalida har xil yod tovushlar
mavjud:   karnayning   baland   nafas   olishi,   mikrofon   shovqini   va   hk.   Tanib   olishning
aniqligini yuqorilashtirish maqsadida CAPP ishlashidagi dastlabki bosqich  signalning
nutq mavjud bo lgan bo’laklarini olishdir.	
ʻ
Diskretlash   chastotasi     -   bu     signalni   raqamlashtirish   jarayonidir,   u   analog
siganlni raqamli signalga aylantiradi. Nutq signallari 16 kGs diskretlash chastotasida
yozib olinadi. Ushbu diskretlash chastotasini tanlashdan maqsad analogdan raqamliga
almashtirish jarayonida aliasing effektini minimallashtirishdir[2].  
VAD   (Voice   Activation   Detection).   Nutqni   signaldan   ajratishning   mavjud
usullari   ??????   ( ?????? )   vaqt   domenida   ishlaydi.   Bularga   qisqa   muddatli   signal   energiyasini
topish   ??????
??????   ( ?????? ) (1), qisqa muddatli signal quvvati   ??????
??????   ( ?????? ) (2) va noldan kesib o’tuvchi
nuqtalar chastotasi  ??????
??????  ( ?????? ) (3) kiradi.
E
s	
( m	) =
∑
n = m − L + 1m
s 2
( n )                          (1.5)
P
s	
( m	) = 1
L ∑
n = m − L + 1m
s 2
( n )                         (1.6)
Z
s	
( m	) = 1
L ∑
n = m − L + 1m
¿ sgn	( s	( n	)) − sgn	( s( n − 1	)) ∨ ¿
2 ¿           (1.7)
12 sgn ( s ( n ) ) ={ + 1 , s ( n ) ≥ 0
− 1 , s	( n	) < 0                                  (1.8)
          Bu xarakteristikalar signalning  ??????  ( ?????? ) uzunligi L bo lgan m-bo lim (blok) uchun	
ʻ ʻ
hisoblanadi. Quvvat birlik uzunligi uchun signal energiyasiga teng. Qaror qabul qilish
qoidasi VAD (Voice Activation Detection) yuqoridagi barcha xususiyatlarni hisobga
oladigan chegara funksiyasidir.
VAD	
( m	) =	{ 1 , W
s ( m ) ≥ t
w
0 , W
s	( m	) < t
w (1.9)	
W	s(m)=	Ps∙(1−	Zs(m))∙Sc
(1.10)	
tw=	μw+αδ	w
  (1.11)	
α=	0.2	∙δw−0.8
                        ??????????????????   ??????   funksiyasida   chegara   ??????
w   bo lib,   u  	
ʻ ??????
w   -   shovqin   namunalarining
o rtacha   qiymati   va  	
ʻ ????????????   -   shovqin   namunalari   qiymatlarining   o rtacha   qiymatdan	ʻ
og ishidan   iborat.	
ʻ   Bunday   vaziyatda,   masshtablash   koeffitsentlari   eksperimental
ravishda tanlanadi, masalan,  ????????????  = 1000.
                   Ushbu usulning kamchiligi: shovqin nutqdan pastroq eshitiladi degan taxmin,
albatta,   bu   har   doim   ham   bo’lavermaydi.   Moboda   kirish   signalida,   masalan   ,   yetarli
darajada baland varaqni ag darish shovqini yoki boshqa shitirlashlar bo lgan bo limlar	
ʻ ʻ ʻ
bo’lsa,   ??????
s   (m)   qiymati   nutqda   mavjud   bo lgan   bo limlar   uchun   qabul   qilinadigan	
ʻ ʻ
qiymat teng bo‘ladi.   M asshtablash koeffitsentlarini diqqat bilan eksperimental tanlash
zarurati   keyingi   kamchiliklaridan   biri.   Ushbu   kamchiliklarni   bartaraf   etish   uchun
mahalliy   ekstremallarning   tarqalishini   tahlil   qilish   asosida   yondashuv   ishlab
chiqilgan.
Filtrlash dan   bir   qancha   sohalarda   ko’plab   foydalaniladi.   Filtrlash   odatda   har
qanday  signal   bilan  keluvchi   xalaqitlarni   o’tishiga  to’siqlar   yaratish  deb  tushuniladi.
Misol   uchun,   signalni   har   xil   chastotalardan   tozalashda,   elektrotexnikada   elektr
signallarini   bir   shakldan   ikkinchisiga   aylantirish   uchun,   asosan   filtrlar   qo’llaniladi.
13 Raqamli   signallarni   qayta   ishlash   nazariyasida   filtrlash   tushunchasini   kengroq
ma’noda   tushunamiz.   Uzluksiz   signal   yozib   olinib   ma’lumotlarning   raqamli   ketma-
ketligi   tayyorlanga   bo’lsin   deylik.   Raqamli   filtrlashni   kirish   va   chiqish   ketma-
ketliklari   orasidagi   munosabat   chiziqli   bo’lgan   signal   transformasiyasi   deb
tushunamiz.
Signallarni filtrlash tushunchasi. Misol   uchun,   bunday   signallarni
oddiygina   qayd   qilish,   tekislash,   integrallash,   differensiallash,   interpolyasiya   va
ekstrapolyasiya   qilish,   shovqinni     yo’qotish   mumkin  va   hokazo.   Yuqoridagi   hamma
amallarni   raqamli   va   chiziqli   ma’lumotlarni   filtrlash   amallari   deyishimiz   mumkin.
Bunday amallarda signalning chastota spektri o’zgaradi, ayrim chastotalar bostiriladi,
qolganlari   kuchaytiriladi.   Shu   nuqtai   nazardan,   ma’lumotlarni   qayta   ishlash
(chiziqlidir) odatda filtrlanadi. Shu sababli har bir aniq chiziqli amallarni ma’lumotlar
ketma-ketligi bo’yicha raqamli filtr deymiz.
Raqamli   filtr -bir   sonli   ketma-ketlikni   (kiritish   deb   ataladi)   boshqasiga
aylantiruvchi   (chiqish   deb   ataladi)   signallarni   qayta   ishlash   qurilmasi.Filtr-ayrim
signallarni   kuchaytiradigan   va   qolganlarini   bostiradigan   signallarni   qayta   ishlash
qurilmasi ham hisoblanadi.
Nutqni   filtrlash   jarayonida   filtrlangan   signalning   o’zgartirishini   ko’rishimiz
mumkin
   
14 1.5-rasm.  Nutqni filtrlash jarayoni                                                   
Freymlash.   Nutq   signalining   qisqa   vaqtli   energiyasi   va   noldan   o‘tuvchi
nuqtalar   soni   nutq   signalining   asosiy   parametrlari   sanaladi.   Biz   bilamizki   nutq
signalining xususiyatlari qoidaga ko’ra vaqt davomida   tez o‘zgarishlarga uchraydi,
shu sabab nutq signalini ustma-ust tushmaydigan va 10-30 sm uzunlikda bo’laklanib
ishlov berish   odatiy holdir. Nutq signali ushbu oraliqda stasionar   holatda deb faraz
qilsak ,   unda   nutq   signalining   qisqa   vaqtli   energiyasini   hisoblash   orqali   nutq
signalidagi jimlik sohalari olib tashlanadi. 
Yuqoridagi   masalani   yechish   bosqichlari   bilan   tanishamiz:  
    -   Kiruvchi   signal   fragmentlarga   ajratiladi.   Fragment   deyilganda   256   ta   nutq
signalining qiymatlari tushuniladi.
    -   Qisqa   vaqtli   energiya   qiymati   hisoblanadi   (fragmentdagi   signal
qiymatlarining kvadratlar yig‘indisi).
1.6-rasm. Signalni freymlarga ajratish jarayoni
                      Silliqlash.   Nutq   signalini   silliqlash   jarayonida   Xemming   oynasidan
foydalanamiz u quyidagi formula bo’yicha bajariladi.
  w
n = 0.54 − 0.46 ∗ cos( 2 π n
N − 1	) , n = 0 , … . , N − 1 ,
       (1.12)
15 16 Birinchi bob bo’yicha xulosalar
Ushbu   bobda   nutq   signallarining   xususiyalatlari,   nutqni   tanish   tizimlarining
klassifikatsiyasi   hamda   nutq   signallariga   dastlabki   ishlov   berishda   qo’llaniladigan
algoritmlar tahlili olib borildi va qo’yidagi xulosalar olindi.
1.   Zamonaviy   nutqni   tanish   tizimlariga   quyilgan   eng   muhim   talablar
aniqlandi. Bularga uzluksiz ravishda nutqni kiritish, diktorga bog’liq bo’lmaslik, katta
hajmdagi lug’atdagi so’zlarni tanish qobilyati va tizimning yuqori tezligi.
2. Nutqni tanish tizimlarini qurishdan oldin  tizim strukturasi hal qilinayotgan
muammoning qiyinchilik darajasidan kelib chiqqan holda tanlanadi. Tanish tizimining
sinflashtirish belgilariga qarab asosiy usullar, modellar va algortimlar to’plamini hosil
qilindi.  
3.   Dastlabki   ishlov   berishni   fonogramma   va   spektral   sohada   olib   borish
mumkin.   Fonogrammaga   ishlov   berish   usullari   stasionar   bo’lmagan   shovqin
sharoitlarida, shuningdek turli xil  tovush artifekatlari paydo bo’lganda samaradorligi
pasayib   ketadi.   Spektral   tahlilga   asoslangan   ishlov   berish   usullarida   (FFT,   DCT,
Veyvlet)   esa   signal   amplitudasining   o’zgarishiga   ta’sirchan   bo’lmaganligi   sababli,
nutq   chegaralarini   stasionar   bo’lmagan   shovqinlar   mavjudligida   ham   barqaror
aniqlashni ta’minlaydi.
17 II-BOB. NUTQ SIGNALLARINI PARAMETRLASH ALGORITMLARI
Ushbu   bobda   nutq   signallarini   spektral   taqdim   etishning   Furye   tahlillarga
asoslangan   algoritmlar   va   usullar,   nutq   signalini   parametrlash   uchun   qo llaniladiganʻ
algoritmlar tasnifi hamda nutq korpusini shakllantirish algoritmlarini ishlab chiqishga
oid ma lumotlar berilgan.	
ʼ
2.1-§ Nutq signallarini spektral taqdim etishning algoritmlari va usullari
Signallarga   raqamli     ishlov   berish   jarayonida   jumladan   nutq   signallarida     keng
qo llaniladigan   algoritmlardan   yana   bir   guruhi   spektral   almashtirish   algoritmlaridir.	
ʻ
Spektral   almashtirish   algoritmlari   nutq   signallariga   chastota   sohasida   ishlov   berish
jarayonida   ularni   tahlil   qilish   va   xulosalar   chiqarishda   katta   ahamiyat   kasb   etadi.
[35,5,6]   Spektral   ishlov   berish   natijasida   nutq   signalidagi   chastota   parametrlarini
aniqlanadi.   Ushbu   parametrlar   keyingi   bosqichdagi     ishlov   berish     uchun   zarur
hisoblanadi.
Hozirgi kunda  spektral almashtirish algoritmlarining bir qancha usullari mavjud
bo lib,   ularga   diskret   Furye   almashtirish,   diskret   kosinus   almashtirish,   arrasimon
ʻ
almashtirish,   Xaara,   Uolsha   almashtirish   va   Veyvlet   almashtirish   kabi   spektral
algoritmlarni keltirish mumkin.
Ushbu   spektral   almashtirishlar   to g ri   va   teskari   almashtirishlardan   iborat.	
ʻ ʻ
To g ri   almashtirish   asosida   nutq   signalning   spektral   qiymatlari   olinadi   va   teskari	
ʻ ʻ
almashtirish asosida esa talab etilsa signalni qayta tiklash jarayoni amalga oshiriladi.  
Tahlil natijalari shuni ko rish mumkinki, nutq signallariga ishlov berishda diskret	
ʻ
Furye   almashtirish   algoritmi   keng   qo llanilgan.   Buning   asosiy   sababi,   Furye   bazis	
ʻ
funksiyalari nutq signalining tebranishiga mos keladi va nutq hosil bo lish jarayonini	
ʻ
ifoda etishda qulaylik yaratadi.
  Nutq   signallari   uchun   almashtirish   usullarining   xossalarini   aniqlash   birinchi
navbatda     matematik   ifodasiga     qaratiladi.   Quyida   diskret   Furye   almashtirish
algoritmining matematik ifodasi bayon etilgan.
18 Diskret   Furye   almashtirish(DFA).   Furye   almashtirishning   bir   qancha   turlari
mavjud bo lib, ularga dikret Furye almashtirish, kompleks Furye almashtirish, tezkorʻ
Furye almashtirish  turlari kiradi.  Nutq signallarga ishlov berishda Furye almashtirish
o zining bir qancha imkoniyatlariga ega.   Diskret Furye almashtirish [14,16]   nutqiy	
ʻ
signalni chastotalar tarkibini  aniqlaydi. DFA algoritmi  to g ri va teskari almashtirish	
ʻ ʻ
algoritmlaridan iborat. 
 To g ri almashtirish algoritmi  quyidagi formula asosida aniqlanadi.	
ʻ ʻ	
,	cos	1	1	

	
	
N
0=i	N
ki	2π	f(i)	
N	
=	A(k)	1	..0			N	k
(2.1)	
,	sin	)(	1	1	

	
		
N
0=i	N
ki	2π	i	f	
N	
=	B(k)	1	..0			N	k
(2.2)
C
k =	
√ A
k2
+ B
k2
     (2.3)
Bu  yerda f(i)- kiruvchi nutq signali, A(k) – xaqiqiy  qism,  B(k) – mavhum 
qism,   C(k) – spektral koeffisentlar.
                Teskari   almashtirish   algoritmi     nutq   signalining   o zini     tiklash   uchun   xizmat	
ʻ
qiladi. Teskari almashtirish formulasi  quyidagicha topiladi.	
,)	sin	)	(	cos	)	(	(
1	

	
			
N
0=k	N
ki	2π	k	B	
N
ki	2π	k	A	=	f(i)	
1	..0			N	i
    (2.4)
Spektral   almashtirish   algoritmlarida   teskari   almashtirish   algoritmlari   agar   spektral
koeffisentlarning qiymatlari  o zgarmasa nutqiy signalni asl holatida tiklaydi.	
ʻ
Nutq signallarining spektrini aniqlash uchun nutq signalining spektral qiymatlari
hisoblanadi.   Diskret   Furye   almashtirish   algoritmi   asosida   nutq   signalining   spektral
qiymatlari   hisoblash   natijasida   quyidagi   ko rinishdagi   spektral   parametrlarni	
ʻ
olinadi(2.1-rasm). 
19 2.1-rasm. Nutq signali va spektri
Berilgan   nutq   signali   asosida     DFA   yordamida   spektral   qiymatlar   hisoblangan.
Olingan   spektral   qiymatlarda   yuqori   past   chastotalar   aniqlangan.   Bu   chastotalar
signalni   tashkil   etuvchi   chastotalar   hisoblanadi.   Past   chastotalar   signalni   tashkil
etuvchi   asosiy   chastotalar,   yuqori   chastotalar   esa   signalni   qo shimcha   tashkilʻ
etuvchilari deb qarash mumkin. Nutq signali odatda 300 Gs   dan 4000 Gs oralig ida	
ʻ
bo ladi.   Spektral   ishlov   berish   natijasida   4000   Gs   dan   yuqori   bo lgan   chastotalarni	
ʻ ʻ
signalga tasodifiy qo shilgan shovqin sifatida qarash mumkin[14,16]. 	
ʻ
Nutq signallariga ishlov berishda   DFO  algoritmlarining xossalaridan foylanish	
ʻ
natijasida   nutq   signalining   kerakli   spektral   chastotalari   aniqlanadi.   Bu   chastotalar
ishlov berish vaqtida muhim hisoblanadi. 
Bu   spektral   qiymatlar   asosida   nutq   signalining   formant   chastotalarini   aniqlash
mumkin.   Formant   chastotalar   nutq   signalining   spektral   chastotalari   orasida   yotishi
isbotlangan.
Formanta   va   asosiy   ton   chastotalari   -     nutq   signaliga   ishlov   berish
parametrlaridan   biri   hisoblanib,   nutqiy   signalning   asosiy     chastotalari     va   tonini
topishda     foydalaniladi.   Ushbu   asosiy   chastotalar     inson   nutqidagi   asosiy   tashkil
etuvchilarini   ifodalaydi.     Nutq   signallarida     to rtta   formant   chastota   bo lib,   ulardan	
ʻ ʻ
20 birinchisi   asosiy   ton   hisoblanadi.   Ushbu   chastotalar   asosida   nutq   signalini   kim
tomonidan aytilganligi ifodalash uchun xizmat qiladi.  
Nutq   signalidagi   formanta   va   asosiy   ton   chastotalarini   aniqlash   algoritmlarning
bir   necha   usullari   mavjud.   Ulardan   nutq   signallariga   ishlov   berishda   keng
foydalaniladigan usullardan biri  signalning spektral  chastotasiga  asoslangan  usulidir.
Ushbu   usul   yordamida   formant   chastotalarni   aniqlashda   nutq   signalining   energiyasi
va   spektral   almashtirish   algoritmlaridan   foydalaniladi.   Buning   uchun   kiruvchi   nutq
signalining Y=[x
1  x
2 , x
3 …x
N ]    qiymatlari energiya yordamida nutq signalidan jimlik
holatlari   yo qotiladi.   Natijada   nutq   signalida   asosiy   qayta   ishlanishi   zarur   bo lganʻ ʻ
signal   qoladi.     Shundan   so ng   mavjud   signal   KIX   filtr   asosida   tashqi   ta sirlardan	
ʻ ʼ
tozalanadi [8,22,27,28].  
Filtrlangan   signal   qiymatlar   soni   M=256   tadan       k=[1…   M]     qadam   bilan
Q=[L
1 ,L
2 ,L
3 ,…L
n ] kesimlarga ajratiladi. Bu yerda L
1   - birinchi boshlang ich kesim, L	
ʻ
n
-   oxirgi   kesim,   n-nutq   signalining   kesimlar   soni.   Nutq     signali     kesimlarga
ajratilgandan   so ng,   har   bir   ajratilgan   kesim   qayta   ishlashga   tayyor   ko rinishga	
ʻ ʻ
keladi. Har bir ajratilgan kesim tezkor Furye  almashtirish  asosida  spektrlari olinadi.
Ushbu   jarayon   tugagandan   so ng     kesimlarning   spektrlari     satr   ko rinishida	
ʻ ʻ
shakllangan   bo ladi.     Satr   holatidagi     har   bir   L   qadam   uchun   ustun   bo yicha	
ʻ ʻ
tartiblashimiz natijasida  nutq signalining spektogrammasi yuzaga keladi.       
Ma lumki,   spektogramma   qiymatlari     satr   va   ustunlardan   iborat   bo lib,	
ʼ ʻ
formantalar   va   asosiy   tonni   topish     jarayoni   aynan   satrlar   va   ustunlarning   holatiga
bog liq.           Spektogrammaning   satrlari   bo yicha   energiyasi     hisoblanadi   va   Ye	
ʻ ʻ
vektorga   E=[E
1,   E
2,   E
3………. E
n ]     yuklanadi.   Ye   vektor   bo yicha   maksimum   qiymatlar	
ʻ
aniqlanadi va  F vektorga F=[F
1,  F
2,  F
3….  F
i ]  yuklanadi(2.2-rasm).  Bu yerda  i=1,2,3…
n .   Ushbu   topilgan     F   vektor   nutq   signalining     formantalari   va   asosiy   tonini
xarakterlaydi.  
21 2.2-rasm. Nutq signali va uning formant chastotalari
Formant  chastotaning joylashgan o rni, kuchi va chastotalar  orasidagi  masofaniʻ
aniqlash   natijasida   nutq   tovushlarni   va   bo g inlarni   aniqlash   yuqori   natija   beradi.	
ʻ ʻ
Lekin,   nutq   so zlari   aniqlashda   qo shimcha   parametrik   ishlov   berish   algoritmlari	
ʻ ʻ
zarur.
Diskret kosinus almashtirish (DKA) va teskari DKA
Diskret   kosinus   almashtirish   (DKA)   lardan   korrelasiya   va   svertka   (o ram)ni	
ʻ
hisoblashni tezlashtirishda  va spektr  tahlilida foydalaniladi.
Bundan   tashqari,   bu   usullardan     ma lumotlarni   siqish,   misol   uchun     ovozni	
ʼ
(tovush)   yoki     tasvirni   uzatish,   elektrokardiogramma   va   elektronsenogramma   kabi
tibbiyot  signallarini yozish uchun  foydalaniladi.
Shuningdek,   DKA   dan   tasvir   va   nusxa   (shablon)larni     tanishda   ham
foydalaniladi.  Buning  natijasida  signallarni   uzatish  uchun kodlashda   talab etiladigan
«bit» lar soni kamayadi, bu signal uzatish tezligini oshiradi.
22 Bu   esa   nisbatan   tor   polosali   aloqa   linyalaridan   foydalanish   imkoniyatini
keltirib   chiqaradi,   shuningdek,   nusxa   (shablon)larni     tanishni   osonlashtiradi   (bu
axborot hajmi kamaytirilishi  hisobiga ro y beradi) [30,31,32].ʻ
DKA   ning   ushbu   xususiyatlari   uni   signallarni   siqish   nuqtai   nazaridan
samaradarligini   bildiradi,   bu   signal   energiyasining   past   chastotalarda   to planishi	
ʻ
natijasida   ro y   beradi.   Bundan   tashqari,   hisoblashlarning   soddaligi   va   o rtacha	
ʻ ʻ
kvadratik  xatolikning  kichik  (minimal) bo lishini ta minlaydi.	
ʻ ʼ
Bir   o lchovli   DKA   (teskari   DKA)     almashtirish   quyidagi   formulalar   orqali	
ʻ
amalga oshiriladi: 	
H	ij=	C	i⋅cos	(2	j+1)iπ	
2	N	,	i,j=	0..N	−	1
(2.5)	
С	i=	
{
1
N	
,i=	0	
2
N	
,i>0
Teskari   almashtirish   jarayoni   signal   spektrini   matrisa   koeffisiyentlarini
transponirlangani   ko paytmasiga   tengdir.   Ya ni   ushbu   formula   quyidagicha	
ʻ ʼ
keltirilgan: 	
⃗f=	^H	T⋅⃗C
.       (2.6)
Uolsh-Adamar   almashtirish
Yana bir almashtirishlardan biri bu Uolsh-Adamar hisoblanadi.[30,31] Uni fan
tilida WHT almashtirish deb ataydilar. Bu algoritm tasvirlarni siqishda  kichik effekt
bersada   hisoblashni   tez   fursatlarda   amalga   oshiradi.   U   o zining   maxsus   bazaviy	
ʻ
matrisasiga ega hisoblanadi va u quyidagicha aniqlanadi:   	
С(n)=	1
N⋅∑
k=0	
N−1
f(k)⋅HW(n,k)
(2.7)
Teskari   transformatsiya   H
W T
  koeffitsientlarining transpozitsiyalangan matritsasi
va spektral koeffitsientlar vektorining mahsuloti ko rinishiga ega:
ʻ
23 ⃗f=	^H	W	T⋅⃗C. (2.8)
Matritsalarni   hisoblash   algoritmi   rekursivdir.   Dastlabki   signalning   N
namunalari   soni   2 n
  butun   son   bo lishi   kerak,   bu   yerda   n   -   natural   son.   Koeffitsient	
ʻ
matritsasi quyidagi printsipga muvofiq to rtta kvadratdan iborat:	
ʻ	
^H	W(N	)=	H	W(N	/2)	H	W(N	/2)	
H	W(N	/2)	−	H	W(N	/2)
(2.9)
Misol uchun, N=2 va N=4 uchun matritsalar quyidagicha ko rinadi	
ʻ	
^H	W(2)=	1	1	
1	−	1	
^H	W(4)=
1	1	1	1	
1	−1	1	−1	
1	1	−1	−1	
1	−1	−1	1
Shunday qilib, N namunalar soni uchun koeffitsientlar matritsasini tuzish uchun
N/2 ,   namunalar   soni   uchun   Adamara-Uolsha   matritsasini   hisoblash   kerak,   bu
qiymatlarni   har   uch   chorakning   elementlariga   belgilash   va   matritsaning   to rtinchi	
ʻ
qismi uchun bu elementlarni qarama-qarshi belgi bilan oling.
2.2-§ Nutq signalini parametrlash tasnifi
Nutqni  tanish  tizimlarini  ishlab  chiqishda  dasturchilar   oldiga,  birinchi  navbatda
duch keladigan muhim  masala bu nutq signalini  parametrik ifodalash uchun optimal
usullarn   ishlab   [22]   chiqish   sanaladi.   Ushbu   usullar,   tovushlarni   va   nutq   so zlarini
ʻ
juda   yaxshi   ajratishga   imkon   beradi   va   shu   bilan   birga   diktorlarning   talaffuz
xususiyatlariga va akustik muhitning o zgarishiga invariantligini ta minlaydi.	
ʻ ʼ
Nutqni   parametrlashtirishda   eng   keng   tarqalgan   yondashuv   signal
fragmentlarini   spektral   tahlil   qilish   hamda   ularning   kepstral   xususiyatlarini
hisoblashdir [13,14].
Mel-chastota   kepstral   koeffisentlar(mel-frequency   cepstral   coefficients,
MFCC)     algoritmi.     Nutq   signalining   informativ   belgilari   sifatida   MFCC
24 koeffisiyentlaridan   foydalanildi.   Ushbu   belgilar   nutqni   tanib   olish   masalalarida   juda
keng   qo llaniladi.   Ular   2   ta   asosiy   tushunchaga   asoslangan:   kepstr   i   mel-shkala.ʻ
Algoritmning   asosiy   ustunligi   nutqni   yuqori   darajada   tanish   va   amalga   oshirish
qulayligidir [13,15].  MFCC belgilari yozib olingan nutq signallaridan ajratib olinadi.
MFCC   algoritmi   fonogramma   va   spektral   almashtirish   algoritmlari   natijasidan
foydalanadi. MFCC koeffisiyentlarini hisoblash ketma-ketligi 2.3-rasmda keltirilgan.
2.3-rasm. MFCC koeffisiyentlarini hisoblash ketma-ketligi
Algoritmning bajarilish bosqichlarini ko rib chiqamiz.	
ʻ
1. Dastlabki   filtrlash.   Nutq   signalini   qayta   ishlashda   diskretlash   jarayonidan
keyin   signalni   filtrlash   talab   qilinadi.   Filtrlashdan   maqsad   nutq   signalining
silliqlangan   spektral   shaklini   olishdir.   Dastlabki   filtr   vaqt   sohasida   kirish/chiqish
munosabatiga asoslangan bo lib (2.10) tenglama keltirilgan. 	
ʻ	
y(n)=x(n)−ax	(n−1),
  (2.10)
bunda 	
a  dastlabki filtrning konstanta qiymati 	0.9<a<1.0 . 
2. Freymga ajratish bloki.   Dastlabki filtrlash amalga oshirilgandan so ng nutq	
ʻ
signali   davomiyligi   16   msek   bo lgan   freymlarga   ajratiladi.   Har   bir   freym(birinchi	
ʻ
freymdan tashqari) o zidan oldingi freymning oxirgi 10 msek  qismini o ziga qo shib	
ʻ ʻ ʻ
oladi.   Ushbu   jarayon   signal   oxirigacha   amalga   oshiriladi.   Ushbu   ishda   nutq
signalining   diskretlash   chastotasi   16   kGs   bo lganligi   sababli   bizda   freym   uzunligi	
ʻ
N=256   ta   siljitish   uzunligi   M=160   ta   qiymatlardan   iborat.   Siljitish   uzunligi(overlap)
freym uzunligining 62.5% ni tashkil etadi. Odatda freym uzunligining 50 - 75% gacha
qamrab olishi tavsiya etiladi [10,13,14]. 
25 3. Oynadan   o tkazish.ʻ   Ajratilgan   freymlar   bo yicha   buzilishlarni   kamaytirish	ʻ
va ularni silliqlash uchun vazn oynasidan foydalanamiz:  
w
n = 0.54 − 0.46 ∗ cos	
( 2 π n
N − 1	) , n = 0 , … . , N − 1 ,
       (2.11)
bu yerda  N
  - oyna uzunligi. 
4. Spektral   almashtirish.   Algoritmning   uchinchi   bosqichida   vazn   oynasidan
o tkazilgan freymlarda FFT spektral almashtirish  prosedurasi qo llaniladi.  	
ʻ ʻ	
Xk=	∑n=0	
N−1
xnwne
−2πiN	kn,k=0,…	..,N−1.
       (2.12)	
k
 indeks qiymatlari chastotalarga mos keladi.
f
k = F
s
N k , k = 0 , … . , N
2 , (2.13)
bu yerda 	
Fs  — signalning diskretlash chastotasi.
5. Mel   almashtirish.   To rtinchi   bosqichda   esa   chastota   sohasiga   o tkazilgan	
ʻ ʻ
signal   uchburchakli   filtrlar   yordamida   diapazonlarga   ajratiladi.   Filtr   chegaralari   mel
shkalasi bo yicha hisoblanadi. 	
ʻ
Mel-chastota sohasiga o tish quyidagi formula asosida amalga oshiriladi.	
ʻ
B	
( f	) = 1127 ∗ ln   ( 1 + f
700 )
    (2.14)
Teskari almashtirish esa quyidagicha amalga oshiriladi.	
B−1(b)=700	(e	
b1127	−1).
   (2.15)
Agarda biz 	
N -ni filtrlar soni (odatda 26 ta filtrdan foydalaniladi), 	(flow	,fhigh	) - ni
tadqiq   qilinayotgan   chastota   diapazoni   deb   qabul   qilsak,   unda     bu   diapazon   Mel-
shkalasiga   o tkaziladi   hamda  	
ʻ	N   ta   teng   taqsimlangan   bir-biri   bilan   kesishadigan
diapazonlarga   bo linadi   va   chiziqli   chastota   sohasidagi   tegishli   chegaralari   topiladi.	
ʻ
Filtrlash asosida olingan vazn koeffisiyentlarini  	
H	m,k   -deb belgilash kiritamiz. Filtrlar
Furye   almashtirishdan   olingan   koeffisiyentlarining   kvadrat   moduliga   qo llaniladi.	
ʻ
Olingan qiymatlar qo yidagi ifoda orqali logarifmlanadi.	
ʻ
26 em=ln	(∑k=0
N	
|Xk|2H	m,k),m=	0,…	..,N−1.    (2.16)
MFCC koeffisiyentlarini hisoblashning oxirgi bosqichida esa DCT algoritmi 
amalga oshiriladi.
c
i =
∑
m = 0N − 1
c
m cos	
( πi	
( m + 0.5	)
N
) , i = 1 , … . , N
MFCC .
(2.17)	
c0
  koeffisiyenti   ishlatilmaydi,   chunki  	c0   signal   energiyasini   anglatadi.   Odatda
amaliyotda MFCC koeffisiyentlar soni  N
MFCC  13 ta qiymat olinadi.
Mel-kepstral   koeffisentlarning   13   filtr   uchun   olingan   natijalari   2.4-rasmda
keltirilgan. 
2.4-rasm. Mel-kepstral koeffisentlarning olinishi
Barcha  filtrlarni   hisoblash   uchun  mel   diapazondagi  boshqa  nuqtalarni   belgilash
quyidagi tartibda amalga oshiriladi. Misol uchun 10 ta filtr uchun 12 nuqta belgilash
kerak. Bu shuni  bildiradiki, 401,25 dan 2839,99 gacha  diapazonda  10 ta nuqtani  bir
xil   oraliqlarga   joylashtirib   chiqish   kerak.   Natijada   quyidagicha   ketma-ketlikdagi
nuqtalar paydo bo ladi:	
ʻ
m(i)   =   [401,25;   622,5;   843,75;   1065;   1286,25;   1507,5;   1728,74;   1949,99;
2171,24; 2392,49; 2613,74; 2834,99].
Nuqtalarni mel shkaladan asl chastotaga o tkazish:	
ʻ
h(i)   =   [300;   517,33;   781,9;   1103,97;   1496,04;   1973,32;   2554,33;   3261,62;
4122,63; 5170,76; 6446,7; 8000].
27 Nutq  signalidagi spektrdagi har bir nuqta ma lum bir chastotaga to g ri keladi vaʼ ʻ ʻ
u quyidagi formula yordamida hisoblanadi.	
f(i)=	2∙(i+1)	
sampleRate	∙n
 (2.18)
bu yerda sampleRate – signalning diskretlash chastotasi, n – signal uzunligi. 
MFCC  algoritmi yordamida mel-shkalaning o lchamiga asosan 12,13 ta yoki 24	
ʻ
ta     qiymatlardan   iborat   parametrlarni   olish   mumkin.   Bu   algoritm   spektral
chastotalarning eng muhim bo lgan parametrlarini  o zida o zlashtiradi.  boshlang ich	
ʻ ʻ ʻ ʻ
va     parametrik   ishlov   berish   algoritmlar     ishlov   berish   natijasida   inson   eshitish
tizimiga moslashtirildi. Algoritmik nuqtai nazardan bunday uslub asosida yondashuv
nutq  tovushlarini, bo g inlarini va so zlarini tanib olishda foydalaniladi. Shu sababli,	
ʻ ʻ ʻ
bu algoritmlarning dasturlarini ishlab chiqish muhim vazifadir.    
Formantalar.   Nutq   signalini   spektrini   ya ni   chastota   bo yicha   energiya   yoki	
ʼ ʻ
amplitudaning   taqsimlanishini   xarakterlaydigan   muhim   parametrlar   sifatida
formantalarni   keltirish   mumkin   [13,14,15].   Boshqacha   aytganda   formanta   bu   spektr
grafikasidagi   kuchli   chastotalarni   yig indisi.   Ko p   yillardan   buyon   formant	
ʻ ʻ
chastotalari nutq tovushilarining fonetik mazmunini aniqlashda muhim ahamiyat kasb
etganligini   ko rish   mumkin.   Nutqni   sintez   qilishda   ko proq   e’tibor   formantga	
ʻ ʻ
asoslangandir. Chunki formantalar nutq birliklarni birlashtirishdagi uzilishlarni oldini
oladi.   Nutqni   formantalar   asosida   taqdim   etish   nutq   axborotlarini   boshqa   usullarga
nisbatan   xotirada   ixcham   ko rinishda   saqlash   usuli   sifatida   keltirish   mumkin.	
ʻ
Shuning uchun nutq tovushidan olingan  	
F1,F2,F3,F4   formant chastotlari asosida nutq
tanib   olish   tizimlari   uchun   belgilar   vektori   sifatida   ishlatamiz   va   spektrogramma
bazasi deb hisoblaymiz. 
Spektrogramma.   Hozirgi   kundagi   zamonaviy   nutq   signallarini   tanish
tizimlarining   aksariyatida   nutq   signallaridan   hosil   qilingan   spektrogramma
tasvirlaridan keng miqyosda foydalanilayotganini ko rishimiz mumkin. 
ʻ
28   Spektrogramma   bu   –   signal   quvvatini   va   zichligini   vaqtga   bog liqliginiʻ
ko rsatuvchi   tasvirdir.   U   ikki   o lchovli   grafikda   taqdim   etiladi.   Bunda   gorizontal	
ʻ ʻ
o q(X-axis)     vaqtni(Time(ms)),   vertikal   o q(Y-axis)   esa   chastotani(Frequency)
ʻ ʻ
ko rsatadi.   Aniq   vaqtdagi   amplituda   chastota   xarakteristikalari   esa   rang   intensivligi
ʻ
bo yicha   belgilanadi.   Spektrogramma   tasvirlarini   hosil   qilish   algoritmi   [14,15]
ʻ
ishlarda keltirib o tilgan.	
ʻ
2.5-rasm.  Spektrogramma tasvirlariga misollar
Spektrogramma tasvirini hosil qilishda eng ko p qo llaniladigan spektral	
ʻ ʻ
almashtirish   algoritmlarga   FFT,   Diskret   kosinus     almashtirish   (DCT)   va   Veyvlet
almashtirishlar   kiradi.     Spektrogrammaning   afzalligi   shundaki,   vaqt   bo yicha	
ʻ
fonemaning   yuqori   va   past   chastotalarini     batafsil   ko rsatish   imkoniyatini   taqdim	
ʻ
etadi.   Bu   esa   ularni   neyron   tarmog ida   o qitish   uchun   yaxshi   belgilar	
ʻ ʻ
shablonini(pattern)   taqdim   etadi.   Spektrogrammani   yana   bir   qulayligi   shundaki,   u
belgilar   to plamiga   boy   bo lib,     biz   ushbu     belgilarni   ajratib   olish   uchun   tasvirlarni	
ʻ ʻ
tanish usullaridan foydalana olamiz va tadqiqotning ikkita sohasini birlashtiramiz.
2.3-§ Nutq korpusini shakllantirish texnologiyalari
Bugunga   kelib   sun’iy   neyron   tarmoqlari   (Artificial   neural   network   -   ANN))
nutqni   avtomatik   tanib   olish   tizimlarini   ishlab   chiqishning   asosiy   vositasi
hisoblanmoqda.   Nutqni   tanish   tizimlarida   o rgatuvchi   tanlamani   hosil   qilish(dataset)	
ʻ
esa   umumiy   ishning   asosiy   ulushini   tashkil   etadi   va   muhim   jarayon   sanaladi.   Shu
sohada   faoliyat   olib   boradigan   olimlar   fikriga   ko ra   intellektual   tizimlarning	
ʻ
ishonchlilik, aniqlilik ko rsatkichi ko p jihatdan qurilgan model arxitekturasidan ko ra	
ʻ ʻ ʻ
29 o rgatuvchi   tanlamaning   hajmiga   va   sifatiga   bog liq   hisoblanadi   [2,3,4].   Avtomatikʻ ʻ
nutqni   tanish   tizimlari   yetarli   aniqlikda   tanib   olishni   amalga   oshirish   uchun   nutq
korpusini   hajmi   40-1000   soat   (~40   soat   kichik   hajmdagi   lug atdagi   nutqni   tanish	
ʻ
uchun,   ~1000   soat   ixtiyoriy   tildagi   uzluksiz   nutqni   tanish   uchun)   bo lishi   talabi	
ʻ
qo yiladi[4,5,6]. 	
ʻ
Nutq   korpusi   –   bu   katta   hajmdagi   audio   ma lumotlar   va   ularning   matnli	
ʼ
transkripsiyasidir.   Nutqni   tanish   modellarini   o rgatish   uchun   transkripsiya   qilingan	
ʻ
nutq   korpusini   yig ishda   bir   nechta   yondashuv   qo llaniladi.   Birinchi   yondashuvda	
ʻ ʻ
matnli   manba(gazeta,   jurnal,   kitob)lardan   tanlangan   matnlar   turli   ma ruzachilar	
ʼ
tomonidan   ovozlashtiriladi.   Ikkinchi   yondashuvda   oldindan   yozib   olingan   teleradio
dasturlaridan   to planadi   va   qo lda   transkripsiya   qilinadi   [17,18,19].   Uchinchi	
ʻ ʻ
yondashuv   oldindan   mavjud   katta   hajmdagi   audio   va   uning   transkripsiyasini   kichik
segmentlarga   ajratish   hisoblanadi.   Birinchi   yondashuv   tezroq,   chunki   u   transkrisiya
jarayonini talab qilmaydi. Ammo, uning ikkita asosiy kamchiligi bor:
1) Og zaki matnlar tildagi barcha fonemalar uchun yetarli namunalarni o z ichiga	
ʻ ʻ
olmaydi;
2)  Cheklangan miqdordagi diktorlar qatnashadi va atrof-muhit odatda shovqindan
tozalanadi.   Bu   esa   sinov   shartlarini   yaxshi   aks   ettirmaydi.   Har   xil   turdagi
ma ruzachilar   va   turli   muhitlardan   nutq   namunalarining   yetishmasligi   katta   so z	
ʼ ʻ
boyligi bo yicha tanib olishning yomon natijalariga olib keladi.	
ʻ
Ikkinchi   yondashuv   (transkripsiya   usuli)   professional   transkripsiyachilar
tomonidan olib boriladigan qimmat va ancha sekin jarayondir. Bunda  bir soatlik nutq
uchun   taxminan   olti   soatlik   mehnat   talab   qiladi   [20,21].   Transkripsiya   qilishning
sekin   sur’ati   va   yuqori   xarajatlari     kam   manbali   tillar   uchun   ANT   ni
takomillashtirishga jiddiy to sqinlik qiladi. Bundan tashqari, katta hajmli transkripsiya	
ʻ
loyihalari uchun zarur bo lgan darajada tajribali ko p transkriptorlarni ishga jalb qilish	
ʻ ʻ
kerak   bo ladi   [5,6].   Uchinchi   yondashuvda   birinchidagidek   kamchiliklar   uchraydi.	
ʻ
Lekin qolgan ikki yondashuvga nisbatan ancha tez amalga oshiriladi. Ingliz tili uchun
30 yaratilgan   Librispeech   korpusi   aynan   shu   usulda   yaratilgan.   Librispeech   -   taxminan
1000   soatlik   16   Hz   chastotali   korpus,   LibriVox   loyihasining   audiokitoblarini
o qishdan   olingan   inglizcha   nutq   [7,8].   Bunda   asosiy   manba   audio   kitob   va   uningʻ
transikripsiyasidir.
Avtomatik   nutni   tanish   tizimlarining   aniqligini   oshirish     uchun   nutq
korpusinining quyidagi bir nechta xususiyatlariga e’tibor qaratish talab qilinadi. 
Nutq   korpusini   tashkil   etuvchi   matnli   ma lumotlarning   fonetik   tarkibi   va	
ʼ
lug atning   xilma-xilligi.	
ʻ   Bu   nutq   korpusini   shaklantirishdagi   birinchi   qadam
hisoblandi.     Tizim     ma lum   bir   soha   uchun   mo ljallangan   bo lsa,   unda   nutq	
ʼ ʻ ʻ
korpusining   fonetik   tarkibi   shu   sohaga   oid   terminalogiya   xususiyatlaridan   tarkib
topgan   bo lishi   kerak.   Akustik   model   bevosita   nutq   korpusida   uchraydigan   fonetik	
ʻ
tarkib   asosida   shakllanadi.   Bundan   tashqari   nutq   korpusida   uchraydigan   so zlarning	
ʻ
xilma-xilligi ham muhim ahamiyatga ega. Chunki korpus tarkibida bitta so zning juda	
ʻ
ko p bor ishlatilishi til modelining ushbu so zga nisbata moyilligini ortiradi [4,5]. 	
ʻ ʻ
Korpusni   yaratishda   ishtirok   etgan   diktorlarning   hissiy   va   demografik
xususiyati,   diktorlarning   jinsi   va   soni.   Korpus   hosil   qilishda   dektorlarning   hissiy
holatini   ham   e’tiborga   olish   ahamiyatli   va   korpus   tarkibida  buni   ham   nazarda   tutish
kerak.   Nutq   korpusini   yaratishda   [4,5,6,8]   ishlarda   diktorlarning   hissiy   holatiga
e’tibor   berishgan.     Shu   bilan   birga   audio   ma lumotlarni   hosil   qilishda   diktorlarning	
ʼ
demografik   xususiyatlari   muhim   ahamiyat   kasb   etadi.   Nutq   korpusini   hosil   qilishda
ovozlarni   yozuvchi   diktorlarni   turli   yoshda,   turli   jinsda   hamda   turli   hududlarda
istiqomat qilishini nazarda tutish talab qilinadi. Ushbu omillarga e’tibor berish tizimni
barqaror   ishlashiga   o z   ta sirini   ko rsatadi.   Shuni   e’tiborga   olish   kerakki,   nutq	
ʻ ʼ ʻ
korpusini   hosil   qilishda   ishtirok   etuvchilarning   yuqorida   aytib   o tilgan   xususiyatlari	
ʻ
teng proporsiyada bo lishi kerak. Ya ni, korpusni hosil qiluvchilarning ~50% erkaklar	
ʻ ʼ
~50%  ayolar bo lishi, yoshlar farqida katta tafavvut  bo lmasligi  va albatta geografik	
ʻ ʻ
taqsimoti  ham bir xilda bo lishi  kerak [3,4]. Diktorlar  soni  esa kamida 100 kishidan	
ʻ
iborat bo lishi talab etiladi [5, 6].	
ʻ
31   Audio   ma lumotlarni   yozish   muhitining   holati.ʼ   Yaratilayotgan   tizimning
maqsadidan   kelib   chiqqan   holda   muhitni   tanlash   zarur.   Agar   tizimga   shovqinli
muhitdagi nutqni ham tanish vazifasi qo yilsa, korpusdagi   audioni hosil qilish xuddi	
ʻ
shu muhit ta siri ostida ham amalga oshirilishi kerak. Odatda yuqori va past shovqinli	
ʼ
muhitlar, ofis binolari, jamoat joylari va ovoz yozish studiyalari audio ma lumotlarni	
ʼ
hosil qilish muhiti sifatida qaraladi [8,9].
Nutq   korpusining   hajmi(davomiyligi).   Audio   ma lumotlarning   umumiy	
ʼ
davomiyligi,   shuningdek   vazifaga   qarab   tanlanadi.   Tanib   olish   tizimining   nechta
jumla(so z,   gap)   ni   tanib   olish   soniga   qarab   belgilanadi.   Odatda     kichik   lug atdagi	
ʻ ʻ
jumlalarni   tanib   olish   tizimlari   uchun   ~40   soat   [5],   uzluksiz   nutqni   avtomatik   tanib
olish tizimi uchun  ~1000 soat hajmda hosil qilinadi [7]. 
  Korpusni   yaratishda   foydalaniladigan   texnik   vositalar   tavsifi.   Bu   turdagi
texnik   vositalarga   asosan   ovoz   yozish   vositalari   nazarda   tutiladi.   Nutq   korpusini
shakllantirishda   ishlatilgan   ovoz   yozish   qurilmalari   kiyinchalik   ANT   dan
foydalanishda   ham   ishlatilishi   ehtimolini   hisobga   olinishi   kerak.   Agar   barcha   audio
fayllar ovoz yozish studiyasi muhitda yozilib yuqori aniqlikda raqamlashtirilsa, tayyor
bo lgan   ANT   ham   shu   muhitdan   kiruvchi   ma lumotni   qabul   qilishga   moyil   bo lib	
ʻ ʼ ʻ
qoladi.   Shuning   uchun   ovoz   yozish   qurilmalarining   turli   tumanligiga   ham   e’tibor
qaratish kerak. Nutq korpusini yaratishda [4,5] ishlarda maxsus mobil dasturiy vosita
ishlab   chiqilgan   bo lib,   asosan,   telefon,   va   boshqa   turdagi   gadjetlar   asosiy   ovoz	
ʻ
yozish   manbai   bo lib   foydalanilgan.   Ayrim   [2,   5]   ishalarda   nutq   korpusni   yig ishda	
ʻ ʻ
maxsus ovoz yozish butkasidan ham foydalanishgan. 
O zbek tilidagi nutqni avtomatik tanish tizimini ishlab chiqish yo lida bugunga	
ʻ ʻ
qadar   3500   ta   jumladan   tashkil   topgan   va   geografik   joy   nomlarini   ovozli   qidiruvini
amalga   oshirishga   mo ljallangan   tizimni   yaratish   uchun     ~10   soat   hajmdagi   nutq	
ʻ
korpusi yaratilgan [9]. Keyingi [10,11] ishlarda o‘zbek tilidagi nutqni tanish tizimini
yaratish uchun audio kitobdan nutq korpusi yaratish texnologiyasi qo llanilgan. Yana	
ʻ
bir   ishda   taqdiqodchilar   davomiyligi   364   soat   bo lgan   audiokitoblardan   va   72   soatli	
ʻ
32 aforizm   hamda   maqollar   audioyozuvlaridan   iborot   bo lgan   o zbek   tili   nutq   korpusiʻ ʻ
yaratilganligini ko rishimiz mumkin. Ushbu korpusni yaratishda 168 ta suhandondan	
ʻ
foydalanishgan [11]. Nutq korpusida audio fayllarning davomiyligi uzun (6-9 daqiqa)
bo lganlarini   ko p   uchratishimiz   mumkin.   Lekin   [9]   adabiyotlarda   nutq   korpusini	
ʻ ʻ
tashkil etuvchi audio fayllarning davomiyligini bir daqiqadan ortiq bo lmaganligini va	
ʻ
yuqori   aniqlikka   erishilganini   ko rishimiz   mumkin.   Yuqoridagilardan   kelib   chiqib	
ʻ
bugunga   qadar   o zbek   tilidagi   uzluksiz   nutqni   tanish   uchun   samarali   nutq   korpusini	
ʻ
yaratish dolzarb bo lib turibdi. 	
ʻ
Ikkinchi bob bo yicha xulosalar	
ʻ
Ushbu bobda nutq signallarini spectral taqdim etishning algoritmlari va usullari
o rganilgan, nutq signallarini parametrik tasniflari olib borilgan hamda nutq korpusini	
ʻ
shakllantirish   texnologiyalari   keltririb   o tilgan.   Qilingan   ishlar   bo yicha   quyidagi	
ʻ ʻ
xulosalarga kelindi:
1. Spektral   ishlov   berish   algortimlarini   xususiyatlari   nutq   signallarini   ixcham   va
muhim   belgilarga   boy   ko rinishga   olib   keladi.   Bu   esa   vaqt   sohasidagi   belgilar	
ʻ
to plamiga   nisbatan   ishonchli   sanaladi   hamda   nutqni   tanish   tizimi   samaradorligini	
ʻ
oshiradi. 
2. Nutq signalini parametrlash algoritmlarini tahlil qilish natijasida spektral ishlov
berish   usullariga   asoslangan   yondashuv   eng   Yashi   ekanligi   aniqlandi.   Spektral
almashtirish   alagoritmlarining   parametrlari   aniqlandi.   Mel   almashtirish   algoritmi
nutq signalini asosiy parameter shakli deb o rnatildi. 	
ʻ
3. Avtomatik   nutqni     tanish   tizimi   aniqligi   tizimini   qurishda   ishlatiladigan   nutq
korpusining   sifati   va   hajmiga   bog liq.   Nutq   korpusini   shakllantirishda   matnli	
ʻ
ma lumotlarning fonetik tarkibi va lug atning xilma-xilligi, diktorlarning soni, hissiy	
ʼ ʻ
va   demografik   xususiyati,   jinsi,   ovoz   yozish   muhitining   holati,   korpus
hajmi(davomiyligi),   korpusni   yaratishda   foydalaniladigan   texnik   vositalar   tavsifi
muhim ahamiyat kasb etadi. 
33 III-BOB. NUTQNI TANISH TIZIMINI LOYIHALASHTIRISH
Ushbu bobda nutqni tanish tizimini ishlab chiqishda akustik modellashtirishning
neyron   tarmoq   arxitekturalari,   nutqni   tanish   tizimlarini   strukturali   sxemalari   hamda
tanish tizimi uchun neyron tarmoqni loyihalashtirish va arxitekturasini ishlab chiqish
bo yicha bajarilgan ishlar keltirilgan.ʻ
3.1-§ Neyron tarmoqlari
Sun'iy   neyron   tarmoq   -   bu   bog langan   va   o zaro   ta sir   qiluvchi   sun'iy	
ʻ ʻ ʼ
neyronlar.   Sun'iy   neyron   tarmoqlari   biologik   neyron   tarmoqlari   asosida   qurilgan,
amalga   oshiradigan   nerv   hujayralarining   bog lanish   tarmog i   ma lum   fiziologik	
ʻ ʻ ʼ
funktsiyalardir. Nervning tarkibiy elementi tarmoqlar neyronlardir.
3.1-rasm. Biologik neyronning tuzilishi.
                            Neyron   bir   nechta   asosiy   qobiliyatlarga   ega:   integral,   o tkazuvchan   va	
ʻ
uzatuvchi   funktsiyalar.   Qabul   qilish   funktsiyasi   yordamida   ma lumot   olish   uchun	
ʼ
neyronning   mulkiga   javobgar   sinapslar.   Integral   funktsiya   neyron   chiqishi   paytida
34 signal   beradi,neyron   tomonidan   qabul   qilingan   barcha   signallar   haqidagi
ma lumotlarni   o z   ichiga   oladi.Super   o tkazuvchilar   funktsiya   ma lumotni   aksonʼ ʻ ʻ ʼ
bo ylab   uzatishni   ta minlaydi  
ʻ ʼ sinapsga.   O tkazish   funktsiyasi   aksonning   oxiriga	ʻ
yetgan impulsni majbur qiladi,  qo zg alishni keyingi neyronga o tkazadi.	
ʻ ʻ ʻ
                            Sinapslar   -   bu   chiqish   signallari   orqali   ulanish   neyronlar   boshqa
neyronlarning kirishiga o tadilar. Har bir sinapsda mavjud ijobiy yoki salbiy bo lishi	
ʻ ʻ
mumkin bo lgan o z vazni  qiymatlar. Ijobiy og irlikdagi  aloqalar  qo zg atadi,  salbiy	
ʻ ʻ ʻ ʻ ʻ
bilan  aloqalar   taqiqlovchi.Sun'iy  neyron  tarmoqlarida  har   bir   sun'iy   neyron   ba zi   bir	
ʼ
chiziqli emas argumenti barcha kelganlarning kombinatsiyasi bo lgan funktsiya signal	
ʻ
kirishlari. Funktsiya natijasi neyronning chiqishiga yuboriladi.
               Makkallok va Pitts ham shaxsni birlashtirish usulini taklif qilishdi neyronlar
sun'iy   asab   tarmoqlariga   aylanadi.   Birinchi   rasmiy   model   neyron   tarmoqlari   haqli
ravishda   Makkalok-Pitts   modeli   deb   nomlanadi.   Uchun   individual   peyronlarni
neyronning   umumiy   tarmoq   chiqish   signallariga   birlashtirish   keyingi   neyronning
kiritilishiga uzatiladi. Nerv tarmog i quyidagilardan iborat bir nechta sun'iy neyronlar.	
ʻ
Yangi   kirishni   qabul   qiladigan   qatlam   ma lumotlar   kiritish   deb   nomlanadi.   Tarmoq	
ʼ
natijasini   beradigan   qatlam,   hafta   oxiri   deb   nomlangan.   Sun'iy   asab   tarmog ining	
ʻ
barcha a zolari oraliq qatlamlar yashirin qatlamlar deyiladi .	
ʼ
35 3.2-rasm. Sun'iy neyron tarmoq
      Sun'iy   neyronning   faollashtirish   funktsiyasi   chiziqli   emas   deb   nomlanadi
neyron   tarkibidagi   funktsiya.   Aktivizatsiya   funktsiyasi   xarakterlanadi   neyron
chiqadigan   signalning   neyron   kirishidagi   signallar   yig indisiga   bog liqligi.   Sun'iyʻ ʻ
neyron   o zining   faollashishi   bilan   ajralib   turadi,   odatda   qiymatlar   oralig ida	
ʻ ʻ
monotonik ravishda o sib boradi [-1,1] (giperbolik tangens) yoki [0,1] (sigmasimon).	
ʻ
Muayyan   algoritmlar   uchun   o rganish   -   neyron   tarmoqqa   ehtiyoj   bor   faollashtirish	
ʻ
funktsiyasi butun son bo yicha doimiy ravishda farqlanib turardi .	
ʻ
Asosiy faollashtirish funktsiyalari:
- sigmondni faollashtirish funktsiyasi:
σ	
( x	) = 1
1 + e − x             (3.1)
- Giperbolik tangens:
th
( Ax	) = e Ax
− e − Ax
e Ax
+ e − Ax             (3.2)
- Hevisayd funksiyasi (chegarani faollashtirish funksiyasi):	
f(x)={
1,agar	x≥−	w0x0	
0
        (3.3)
36Chiquvchi qatlam
Yashirin qatlam
Kiruvchi qatlam Tarmoqdan chiqish
Tarmoqga kirish Perseptron - Frank tomonidan yaratilgan sun'iy neyronning bir turi Rozenblatt
1960   yilda.   Perseptron   birinchilardan   biri   sifatida   tanildi   rivojlangan   neyron
tarmoqlari.   Perseptron   uch   turdagi   elementlardan   iborat:   datchiklar,   assotsiativ   va
sezgir   elementlar.   Perseptron   ishining   mohiyati   o rtasida   "assotsiatsiyalar"ʻ
majmuasini   yaratishga   imkon   beradigan   g oya   paydo   bo ldi   kirish   stimullari   va	
ʻ ʻ
kerakli chiqish javobi.
3.3-rasm. Eng oddiy perseptronning mantiqiy diagrammasi
  Eng oddiy perseptron uch xil elementdan iborat: S-elementlar (datchiklar yoki
retseptorlar   qatlami),   A-elementlar   (assotsiativ   elementlar)   va   bitta   R   element.
Retseptorlarning   har   biri   ikkitadan   bittasida   joylashgan   bo lishi   mumkin   bo lgan	
ʻ ʻ
holatlar   -   dam   olish   yoki   hayajonlanish,   lekin   faqat   oxirgi   holat,   u   bitta   signalni
assotsiativ   qatlamiga   uzatishi   mumkin   elementlar.   Assotsiativ   element   faqat   qachon
faollashadi   retseptorlardan   keladigan   signallar   soni   ma lum   bir   qiymatdan   oshib	
ʼ
ketadi.   Signallar   hayajonlangan   assotsiativ   elementlardan   qo shimchaga   R,   va	
ʻ
assotsiativ element signallarining har biri koeffitsient bilan uzatiladi  w
i , bu bog lanish	
ʻ
og irligi   deb   ataladi.   Nihoyat,   R-element   miqdorni   hisoblab   chiqadi   uning   signallari	
ʻ
bo yicha olingan barcha signallarning og irliklari (chiziqli) bilan ko paytiriladi shakl).
ʻ ʻ ʻ
Chiziqli   shakl   ba zi   birlaridan   oshib   ketsa,   natijalar   "1"   dir   qiymati   ,   aks   holda,	
ʼ ϴ
chiqish   "-1"   ga   o rnatiladi.   Matematik   jihatdan,   funktsiya   R-   element   quyidagicha
ʻ
tavsiflanadi:
37 f( x	) = sign (
∑
i = 1n
w
i x
i − ϴ )     (3.4)
Perseptronni   tayyorlash   w
i     ulanishning   og irliklarini   o zgartirishdan	
ʻ ʻ
iborat.Keyin o rganish pertseptroni tanib olish yoki umumlashtirish rejimida ishlashga	
ʻ
tayyor.Umuman olganda, perseptronning uchta asosiy turi mavjud:
- bitta yashirin qatlamli pertseptron;
-   kirish   elementlari   ulangan   bitta   qavatli   pertseptron   tortish   tizimidan   foydalangan
holda   to g ridan-to g ri   hafta   oxiri   bilan.   Bunday   perceptron   eng   oddiy   neyron	
ʻ ʻ ʻ ʻ
tarmog i;	
ʻ
- ko p qatlamli pertseptron.	
ʻ
Sigmoidal   neyron   uchun   aktivizatsiya   funktsiyasi   sigmoidal   funktsiya,
Sigmoidal   neyron   katta   tanqislikni   yo q   qiladi   pertseptron   -   aktivizatsiya	
ʻ
funktsiyasining   uzilishi,   uzluksiz   qo llanilishi   faollashtirish   funktsiyasi   sizga   asab	
ʻ
tarmog ini   o rgatish   paytida   foydalanishga   imkon   beradi   gradiyent   usullari.   Amalda	
ʻ ʻ
sigmasimon neyronlarning ikki turi qo llaniladi: bir qutubli va bipolyar faollashtirish	
ʻ
funktsiyalari bilan.
Bir qutbli funktsiya quyidagi formula bilan berilgan:
f
( x	) = 1
1 + e − βx
3.4-rasm. Bir qutbli sigmoidal funksiya grafigi
Bipolyar funtsiya, o z navbatida, quyidagi formula bilan belgilanadi:	
ʻ
38 f(x)=th	(−	βx	)3.5-rasm. Bipolyar sigmoidal funksiya grafigi
β
  koeffitsienti   funksiya   ishlab   chiquvchi   tomonidan   moyilligini   aniqlaydi   va
tanlanadi,   ammo   amalda   soddaligi   uchun  	
β   koeffitsienti   tayinlanadi   1   ga   teng   .
Qachon B - › ∞
 sigmasimon Hevisayd funksiyasiga intiladi.
Neyronlarni tarmoqdagi mavqeiga qarab, uchga bo lish mumkin truppalar:	
ʻ
- dastlabki ma lumotlar vektorini oladigan kirish neyronlari;	
ʼ
- asosiy hisoblash operatsiyalarini bajaradigan oraliq neyronlar;
- tarmoq ishi natijasini olib boruvchi neyronlarning chiqishi.
 O rganish qobiliyati miyaning asosiy xususiyatidir. Sun'iy neyron tarmoqlari	
ʻ
kontekstida, o quv jarayoni ko rib chiqiladi qanday qilib ulanish og irliklarini sozlash	
ʻ ʻ ʻ
va   tarmoq   arxitekturasini   sozlash   vazifani   bajarish.   Odatda   neyron   tarmoq
og irliklarni   sozlashi   kerak   unga   berilgan   ma lumot   to plami   uchun   ulanishlar.	
ʻ ʼ ʻ
Ishlayapti og irliklarni takroriy ravishda sozlash bilan tarmoq yaxshilanadi.	
ʻ
Nerv   tarmoqlarini   o rganish   xususiyati   ularni   ajralmas   qiladi   ko plab	
ʻ ʻ
algoritmik murakkab masalalarni yechish [6].
Neyron   tarmog ini   o rgatish   uchun   siz   bir   qator   mashg ulotlarga   ega	
ʻ ʻ ʻ
bo lishingiz   kerak   ma lumotlar,  neyron  tarmoq  yaratadigan  muhitning  tashqi  modeli	
ʻ ʼ
funktsiya.   Ushbu   model   asosan   paradigmani   belgilaydi   o rganish.  	
ʻ Mashinasozlik
39 tizimlarining turli xil turlari mavjud.  o rganish, ammo ularning barchasi asosida kengʻ
toifalarga birlashtirilishi mumkin quyidagi belgilar:
  -   ular   inson   nazorati   ostida   o qitiladimi   (o qitish   o qituvchi,   nazoratsiz   o rganish,	
ʻ ʻ ʻ ʻ
mustahkamlashni o rganish);	
ʻ
- ular tezda (dinamik yoki ommaviy) o rganishlari mumkinmi ta lim);	
ʻ ʼ
-   yangi   kiritilgan   qiymatlarni   bilan   solishtirish   orqali   neyron   tarmoqlari   ishlarini
bajarish   mavjud,   yoki   o quv   ma lumotlarining   namunalarini   kashf   eting   va   tuzing	
ʻ ʼ
bashoratli modellar (namunalar yoki modellar asosida o qitish).	
ʻ
Ro yxatdagi   turlar   bir-birini   istisno   qilmaydi   va   biz   buni   qila   olamiz	
ʻ
muammoni   hal   qilish   kerakligi   sababli   ularni   birlashtiring.Yaxshi   misol   -   elektron
pochta   spam-filtri.Foydalanuvchilar   tomonidan   spam   sifatida   belgilangan   harflardan
o rganadigan pochta (o qituvchi bilan mashg ulotlar), talaba doimo ishlaydi (dinamik	
ʻ ʻ ʻ
o rganish)   va   oddiy   elektron   pochta   xabarlarini   spam   bilan   taqqoslash   xatlar
ʻ
(namunalar asosida mashg ulotlar).	
ʻ
                           Ta lim nazariyasi  uchta asosiy xususiyatni  hisobga oladi, misol bo yicha	
ʼ ʻ
o rganish   bilan   bog liq:   imkoniyatlar,   na munalarning   murakkabligi   va   hisoblash	
ʻ ʻ ʼ
murakkabligi. Imkoniyatlar bu namunalarning hajmini anglatadi tarmoq eslab qolishi
mumkin.   Namunalarning   murakkabligi   murabbiylar   sonini   aniqlaydi   neyron   tarmoq
qobiliyatiga erishish uchun zarur bo lgan ma lumotlar umumlashtirish.	
ʻ ʼ
3.2 -§  Chuqur neyron tarmoq arxitekturalari
Svyortkali   neyron   tarmoq.   Svyortkali   neyron   tarmoqlar   (Convolution
Neural   Network   -   CNN)   –   ko pqatlamli   neyron   tarmoqlarining   bir   turi   bo lib,	
ʻ ʻ
amerikalik   olim   Yanom   LeKunom   tomonidan   1989-yilda   taklif   qilingan.   U   kichik
qadamlar   bilan   masshtabni   va   buzilishlarni   o zgartirish   asosida   tarmoqning	
ʻ
invariantligini   ta minlaydigan   2   ta   asosiy   g oyani   o zida   birlashtiradi   bular:   lokal	
ʼ ʼ ʻ
retseptiv   maydonlar   (local   receptive   fields)   va   umumiy   vaznlar   (shared   weights).
CNN   ikki   o lchovli   ma lumotlarni   tanish   uchun   mo ljallangan,   shuning   uchun   ham	
ʻ ʼ ʻ
40 neyronlar   tarmoqning   har   bir   qatlamida   tekisliklarni   hosil   qiladi.   Bu   kiruvchi
ma lumotlarning topologiyasini saqlab qolish uchun amalga oshiriladi [33,34].ʼ
3.6-rasm.   «Nol» so zining MFCC koeffitsientlariga asoslangan bitli kartasi.	
ʻ
      Kiritish   qatlami   bitta   tekislikdan   iborat   bo lib,   uning   o lchami   kirish	
ʻ ʻ
ma lumotlarining   o lchamiga   to g ri   keladi.   Keyingi   qatlamlar   svertkali   hisoblanadi	
ʼ ʻ ʻ ʼ
va   belgilar   kartasi   deb   nomlanadigan   (feature   maps)   bir   nechta   neyronlar
tekisliklaridan   tashkil   topgan.   Svertkali   qatlamning   har   bir   neyroni   o zidan   oldingi	
ʻ
qatlamning   lokal   retseptivli   maydoniga   ulangan   [16,17].   Tarmoqning   oxirgi   2   ta
qatlami amaliy jihatdan oddiy to g ri tarqalgan tarmoqni o zidan aks ettiradi.	
ʻ ʼ ʻ
 
3.7-rasm.CNN arxitekturasi
Rekkurent neyron tarmoq.   Kontekstli axborotdan foydalanishning yana bir
usuli, ularning tarmoq topologiyasidan qat iy nazar, neyronlar orasidagi ixtiyoriy 	
ʼ
bog lanishlarni kiritishdir [33,34]. Biroq tarmoq KP bo lishligi uchun bu aloqalar bir 	
ʼ ʻ
41Kiruv chi
tasvir
Svertkali
qatlam Belgilar
kartasi
Pooling
qatlami Belgilar kartasini
kichraytirish
Kartalarni
vektorga
almashtirish Dropout
qatlami
To liq bog’lanishli	
ʻ
qatlam Chiquvchi
ma lumotlar	
ʼ Yaqin
Chiroqq
Chap
Uzoq vaqtli qadam bilan kechiktirilishi kerak. Bu rekurrent aloqa deb ataladi. Bunday 
tarmoq strukturasi 3.8-rasmda keltirilgan.
3.8-rasm.   Rekurrent neyron tarmoq
Shunday   qilib,   neyron   faolligi   oldingi   va   keyin   keluvchi   vaqtli   qadamdagi
neyronlarning   faolligiga   bog liq.   Bunday   tarmoq   rekurrent   yoki   dinamik     neyronʼ
tarmoq   (RNN)   deb   ataladi[33,34].   Dastlab   RNNlar   o qitish,   tahlil   va   ishlab	
ʻ
chiqishdagi   katta   qiyinchiliklar   tufayli   nutqni   tanish   tizimlarida   kam   ishlatilgan.
Biroq,   bir   qator   ilmiy   tadqiqotlar   natijasida   BP   algoritmining   bir   nechta
modifikatsiyasi   taklif   qilindi:   rekurrent   BP   ,   ketma-ketlik   uchun   BP   ,   real   vaqtda
rekurrent o qitish , vaqtga bog liq rekurrentli BP algoritm va eng mashhuri vaqtli BP	
ʻ ʼ
algoritmi. Bu modifikatsiyalangan rekurrentli strukturalar nutqni tanish tizimlar ishini
osonlashtirdi.KP o qitishida bunday modifikatsiyalangan algoritmlarni qo llash qisqa	
ʻ ʻ
muddatli   akustik   –   fonetik   birliklarni   ya niki   fonemlarni   tanib   olish   sifatini	
ʼ
yaxshilashga   olib   keldi   va   so zlar   kabi   til   birliklarini   ifodalash   uchun   zarur   bo lgan	
ʻ ʻ
akustik   kuzatuvlarning   uzoq   muddatli   ketma-ketligini   tanishni   sezilarli   yaxshiladi.
Ushbu natijalarning nazariy asoslanishi [4,9] ishda keltirilgan. Bundan tashqari, ushbu
tadqiqotlar   SNT   ni   nutqni   tanish   tizimining   asosiy   strukturasi   bo lishiga   imkon	
ʻ
bermaydigan   bir   qancha   kamchiliklarni   aniqlandi.   Bularga   quyidagilarni   keltirish
mumkin:
42 Chiqish
sathi
Yashirin
sathi
Kirish
sathi  SNT   larida   nutq   signalining   tabiiy   ketma-ketligini   va   vaqtli
o zgaruvchanlikni aks ettiradigan mexanizmlar mavjud emas;ʻ
 SNT   dinamikasi   va   topologiyasini   belgilovchi   bir   qator   parametrlar
uchun   bu   parametrlarni   hisoblash   yoki   tanlash   uchun   nazariy   asos
mavjud emas (ular ishlab chiquvchining xohishiga ko ra tanlanadi);	
ʻ
 O qitish   jarayonini   tezlashtiruvchi   bir   qator   algoritmlar   ishlab	
ʻ
chiqilganligiga   qaramay,   u   juda   resurs   talab   qiladigan   jarayon   bo lib	
ʻ
qolmoqda.
 Uzun qisqa muddatli xotiraga ega tarmoq.  Akustik   modellashtirish
uchun qo llaniladigan yana bir RNN ning bir turiga xotira bloklari deb nomlanadigan	
ʻ
maxsus elementlardan tashkil topgan   LSTM tarmog i kiradi. Xotira bloklari tarmoq	
ʼ
holatlarini   vaqtincha   saqlab   turadigan   yacheykalardan   hamda   geytlar   deb
nomlanadigan   multiplikativ   elementlar,   axborot   oqimlarini   boshqarishdan   tashkil
topgan. Har bir xotira bloki kiruvchi va chiquvchi geytlardan hamda yoddan chiqarish
geytlaridan   tashkil   topgan.   LSTM   tarmog ining   xotira   blokiga   misol   3.8-rasmda	
ʼ
ko rsatilgan. 3.9- rasmdagi  	
ʻ	xt -  	t     vaqt momentidagi kiruvchi vektor,  	ht   - chiquvchi
vektor [33,34].
LSTM   tarmoq   yacheykasi   uzoq   vaqt   davomida   ma lumotlarni   saqlaydigan	
ʼ
tarmoqning murakkab elementi  sifatida qaraladi. Geytlar  kirish ma lumotlari  qachon	
ʼ
ahamiyatli ekanligini va uni yodda saqlashni yoki va qachon ma lumotlarni chiqishga	
ʼ
yuborishni aniqlaydi.  
43                     
3.9-rasm. LSTM tarmog i xotira blokiga misolʼ
LSTM tarmog i quyidagi ifodalar asosida ishlaydi.	
ʼ	
it=σ(W	xixt+W	hiht−1+W	cict−1+bi)
(3.5)	
ft=σ(W	xtxt+W	htht−1+W	ctct−1+bt)	
ct=	ftct−1+ittanh	(W	xcxt+W	hcht−1+bc)	
ot=σ(W	xoxt+W	hoht−1+W	coct+bo)	
ht=ottanh	(ct)
bu   yerda  	
σ   sigmoit   funktsiya,   i,   f,   o   va   c   lar   mos   ravishda   kiruvchi,   yoddan
chiqaruvchi,   chiquvchi   geytlar   va   holat   yacheykalari   sanaladi   ularning   hammasi
yashirin vektor h bilan bir xil o lchamga ega.	
ʻ
3.3 -§   Nutqni tanish tizimining strukturaviy tuzilishi 
Nutqni tanish modulining kirish qismiga   foydalanuvchining ixtiyoriga ko ra	
ʻ
mikrofondan yoki  avvaldan yozilgan   WAV  formatidagi    audio fayldan nutq signali
kiritiladi.   Shunisi   e'tiborga   loyiqki,   mikrofondan   yozilgan   ovoz   darhol   tanib   olish
moduli kirmaydi, keyingi bosqichda tanib olish uchun oldindan alohida audio faylgaa
tegishli formatda saqlanadi [21,22,26]. Akustik komponent signalni 16000 Hz ga teng
diskretlash     chastota   parametri   bilan   raqamlashtiradi.     Nutq   signalidan   muhim
belgilarni ajratib olish bir necha bosqichda amalga oshiriladi: 
44 o birinchi   qadam   butun   signalni   10   ms   uzunlikdagi   qisqa   kadrlarga
ajartiladi   va   ularga   Hemming   oyna   funksiyasini   qo llash   asosidaʻ
silliqlanadi;
o tezkor   Fur’e   almashtirish   algoritmi   yordamida   har   bir   freymdan   signal
spektri olinadi; 
o keyingi   ishlov   berish   bosqichida   signalni   mel-chastotali   oynadan
o tkazib kepstr koeffisientlari olinadi;	
ʻ
o har bir freym uchun energiya hisoblanadi;
o ishlov   berishning   oxirgi   bosqichida   nutq   signalidan   diskret   kosinus
almashtirish   funksiyasini   qo llash   asosida   mel   chastotali   kepstral	
ʻ
koeffisientlar olinadi.
Ushbu   koeffitsientlar   to plami   neyron   tarmoq   uchun   kiruvchi   ma lumotlar	
ʻ ʼ
sifatida keladi. Neyron tarmoqni o qitish davomida kiruvchi ma lumotlar tarmoqning	
ʻ ʼ
o qitish blokiga junatadi. Treningni tugatgandan so ng, neyron tarmoq o z progressini	
ʻ ʻ ʻ
va modulni saqlab qoladi va ishni tugatadi [27,28]. Neyron  tarmog ining  tanib olish	
ʻ
rejimida   ma lumotlar   konneksion   vaqtinchalik   tasniflash   blokiga   o tkazadi   va   nutq	
ʼ ʻ
signalini dekodlaydi va natijani foydalanuvchiga matn ko rinishga keltiradi.	
ʻ
45
Nutqni raqamli 
shaklga o tkazish	
ʻ Nutq signalidagi 
belgilarni ajratish Neyron tarmoq
Nutq signali Nutqni tanib olish moduli   
3.10-rasm. Strukturali tuzilishi
3.4-§  Neyron tarmoqni loyihalashtirish va tarmoq arxitekturasini ishlab chiqish
Oldingi   bobdan   ma lum   bo lishicha,   neyron     tarmoqlarni   o qitish   quyidagiʼ ʻ ʻ
ob'ektlarga yo naltirilgan:	
ʻ
– umumiy tarmoqqa birlashtirilgan qatlamlar;
– neyron tarmog ini o qitish uchun dastlabki ma lumotlar;	
ʻ ʻ ʼ
– yo qotish   funktsiyasi,   o qitish   uchun   ishlatiladigan   qayta   aloqa   signalini	
ʻ ʻ
aniqlaydi;
– trening jarayoni qanday o tishini aniqlaydigan optimizator.	
ʻ
46 MatnNeyron tarmoqni 
o qitish	
ʻ
Konneksion vaqtli 
taqsimlash Kiruvchi ma lumotlarʼ
3.11-rasm. Nutqni tanish  uchun neyron tarmoqning strukturali tuzilishi
Ushbu   ob'ektlar   orasidagi   bog liqlik   3.10-rasmda   ko rsatilgandek   ifodalash	
ʻ ʻ
mumkin.   Uzoq   muddatli   xotiraga   ega   bo lgan   takrorlanuvchi   tarmoqning   ikki	
ʻ
qatlamidan   iborat,   bir-biriga   zanjirlangan   va   ko rsatiladigan   -   asl   nusxadagi	
ʻ
ma lumotlar bashoratlaydi [24,25,26].	
ʼ  
Keyingi   bosqichda,   yo qotish   funksiyasi   sifatida   konneksion  	
ʻ vaqtinchalik
tasniflash     algoritmi   yorliq   bilan   bashorat   qilingan   matnni   solishtiradi   va   yo qotish	
ʻ
funksiyasini   qaytaradi;   tarmoq   tomonidan   qilingan   bashoratning   kutilgan   natijaga
qanchalik   mos   kelishini   o lchaydigan   o lchov.   Tarmoq   vaznini   o zgartirish   uchun	
ʻ ʻ ʻ
471-qatlam
( ma lumotlarni	
ʼ  
almashtirish)Va znlar 
matritsasi
2-qatlam
( ma lumotlarni
ʼ  
almashtirish)Va znlar 
matritsasi
Fonemlarni 
bashoratlash Fonemlarning 
haqiqiy qiymati
Xatolikni baholashOptimizator Xatolik 
funksiyasi yo qotish   qiymatidan   optimizatordan   foydalanadi.   Optimallashtirish   funktsiyasiʻ
sifatida   nutqni   aniqlash   modulida   Adam   Adaptive   Moment   Estimation)   funksiyasi
qo llaniladi.   Stoxastik   maqsadni   gradient   optimallashtirish   algoritmi   birinchi
ʻ
darajadagi   funktsiyalar   past   darajadagi   adaptiv   baholarga   asoslangan.Usulni   amalga
oshirish sodda, hisoblash samaradorligi, xotira talabining kichikligi, diagonal miqyosi
o zgarmas   gradyanlari   va   jihatidan   katta   bo lgan   vazifalar   uchun   juda   mos   keladi
ʻ ʻ
ma lumotlar   ko rinishi.Tajriba   natijalari   Adam   algoritmining   yaxshi   ekanligini	
ʼ ʻ
ko rsatadi amalda boshqa stoxastik usullar bilan taqqoslaganda samaralidir [30].
ʻ
Nutqni   tanib   olishda   neyron   tarmoqlari   odatda   nuqt   signallaridagi   alohida
fragmentlar   yordamida   o qitiladi.   Buning   uchun   har   bir   freymga   mos   keladigan	
ʻ
yorliqlarni   tanlash   kerak,   bu   esa   ovoz   traktini   va   yorliqlashni   baravarlashtirish
zaruratini keltirib chiqaradi.
Nutq   signalini   yorliqlashda   svyortkali   va   rekurrent   tarmoqlar   taqdim   etadigan
afzalliklaridan samarali  foydalanish uchun svyortkali  neyron   tarmog i  (Convolution	
ʻ
Neural   Network   –   CNN),   Rekurrent   neyron   tarmog i   (Recurrent   Neural   Network-	
ʻ
RNN) va konneksion vaqtli tasniflash (Connection Time Classification – CTC) larga
asoslangan   ketma-ketliklarni   yorliqlashning   tizimlari   mavjud.   Xususan,   bunday
tizimlarni umumiy amalga oshirilishi quyidagicha umumlashtirilishi mumkin [33,34].
Birinchidan   ketma-ketliklarni   yorliqlashda   kiruvchi   ketma-ketlikdagi   lokal
fazoviy belgilari va fazoviy vaqt xarakteristikalarini samarali ajratish uchun biz RNN
tarmoqga   svyortkali   strukturani   kiritamiz.   Bunda   rekurrent   bog lanishlar   uzoq	
ʻ
davomiylikdagi   fazoviy-vaqt   xarakteristikalarini   ushlab   qolish   uchun   ishlatilsa,
svyortkali bog lanishlar esa lokal fazoviy obyektlarni olish uchun ishlatiladi.	
ʻ
Ikkinchidan     uzun   kirishni   qisqa   chiqishga   o tkazish   uchun   biz,   ketma-	
ʻ
ketliklarni   yorliqlash   modeliga   belgilar   va   vaqt   bo yicha   2-o lchovli   (2-D)	
ʻ ʻ
birlashtirishni   kiritamiz.   Bu   orqali   biz   vaqt   bo yicha   birlashtirishni   bir   nechta   kirish	
ʻ
vektorlarini  faqat bitta chiqish vektoriga aylantirish uchun foydalanamiz, bu esa ba zi	
ʼ
bir ortiqcha amallarni  olib tashlaydi va modelni soddalashtirishi mumkin. 
48 Uchinchidan   modelni   o qitish   uchun   CTC   yo qotish   funksiyasidanʻ ʻ
foydalanamiz. CTC kirishning uzun ketma-ketligiga asoslangan qisqa chiqish ketma-
ketligini   optimal   ehtimolliklarini   taqsimlashni   ta minlab   beradi.   Chunki   u   kiruvchi	
ʼ
ketma-ketliklarni   oldindan   segmentasiyalash   uchun   majburiy   to g rilashlarni   talab	
ʻ ʻ
qilmaydi.   Biz   undan   integrallashgan   neyron   tarmoqni   o qitishda   foydalanamiz	
ʻ
[7,5].Ushbu jarayon quyidagi rasmda keltirilgan [7,6].
3.12-rasm.  Rekurrent neyron tarmoqlarida nutqni tanish
qadamlari
Fonogrammaga   ishlov   berish.   Ushbu   blokda   nutq   signalini   diskretlash
chastotasi,   o lcham   xonalar   soni   (razryadliligi),   kanallar   soni   kabi   asosiy	
ʻ
xususiyatlarni o rnatish asosida nutq signallarini hosil qilish jarayoni hamda dastlabki	
ʻ
ishlov   berishning   standart   algoritmlari   amalga   oshiriladi.   Bunda   dastlabki   ishlov
berishning   filtrlash   bosqichida   nutq   signalidan   past   chastotalar   (<100   Gs)   va   yuqori
chastotalarni   (>4000   Gs)   olib   tashlashni   amalga   oshiruvchi   filtrlash   parametrlari
berilgan.   Nutqdagi   jimlik   sohalarni   olib   tashlash   bosqichida     spektral   entropiya
algoritmidan   foydalanilgan.   Segmentasiyalash   va   silliqlashtirish   bosqichida   nutq
signali   256   ta   nuqtadan   iborat   uzunlikdagi   freymlarga   ajratilgan   va   segmentlash
jarayonida   freymlardagi     buzilishlarni   kamaytirish   va   ularni   silliqlash   uchun
Xemming vazn oynasidan foydalanilgan [32,33,34,35].  
MFCC koeffisiyentlarini hisoblash.     Dastlabki ishlov berish jarayoni amalga
oshirilgandan  so ng  nutq  signalining  har  bir   segmentidan  mel  kepstr  koeffisiyentlari
ʻ
olinadi. MFCC koeffisiyentlarini hisoblash algoritmi  quyida  batafsil keltirilgan. 
49 1. Mel spektrogramma.  Mel spektrogrammalarini hosil qilishda har bir freymdan
40 ta MFCC koeffisiyentlaridan foydalanilgan holda yaratiladi Xuddi shunday tartibda
o rgatuvchi   tanlamadagi   barcha   audio   fayllardan   mel   spektrogramma   tasvirlari   hosilʻ
qilinadi.
2. Belgilarni   ajratish.   Mel   spektrogramma   tasvirlari     vaqt   bo yicha   nutq	
ʻ
signalidagi   chastotalarini   qanday   o zgarishini   tasvirlaydi.   Bu   esa   vaqt   bo yicha   nutq	
ʻ ʻ
signalidagi   lokal   fazoviy   belgilarni(belgilar   kartasi)   hosil   qiladi.   CNN     3   ta     asosiy
xususiyatga ega : svyortkadan o tkazish	
ʻ ,   vaznlar taqsimoti   va   hajmni kichraytirish
(pooling) .   Ularning   har   biri   nutqni   tanish   samaradorligini   yaxshilash   imkoniyatini
taqdim etadi [33,34]. Svyortka qatlamida bir qancha filtrlar yadrosi tasvirdagi ajratilgan
sohadan   (filtr   o lchamiga   teng)   muhim   belgilarni   ajratadi   hamda   turli   xildagi	
ʻ
shovqinlardan  tozalash   vazifasini   bajaradi. Buning  natijasida  nutq  belgilari   spektrning
tozalangan qismidan ajratib olinadi. Bundan tashqari, svyortka jarayoni o rganiladigan	
ʻ
tarmoq vaznlari sonini kamaytiradi.   
Vaznlarni   taqsimlash   model   ishonchliligini   oshiradi   va   haddan   tashqari
moslashuvchanlik (overfitting) ni  kamaytiradi. Chunki, har  bir  vazn kirishdagi  har bir
chastotadan   emas,   balki   bir  nechta  chastota  diapazonlaridan  olinadi.  Bu   esa   tarmoqda
o qitish uchun vaznlar sonini kamaytiradi.	
ʻ
Pooling   xususiyati   uchun   svyortkadan   o tkazish   va   vaznlar   taqsimoti   zarurdir.	
ʻ
Pooling jarayonida turli joylardan hisoblangan obyekt qiymatlari birlashtiriladi va bitta
qiymat   sifatida   taqdim   etiladi.   Qatlamdagi   max   pooling   operasiyasi   pooling
o lchamidagi   qiymatlar   ichidan   eng   kattasini,   average   pooling   esa   o rtacha   qiymatini	
ʻ ʻ
keyingi   ishlov   berish   bosqichi   uchun   qoldiradi.   Buning   asosida   kichik   ta sirga   ega	
ʼ
belgilar olib tashlanadi. Bu esa ortiqcha vazn koeffisiyentlaridan qutilish imkoniyatini
beradi.   
Ushbu   keltirib   o tilgan   afzalliklar   evaziga   CNN   standart   to liq   bog lanishli	
ʻ ʻ ʻ
neyron tarmoqlaridan farqlanadi.
50 4.Rekurrent   tarmoq.   CNN     tomonidan   nutqning   lokal   fazoviy   belgilari
ajratib   olingandan   so ng,   uning   vaqtga   bog liq   xususiyatlari   rekurrent   tarmoq   orqaliʻ ʻ
aniqlanadi.   Ya ni   rekurrent   qatlam   har   vaqt   qadamida   fonem   ehtimolligini	
ʼ
taqsimlaydi.   Rekurrent   tarmoqning   LSTM   turi   qo llanilgan   bo lib,	
ʻ ʻ   uzoq   vaqt
qadamidagi ma lumotlarni saqlash uchun mo ljallangan [33]. 	
ʼ ʻ
Bunda   CNN   tarmoq   M × N   o lchamda   mel   spektrogrammadan   olingan   belgilar	
ʻ
matrisasi   hosil   qiladi.   Bu   yerda   N-   freymlar   soni,   M- har   bir   freymdagi   belgilar   soni.
LSTM   tarmoqga   har   bir   freymdagi   M×1   o lchamdagi   belgilar   vektori   kiruvchi	
ʻ
ma lumotlar  sifatida beriladi. LSTM dan chiquvchi  belgilar  vektori  to liq bog lanishli	
ʼ ʻ ʻ
(FC) va softmax qatlamidan o tkazilgandan so ng, har bir vaqt qadamidagi   	
ʻ ʻ N   ta 27×1
o lchamdagi   alfavit   bo yicha   ehtimolliklari   taqsimlangan   vektorlar   dekodlash	
ʻ ʻ
algoritmiga   uzatiladi   (3.13-rasm).   Dekodlash   algoritmlari   ushbu   taqsimlangan
ehtimolliklar asosida matnni hosil qiladi.    
3.13-rasm.  Akustik model bajarilishi  bosqichlari
       6. Dekodlash.   Nutqni tanib olishda neyron tarmoqlari odatda nutq signallaridagi
alohida   fragmentlar   yordamida   o qitiladi.   Buning   uchun   har   bir   freymga   mos	
ʻ
keladigan   yorliqlarni   tanlash   kerak,   bu   esa   ovoz   traktini   va   transkripsiyasini
baravarlashtirish zaruratini keltirib chiqaradi.
51 CTC   –   bu   rekurrent   neyron   tarmoqga   kirish   va   chiqish   ketma-ketligini
baravarlashtirmasdan   so zlar   ketma-ketligini   tanib   olishni   o rganishga   imkonʻ ʻ
beradigan   funksiyadir .   CTC   dastlabki   segmentasiya   va   ishlov   berishni   talab
qilmaydigan yagona tarmoq arxitekturasida ketma-ket ma lumotlarni yorliqlash uchun	
ʼ
taklif   qilingan   bo lib,   uning   asosiy   g oyasi   tarmoq   chiqishlarini   ketma-ketlikning	
ʻ ʻ
barcha   mumkin   bo lgan   chiqish   teglari   bo yicha   shartli   ehtimollik   taqsimoti   sifatida
ʻ ʻ
talqin   qilishdir.   Ushbu   taqsimot   bilan,   to g ri   yorliqlar   ketma-ketligi   ehtimolini	
ʻ ʻ
maksimallashtiradigan obyektiv funksiyani olish mumkin [33,34]. 
Har   bir   vaqt   qadamida   tarmoq  	
L'=	L∪	{blank	}     yorliqlar   to plami   bo yicha	ʻ ʻ
ehtimollik taqsimotini  chiqaradi, bu yerda   L masaladagi  barcha yorliqlarni  saqlaydi
“blank”   esa   bo sh   joyni   anglatadi.   Aktivasiya  	
ʻ	ykt   -   t     vaqt   qadamidagi  	L' yorliqlar
to plamidagi  	
ʻ k -yorliqni   kuzatish   ehtimoli   sifatida   interpretasiyalanadi.   Kiruvchi   x
ketma-ketlik   uzunligini   T   deb   hisobga   olsak,   ma lum   bir  	
ʼ	π   ni   yorliqli   kuzatishlar
setkasi orqali, kuzatish shartli ehtimolligi olinadi:	
P(π|x)=	∏
t=1
T	
yπtt,∀	π∈L¿,
 
(3.6)
bu   yerda  	
πt -   bu     yo lidagi  	ʻ t     vaqt   qadami   kuzatuvidagi   yorliqdir,   yorliqlar
to plamidagi  	
ʻ T   uzunlikdagi yo llar to plami. Yo llar  	ʻ ʻ ʻ B   operasiyasi yordamida ketma-
ket yorliq bo yicha tasvirlanib, takrorlanuvchi yorliqlar va bo sh joylar ketma-ket olib	
ʻ ʻ
tashlanadi. 
Misol  uchun “salom” so zini hosil qiluvchi bir nechta yo llarni ko rib o tamiz	
ʻ ʻ ʻ ʻ
(3.13, 3.14-rasmlar).
3.14-rasm. “Salom” so zini hosil qilishning birinchi yo li (Path1)	
ʻ ʻ
52 3.15-rasm. “Salom” so zini hosil qilishning ikkinchi yo li (Path2)ʻ ʻ
Birinchi   yo l   Path1:   “sa-lo--m”    	
ʻ B   funksiyasi   yordamida   “salom”   so ziga	ʻ
aylanadi. Path1: “sa-lo--m”  yo lning ehtimolligi esa (3.3) ifoda orqali hisoblanadi. 	
ʻ
Ya ni   har   bir   vaqt   qadamida   neyron   tarmog i   asosida   yuqori   ehtimollik	
ʼ ʻ
bo yicha bashorat qilingan chiqishlar ko paytiriladi. 	
ʻ ʻ
(3.7)
Ikkinchi yo l Path2: “s-a-l-om” uchun ehtimollik:	
ʻ	
P(с - а - л -  ital 	ом	)=	yс
1×	y−
2×	yа
3×	y−
4×	yл
5×	y−
6×	yо
7×	yм
8
(3.8)
Berilgan   ketma-ketlikdagi   yorliq    	
l∈L¿T   ga   bittadan   ko p  	ʻ	π mos   keladi,
masalan:  B(aa- -ab -)=B(-a- - abb)=aab  bu yerda “-” bo sh joyni anglatadi. 	
ʻ Shunday
ekan biz yorliq  l  ning shartli ehtimolligini barcha mos yo llar ehtimolliklari yig indisi
ʻ ʻ
sifatida baholashimiz mumkin(3.16-rasm):	
P(l|x)=	∑
π∈B−1(l)
P(π|x)
      (3.9)
3.16-rasm. Yorliqlashga mos keluvchi yo llar to plami	
ʻ ʻ
Yorliqlash   jarayoni   sodda   ko ringani   bilan,   lekin   bitta   muammo   mavjud.   Biz	
ʻ
qaraydigan   misolda   ya ni     “SALOM”   so zida   6^8=1679616   ta   mumkin   bo lgan	
ʼ ʻ ʻ
53
P( ital 	са	 -  ital 	ло	 -  - м	)=	yс
1×ya
2×y−
3×yл
4×yо
5×y−
6×y−
7×yм
8 yo llar mavjud. Ko p sonli LSTM vaqt qadamlari uchun mumkin bo lgan yo llar soniʻ ʻ ʻ ʻ
juda   kattalashib   ketadi.   Berilgan   yorliq   uchun   biz   barcha   yo llarning	
ʻ
ehtimolliklarining   yig indisini   hisoblab   chiqish   juda   ko p   vaqtni   talab   etadi.   Lekin	
ʻ ʻ
yetarli   aniqlikdagi   yorliqlashni   ehtimolligini   hisoblashning   samarali   usuli   mavjud
bo lib, buni DTW asosida yechish mumkin. 	
ʻ
Asosiy   g oya   shundan   iboratki,   belgilashga   mos   keladigan   yo llar   yig indisini	
ʻ ʻ ʻ
ushbu   belgining   prefikslariga   mos   keladigan   yo llar   bo ylab   iterativ   yig indilarga	
ʻ ʻ ʻ
ajratiladi. So ngra iterasiyalarni to g ri (forward) va teskari (backward) yo naltirilgan	
ʻ ʻ ʻ ʻ
rekursiv   o zgaruvchilar   bilan   samarali   hisoblash   mumkin.   “Salom”   yorlig iga   mos	
ʻ ʻ
keluvchi barcha yo llarni DTW yordamida topishni ko rib chiqamiz. 	
ʻ ʻ
DTW   yordamida   “Salom”   so zini   dekodlash   uchun   mos   keluvchi   barcha	
ʻ
yo llarni modellashtirishimiz mumkin (3.17-rasm).	
ʻ
3.17-rasm. “Salom” so zini dekodlash jarayoni	
ʻ
Buning   uchun  	
αt(s)   o zgaruvchini   kiritamiz,   bunda  	ʻ	αt(s) -   l   yorliqni
bashoratlash   uchun   ketma-ket   vaqt   momentida     qaysidir   nuqtadan   boshlanuvchi
hamda   s   – chi joylashuv holatida turgan simvol perfiksidagi barcha   quyi yo llarning	
ʻ
umumiy ehtimolligidir. 
(3.10)
54    Shunday ekan biz 3.17-rasmdagi jadvalning har bir yacheykasi uchun  αt(s)
ni,  	
αt−1(s)   va  	αt−1(s−1) orqali   rekursiv   holda   hisoblaymiz.   Chiqish   yo llarida   bo sh	ʻ ʻ
joylarni inobatga olish uchun, ketma-ketlikning   boshi va oxiriga hamda har bir yorliq
jufti orasiga, bo sh joylar quyilgan modifikasiyalangan 	
ʻ l ’
  yorlig i ketma-ketligi ko rib	ʻ ʻ
chiqiladi.   Bunda   l ’    
uzunligi   2|l|+1   ga   teng.   l ’    
prefikslar   ehtimolligini   hisoblashda
barcha   bo sh   va   bo sh   bo lmagan   yorliqlar   hamda   har   qanday   alohida   bo sh	
ʻ ʻ ʻ ʻ
bo lmagan   belgilar   orasidagi   o tishlarga   ruxsat   beriladi.   Bunda   barcha   prefikslarni	
ʻ ʻ
“bo sh joy” (b) yoki  
ʻ l   ning birinchi belgisidan ( l
1 ) boshlashga imkon beriladi. Bu esa
quyidagicha insializasiyalash qoidalarni  va rekursiyani taqdim etadi.	
α1(1)=	yb
1
, 	α1(2)=	yl1
1 , 	α1(s)=	0,∀	>2 (3.11)	
αt(s)=	¿
{¯αt(s)y
ls
'
t	
agar	ls
'
=	b	yoki	ls−2	
'	
=	ls
'
¿¿¿¿¿
  
bunda    ga teng.                               
Shunda     l     yorliqni     ehtimolligi   T   vaqt   momentida   yakuniy   “bo sh   joy”   va	
ʻ
simvol bilan tugagan   l ’  
ehtimolliklarning yig indisiga teng.	
ʻ
                    	
p(l|x)=	αT(|l'|)+αT(|l'|−	1).            (3.12)                
Teskari yo naltirilgan (backword) o zgaruvchilar  	
ʻ ʻ	βt(s)   ham xuddi  	αt(s) kabi   t
vaqt momentida 	
ls:|l|  to liq ehtimollik asosida aniqlanadi.   	ʻ
(3.13)
βT(l')=	yb
T
, 	βT(|l'|−1)=	yl|l|
T , 	βT(s)=	0,∀	s<|l'|−	1
55 bunda   ga teng.
Ushbu  αt(s)   va    	βt(s)   yordamida   biz   istalgan   t     vaqt   momentida
dekodlanayotgan so zni yorliqlash ehtimoli quyidagicha bo ladi.	
ʻ ʻ
                                       	
∑
πt=ls
'¿
¿π	∈	β
−1
(l):¿.¿
 
(3.14)
Ushbu (3.4) ni soddalashtirish asosida quyidagi ifodaga kelinadi.
                           	
∑
πt=ls
'¿
¿π	∈	B
−1
(l):¿¿¿      (3.15)
Ixtiyoriy   t   vaqt   momentidagi   yorliqning(dekodlanuvchi   so zning)   to liq	
ʻ ʻ
ehtimolligini quyidagi ifoda orqali topiladi.
                                     	
p(l|x)=	∑s=1
|l'|αt(s)βt(s)	
yls't	.                               (3.16)
 Yuqorida keltirilgan (3.16) ifodani 	
yk
t  bo yicha differenisiallash uchun faqat 	ʻ k
yorliqdan  t  vaqt momentida o tadigan yo llarni ko rib chiqiladi.	
ʻ ʻ ʻ
                           
∂p(l|x)	
∂ykt	=−	1
ykt2	∑	s:seq(s)=k
αt(s)βt(s).         (3.17)
Bashorat qilish natijasi maksimal dekodlash yordamida hisoblanadi.
Hisoblashning   murakkabligi   yo lning   uzunligi   bilan   eksponensial   ravishda	
ʻ
o sib   borishi   sababli,  	
ʻ l     yorliq   ehtimolli   ketma-ketligini   topish   asosiy   emas.   Bunda
juda   ko p   taxminiy   alternativlar   mavjud   va   eng   yaxshi   yo lni   dekodlash   eng   ko p	
ʻ ʻ ʻ
56 qo llaniladigan   usullardan   biridir.   Mumkin   bo lgan   natija  ʻ ʻ	l' ga   to g ri   keladi,   deb	ʻ ʻ
taxmin qilinadi:	
l'≈	B(π¿)
   
bunda .
  Mumkin   bo lgan   yorliqlar   ketma-ketligini   topish   kafolatlanmaydi,   ammo	
ʻ
yechim ko p hollarda yetarlicha yaxshi va hisoblash jarayoni trivaldir.	
ʻ
Aniq yechim bashoratlash matrisasida har bir vaqt qadamida maksimal darajaga
ega elementlardan iborat yo lni tanlashdir. Misol sifatida yechim tasviri 3.18-rasmda	
ʻ
keltirilgan. 
3.18-rasm. Yakuniy dekodlash jarayoniga misol
Tarmoq   arxitekturasi.     Tarmoq   arxitekturasiga   har   20   ms   dagi   nutq
fragmentidan   olingan   mel   spektrogrammaning   40×1   o lchamdagi   vektor   qiymatlari	
ʻ
kiruvi belgilar sifatida svyortkali qatlamga beriladi [29]. Tarmoq boshida  3 ta ketma-
ket   svyortka   qatlami   joylashgan.   Shundan   so ng   2   ta   ikki   tomonga   yo naltirilgan	
ʻ ʻ
LSTM qatlamlar keladi. Ushbu rekurrent qatlamdan   so ng   2   ta   to liq bog lanishli	
ʻ ʻ ʻ
qatlamlari  joylashtirilgan.  Ulardan  birinchisi 256  ta  yunitga ega ikkinchisi  esa  27
ta     yunitlardan     iborat     bo lib,     softmax   aktivasiya   funksiyasi   qo llanilgan.   Tarmoq	
ʻ ʻ
arxitekturasidagi qatlamlar parametrlari 3.1-jadvalda keltirilgan. 
Ushbu     arxitekturada     10   soatlik   o rgatuvchi   tanlanma   ni     o qitish   uchun   3.8	
ʻ ʻ
GHz chastotali Intel (R) Core (TM) Intel Core i7 6920HQ  prosessorda    va  Quadro
M3000M grafik  prosessorida  bajarilgan.
57 Taklif qilingan tarmoq arxitekturasi esa 3.19-rasmda keltirib o tilgan.ʻ
3.19-rasm. Taklif qilingan tarmoq arxitekturasi
Neyron tarmoq arxitekturasining parametrlari             3.1-jadval 
№ Qatlamning
nomi Qatlam parametrlari Qatlamlar
soni
1 Input 40×1 1
2 Convolution1
D Filtr o lchami = 5×1, filtrlar soni = 256, 	
ʻ
Qadamlar soni = 1, Dropout = 20%, 
Aktivasiya funksiyasi = Relu 3
3 Rekurrent
qatlam RNN turi = LSTM, qatlam o lchami = 256	
ʻ
Batch size = 32, optimizator = Adam, O qitish	
ʻ
tezligi = 0.001, Dropout = 20%
Aktivasiya funksiyasi = Relu 2
4 To liq	
ʻ
bog lanishli	
ʻ
qatlam Qatlam o lchami = 256, Dropout = 20%	ʻ
Aktivasiya funksiyasi = Softmax 1
5 Transkripsiya
qatlami CTC Loss funksiya 1
58 Uchinchi bob bo yicha xulosalarʻ
Uchinchi   bobda   nutqni   tanish   tizimlarini   loyihalashtirish   uchun   sun’iy   neyron
tarmoqlarining zamonaviy arxitekturalari, nutqni tanish tizimining strukturali sxemasi
hamda tanish tizimi uchun neyron tarmoqlari loyihalashtirilgan va arxitekturasi ishlab
chiqilgan.
1. Nutqni tanish tizimlarida akustik modellashtirish masalasini yechish uchun
CNN   va   rekurrent   neyron   tarmoqlar   yaxshi   samaradorlik   beradi.   CNN     tomonidan
nutqning   lokal   fazoviy   belgilari   ajratib   olingandan   so ng,   uning   vaqtga   bog liq	
ʻ ʻ
xususiyatlari   rekurrent   tarmoq   orqali   aniqlanadi   bu   esa   tanib   olish   samaradorligini
yaxshilaydi. 
2. CNN, RNN va CTC ning birgalikda ishlashi    tarmoqni  birgalikda o qitish	
ʻ
uchun   bir   nechta   modullar   bitta   tarmoqga   birlashtirilgan.   Bu   esa   o z   navbatida	
ʻ
modullar   orasidagi   holatlarni   tasvirlashlarni   amalga   oshirish   uchun   ko plab	
ʻ
modullarni   ishlab   chiqishni   talab   qilmaydi.   Shuning   uchun   ham   bunday   gibrid
modellar   boshqa   akustik   tizimlarga   nisbatan   amalga   oshirish   sodda,   tezlik   va   tanib
olish   aniqligi   ko rsatkichlari   bo yicha   yuqori   samaradorlikga   ega,   nisbatan   kamroq	
ʻ ʻ
xotira   talabi   hamda   yuqori   darajadagi   baholash   kriteriyalariga   mos   keluvchi
funksiyalardan foydalanishni taqdim etadi.
59 3.     CTC   Loss     funksiyasi   kiruvchi   va   chiquvchi   ketma-ketlikdagi   freymlar
bo yicha baravarlashtirish   kabi murakkab belgilashlar zaruriyatisiz akustik modelniʻ
o qitishni ta minlaydi. Bunday modellarning kamchiligi o qitish uchun mo ljallangan
ʻ ʼ ʻ ʻ
katta hajmdagi o rgatuvchi tanlanma ning zarurligidir. 	
ʻ
60 IV-BOB. END-TO-END TIZIMIGA ASOSAN NUTQNI TANISH MODULINI
ISHLAB CHIQISH
Ushbu   bobda   nutqni   tanib   olish   modulini   ishlab   chiqishda   qo llanilganʻ
dasturlash   tili   va   uning   imkoniyatlari,   maxsus   kutubxonalar   tavsifi,   nutq   korpusini
neyron   tarmoqga   kiritish   uchun   sozlanamalar,   nutqni   tanib   olishning   barcha
bosqichidagi   algoritmlarning   funksiyalarini   Python   dasturlash   tilidagi     izohi   hamda
tajribaviy tadqiqotlar natijalari keltirib o tilgan.	
ʻ
4.1-§ Python dasturlash tili. TensorFlow kutubxonasi
Python   (talaffuzi:   Piton)   —   umumiy-maqsadli   dasturlash   uchun   keng   tarzda
foydalaniladigan   yuqori   darajali   dasturlash   tili.   Ushbu   dasturlash   tili   Guido   van
Rossum   tomonidan   yaratilgan   va   birinchi   marta   1991-yilda   foydalanib   ko rilgan.	
ʻ
Python   har   xil   platformalar   uchun   yozilgan,   masalan   Windows,   Linux,   Mac   OS   X,
Palm OS, Mac OS va boshqalar. Python Microsoft.NET  platformasi  uchun yozilgan
realizatsiyasi ham mavjud bo lib, uning nomi — IronPython [19,21]. 	
ʻ
Python ning asosiy xarakterlovchi xususiyatlari quyidagilardir:	
−
dinamik tiplashtirish – dasturlash jarayonida oldindan o zgaruvchi tipini	ʻ
e’lon qilishni talab qilmaydi;	
−
ob’yektga yo naltirilgan dasturlashni qo llab quvvatlash;	ʻ ʻ	
−
funksionallikni sezilarli kengaytiradigan turli ko rinishdagi ko p sondagi	ʻ ʻ
modullar sonini o rnatishning soddaligi;	
ʻ	
−
 shaxsiy modullarni yaratish va ulardan foydalanishning yengilligi;
−
krossplatformalarni qo llab-quvvatlash;	ʻ	
−
C/C++ va Java bilan integratsiyasi;
−
xotirani avtomatik boshqarish.
TensorFlow   kutubxonasi.     TensorFlow   –   bu     ma lumotlar   oqimi	
ʼ
grafikalarida   ishlatiladigan   raqamli   hisoblash   uchun   ochiq   manbali   mashinalarni
61 o rganish   kutubxonasi.   U   Apache   2.0   litsenziyasi   ostida   chiqarilgan   va   C   ++   vaʻ
Python-da   turli   xil   platformalarda:   [19,21]Linux,   Windows   va   Mac-da   ishlay
oladigan   tarzda   yozilgan   Google   tomonidan   ishlab   chiqilgan   (xususan   Google
Brain jamoasi tomonidan).
TensorFlow o zining samaradorligini grafik protsessor  va markaziy protsessor	
ʻ
o rtasida masalalarni parallelashtirish asosida oshiradi. Har bir amal yadrosi Eigen va	
ʻ
cuDNN   kutubxonalaridan   foydalangan   holda   (samaradorlikni   oshirish   uchun)   C++
tilida amalga oshirilgan. 
TensorFlow-dagi   har   bir   hisoblash   ma lumotlar   oqimi   grafigi,   ya ni   hisoblash	
ʼ ʼ
grafigi   sifatida   aks   ettirilgan.   Hisoblash   grafigi   -   bu   hisoblashlarning   qanday
bajarilishini   tavsiflovchi   model.   Shuni   ta kidlash   kerakki,   ma lum   bir   tuzilishda
ʼ ʼ
hisob-kitoblar grafikasini tuzish va operatsiyalarni bajarish ikki xil jarayondir.
Grafik   pleysxolderlardan   (tf.Placeholder),   o zgaruvchilar   (tf.Variable)   va	
ʻ
operatsiyalardan iborat. Bu tensorlarni - ko p o lchovli massivlarni hisoblab chiqadi,	
ʻ ʻ
ammo   ular   raqam   yoki   vektor   bo lishi   mumkin.   Grafiklar   sessiyalarda   bajariladi	
ʻ
(tf.Session).   Sessiyalarning   ikki   turi   mavjud   -   muntazam   va   interaktiv
(tf.InteractiveSession); interfaol sessiya konsolda ishlash uchun javob beradi. Sessiya
o zgaruvchilar   va   navbatlarning   holatini   saqlaydi.   Sessiyalar   va   grafiklarni   aniq	
ʻ
yaratish   xotira   resurslarining   to g ri   bo shatilishini   ta minlaydi.   Grafada   har   bir	
ʻ ʻ ʻ ʼ
tepada   0   yoki   undan   ortiq   kirish   va   0   yoki   undan   ortiq   chiqish   mavjud   bo lib,   ular	
ʻ
amal   bajarilishini   anglatadi.   Tensorlar   grafaning   qirralarini,   ya ni   ixtiyoriy	
ʼ
kattalikdagi massivlarni aks ettiradi (massiv turi grafika qurishda ko rsatiladi). 	
ʻ
Har   bir   operatsiyaning   nomi   bor   va   u   mavhum   hisob   deyiladi   (masalan,
yig ish). Amaliyot atributlarga ega bo lishi mumkin: masalan, har xil turdagi tensorlar	
ʻ ʻ
uchun   operatsiyani   polimorfik   qilish   qobiliyati.   Yadro   -   bu   ma lum   bir   turdagi	
ʼ
qurilmalarda   (CPU   yoki   GPU)   bajarilishi   mumkin   bo lgan   operatsiyani   amalga	
ʻ
oshirish. 
62 O zgaruvchi     -   bu   ko rsatkichni   doimiy   o zgarib   turadigan   tenzorgaʻ ʻ ʻ
qaytaradigan   maxsus   operatsiya   turi:   bunday   o zgaruvchi   grafikadan   bir   marta	
ʻ
foydalangandan   keyin   yo qolmaydi.   Bunday   tenzorlarga   ko rsatgichlar   bir   nechta	
ʻ ʻ
operatsiyalarga   uzatiladi,   so ngra   belgilangan   tensorni   o zgartiradi.   Mashinani	
ʻ ʻ
o rganish   muammolarida   model   parametrlari   odatda   tensorlarni   har   bir   o quv	
ʻ ʻ
bosqichida yangilanadigan o zgaruvchilarda saqlaydi [19,21].	
ʻ
Ushbu   ish   CPU   -   Intel   Core   i5-8300H,   shuningdek   GPU   -   NVIDIA   GeForce
GTX 1050 yordamida bitta qurilmada amalga oshirildi.
4.2-§ Tanib olish modullarini dasturiy amalga oshirish
Tanib   olish   modullarini   dasturiy   amalgan   oshirish   bir   nechta   modullardan
iborat bo lib bularga: Nutq ma lumotlar bazasini tayyorlash; nutq signaliga dastlabki	
ʻ ʼ
ishlov berish; neyron tarmog ini yaratish va o qitish hamda nutqni tanib olish. 	
ʻ ʻ
  Nutq   ma lumotlar   bazasini   yaratish.  	
ʼ Trening   ma lumotlar   to plami   -   bu	ʼ ʻ
audiofaylning   manzili,   tegishli   transkripsiyasi,   shuningdek   fayl   hajmi   haqidagi
ma lumotlarni   o z   ichiga   olgan   manifest.csv   matnli   fayl   to plami,   undan   keyin   esa	
ʼ ʻ ʻ
neyron   tarmog ini   o rgatish   paytida   misollarni   saralash   uchun   foydalaniladi.   Wav	
ʻ ʻ
formatidagi audio fayllar nutqning ma lum bir qismini o z ichiga oladi va har bir fayl	
ʼ ʻ
uchun   transkripsiyasi   berilgan   matnli   hujjat   mavjud.   Wav   formatidagi   audiofayllar
bitta   audio   kanalga   (mono)   ega,   namuna   olish   tezligi   16000   Hz   va   har   bir   qiymat
uchun kengligi 2 bayt bilan kodlangan[19,21,35].
Shuningdek,   CTC   matritsasini   dekodlash   algoritmi   audio   uzunlik   nisbati   va
transkriptdagi   belgilar   sonining   cheklanishini   nazarda   tutadi,   ya ni:   CTC	
ʼ
matritsasidagi qadamlar soni transkriptdagi belgilar sonidan ko p bo lishi kerak.	
ʻ ʻ
manifest.csv fayli tarkibiga misol                          4.1-jadval  
Wav_filename Transcript filename Filesize
./data/train/ru_0 1  .wav ./data/train/ru_01 .txt 220044
./data/train/ru_02.wav ./data/train/ru_02.txt 252044
63   Nutq   signaliga   dastlabki   ishlov   berish.   Signalni   oldindan   qayta   ishlash
MFCC.py   skriptida   amalga   oshiriladi.   Skriptdagi   mfcc   funktsiyasi   audio   faylni
argument   sifatida   qayta   ishlashga   oladi.   Namuna   sifatida   o quv   namunalariʻ
fayllaridan biri tanlangan [2,4,6,8].
Freymga ajratish.  Keyingi ishlov berishni amalga oshirish uchun audio fayl 10
ms   lik   freymlarga   ajratiladi.   Audiofaylni   freymlarga   ajratish   jarayoni   (Ilova   A.   1-
listing) keltirib o tilgan.	
ʻ
4.1-rasm. Audio faylni 10 msek lik uzunlikdagi freymlarga ajratish(1-Listing natijasi)
Xemming   oynasini   qo llash.	
ʻ   Keyingi   bosqichda   ajratilgan   freymlarga
Xemming   oynasini   qo llash   prosedurasi   bajariladi.   Ushbu   jarayonning   dastur   kodi	
ʻ
(Ilova   A.   2-listing)   da   keltirib   o tilgan.   Xemming   oynasi   qo llash   natijasi   esa   4.2-	
ʻ ʻ
rasmda keltirilgan.
4.2-rasm. Xemming oyna funksiyasi (chap tarafdagi) va uning signalga qo llanilgan	
ʻ
natijasi (o ng tarafdagisi)	
ʻ
64 Spektral almashtirish.  Olingan natijalarga tezkor Fur’e almashtirish algoritmi
qo llaniladi (Ilova A. 3-Listing). Spektral ishlov berish natijasi 4.3-rasmda keltirilgan.ʻ
4.3-rasm. Tezkor Fur’e almashtirish algoritmi qo llanilgandan so ng olingan spektr	
ʻ ʻ
Dasturning   oxirgi   bosqichida     har   bir   freym   uchun   mel   chastotali   oyna
spektriga   yoyish   asosida   energiya   hisoblanadi.   Undan   so ng   diskret   kosinus	
ʻ
almashtirish algoritmi yordamida yakuniy nutq signalining belgilarini hosil qilamiz va
bu belgilar mel chastotali kepstral koeffisientlar deb ataladi [19,21].
MFCC   ni   hisoblash.   Ushbu   jarayonda   nutqni   tanish   tizimiga   kiritilgan
so zdan olingan MFCC spektrogrammasi hosil qilinadi. MFCC tasvirlarini hosil qilish	
ʻ
jarayoni (Ilova A. 4-Listing)  berilgan. Natija 4.4-rasmda keltirilgan.
4.4-rasm. Mel chastotali kepstral koeffisientlardan hosil qilingan spektrogramma
tasviri
Neyron   tarmoqni   yaratish   va   o qitish.    	
ʻ Nutqni   tanib   olish   moduli   bilan
ishlashdan oldin yaratilgan nutq bazasi iborat o quv tanlama asosida tarmoq o qitiladi	
ʻ ʻ
[19,21].   O qitish   va   tanib   olish   uchun   2   ta   qatlamli   LSTM   va   konnekstion   vaqtni	
ʻ
65 tasniflash   (CTC)   baholovchi   qatlamlardan   tashkil   topgan   neyron   tarmoq   yaratilgan.
Neyron   tarmoqni   yaratish   va   o qitishning   dastur   kodi   (Ilova   A.   5,6-Listing)   lardaʻ
keltirib o tilgan.	
ʻ
O qitish   tugatilgandan   so ng   neyron   tarmoqning   nutqni   tanish   moduli   testlash
ʻ ʻ
uchun   tayyor   holga   keladi.   Nutqni   tanishni   mikrafondan   yozib   olingan   audio   fayl
orqali   amalga   oshirish   (Ilova   A.   7,8-Listing)   larda   keltirib   o tilgan.   Tanib   olish	
ʻ
jarayoni esa (Ilova A. 9-Listing) da berilgan.
4.3 -§  Nutqni tanib olish moduli ishini sifatini baholash
O zbek   tilidagi   uzluksiz   nutqni   tanish   uchun   ishlab   chiqilshgan   E2E	
ʻ
yondashuvga   asoslangan   tarmoqlardan   biri   bu   CNN+RNN+CTC   (DNN-CTC)
hisoblanadi.   Tarmoq   o qitish   qadamlari   soni   70   ta   epoch   etib   belgilandi.   O qitish	
ʻ ʻ
jarayonida   epoch   larning   ortishi   bilan   aniqlikning   ko tarilishi,   Loss   xatoligining	
ʻ
pasayishi,   WER   va   CER   ko rsatgichlarining   o zgarishlarini   mos   ravishda   4.5,   4.6,	
ʻ ʻ
4.7--rasmlarda ko rishimiz mumkin. 	
ʻ
4.5 -rasm.   CTC yondashuvi asosidagi modelning aniqligini o qitish qadamlari	
ʻ
ortishiga mos o zgarishi	
ʻ
66 4.6-rasm. CTC yondashuvi asosidagi modelning Loss xatoligining o qitishʻ
qadamlarida o zgarishi	
ʻ
4.7-rasm.   CTC yondashuvi asosidagi modelning WYeR va CYeR xatoligining
o qitish qadamlarida o zgarishi	
ʻ ʻ
Ushbu   grafiklar   tarmoqning   eng   yaxshi   natija   bergandagi   holatini   ifodalaydi.
Ilova   qilingan   grafiklarning   o zgarishidan   ko rishimiz   mumkinki,   tarmoqni   o qitish	
ʻ ʻ ʻ
qadamlari   ortganda   aniqligning   ortishini   sodir   bo lmoqda.   Epoch   70   ga   kelganda	
ʻ
to plam   uchun   aniqlik   ~95%,   WER~22%   va   CER   ~8.5%   bo lganishi   ko rishimiz	
ʻ ʻ ʻ
mumkin.
CTC   ga   asoslangan   neyron   tarmoq   orqali   ishlab   chiqilgan   ANT   moduli
yaratishdagi tajriba natijalarini quyidagi 4.1-jadvalda ko rishimiz mumkin. 	
ʻ
67 DNN-CTC  modeli bo yicha aniqlik ko rsatgichlari            4.2-jadvalʻ ʻ
Model LM SP SA Valid Test 
O qitish	
ʻ
vaqti(soat)
WER CER WER CER
DNN-CTC × × × 40.5 9.3 44.2 12.6 16.7

× × 32.6 8.2 28.6 10.3 20.1
 
× 24.1 7.9 24.4 9.2 23.3
  
23.1 7.6 22.3 8.9 25.4
 
Yuqoridagi   4.2   jadvaldan   ko rishimiz   mumkinki,   o qitish   vaqti   ortishiga	
ʻ ʻ
qaramasdan, Language Model (LM), Speed Perturbation (SP) va SpecAugment (SA)
xususiyatlarini  kiritishimiz orqali test  va validation to plamlari  uchun WER va CER	
ʻ
ko rsatgichlarini   yaxshilanganini   ko rishimiz   mumkin.   LM,   SP   va   SA   larning   turli	
ʻ ʻ
kombinasiyalarida   WER   va   CER   ko rsatgichlarinig  	
ʻ test   va   valid   to plamlar   uchun	ʻ
solishtirma qiymatlari grafik ko rinishda quyidagi 4.8-rasmda keltirilgan.	
ʻ
… LM LM+SP LM+SP+SA01020304050	
WER  Test Valid
… LM LM+SP LM+SP+SA02468101214	CER  Test Valid
4.8-rasm. DNN-CTC tarmog i uchun WER va CER ko rsatgichlari	
ʻ ʻ
68 To‘rtinchi bob bo yicha xulosalarʻ
To rtinchi   bobda   nutqni   tanish   modulini   ishlab   chiqish   uchun   qo llanilgan	
ʻ ʻ
dasturlash   tili   va   kutubxonlari,   tanib   olish   modullarini   dasturiy   jihatdan   amalga
oshirish hamda nutqni tanib olish moduli ishini sifatini baholash ishlarini olib borish
natijasida qo yidagicha xulosalar olindi: 	
ʻ
1. Tanib   olish   tizimlarini   ishlab   chiqishda   Python   dasturlash   tili   dinamik
tiplashtirish,   ob’yektga   yo naltirilgan   dasturlash   tilini   qullab-quvvatlashi,   ko p	
ʻ ʻ
sondagi   neyron   tarmoqlar   arxitekturasini   qurish,   o qitish   imkoniyatlarini   beruvchi	
ʻ
modullar   soning   ortishi,   krossplatformalarni   qo llab-quvvatalsh   va   xotirani
ʻ
avtomatik boshqarish xususiyatlari hisobiga boshqa dasturlash tillaridan ustundir.
2. Nutq   signaliga   dastlabki   ishlov   berish   va   ularni   neyron   tarmoqlarida
o qitishga  tayyorlash  jarayonini  avtomatlashtiruvchi  dasturiy modul  ishlab chiqildi.	
ʻ
Ushbu   dasturiy   modul   yordamida   katta   xajmdagi   nutq   ma lumotlarini   tarmoqga	
ʼ
kirish standartiga moslash imkoniyatini beradi.
3. Nutqni tanib olish tizimi uchun tanlangan arxitektura va giperparametrlar
uchun   neyron   tarmoqni   yaratish   va   o qitish   imkoniyatini   taqdim   etuvchi   dasturiy	
ʻ
modul ishlab chiqildi.
4. Ishlab   chiqilgan   nutqni   tanib   olish   moduli   ishi   sifati   baholandi.
Tanlangan   neyron   tarmoq   arxitekturasi   asosida   tanib   olishning   eng   yaxshi
ko rsatkichi  WER=23.1% va CER=7.6% erishildi.	
ʻ
69 XULOSA
1. Zamonaviy   nutqni   tanish   tizimlariga   quyilgan   eng   muhim   talablar
aniqlandi. Nutqni tanish tizimlarini qurishdan oldin  tizim strukturasi hal qilinayotgan
muammoning qiyinchilik darajasidan kelib chiqqan holda tanlanadi. Tanish tizimining
sinflashtirish belgilariga qarab asosiy usullar, modellar va algortimlar to plamini hosilʻ
qilindi.  
2.   Dastlabki   ishlov   berishni   fonogramma   va   spektral   sohada   olib   borish
mumkin.   Fonogrammaga   ishlov   berish   usullari   stasionar   bo lmagan   shovqin	
ʻ
sharoitlarida, shuningdek turli xil  tovush artifekatlari paydo bo lganda samaradorligi	
ʻ
pasayib   ketadi.   Spektral   tahlilga   asoslangan   ishlov   berish   usullarida   (FFT,   DCT,
Veyvlet)   esa   signal   amplitudasining   o zgarishiga   ta sirchan   bo lmaganligi   sababli,	
ʻ ʼ ʻ
nutq   chegaralarini   stasionar   bo lmagan   shovqinlar   mavjudligida   ham   barqaror	
ʻ
aniqlashni ta minlaydi.	
ʼ
3.   Nutq   signalini   parametrlash   algoritmlarini   tahlil   qilish   natijasida   spektral
ishlov   berish   usullariga   asoslangan   yondashuv   eng   yashi   ekanligi   aniqlandi.   Mel
almashtirish algoritmi nutq signalini asosiy parameter shakli deb o rnatildi. 	
ʻ
4.   Avtomatik   nutqni     tanish   tizimi   aniqligi   tizimini   qurishda   ishlatiladigan
nutq   korpusining   sifati   va   hajmiga   bog liq.   Nutq   korpusini   shakllantirishda   matnli	
ʻ
ma lumotlarning fonetik tarkibi va lug atning xilma-xilligi, diktorlarning soni, hissiy	
ʼ ʻ
va   demografik   xususiyati,   jinsi,   ovoz   yozish   muhitining   holati,   korpus
hajmi(davomiyligi),   korpusni   yaratishda   foydalaniladigan   texnik   vositalar   tavsifi
muhim ahamiyat kasb etadi.
5.  Nutqni tanish tizimlarida akustik modellashtirish masalasini yechish uchun
CNN   va   rekurrent   neyron   tarmoqlar   yaxshi   samaradorlik   beradi.   CNN     tomonidan
nutqning   lokal   fazoviy   belgilari   ajratib   olingandan   so ng,   uning   vaqtga   bog liq	
ʻ ʻ
xususiyatlari   rekurrent   tarmoq   orqali   aniqlanadi   bu   esa   tanib   olish   samaradorligini
yaxshilaydi. 
70 6.   CNN,   RNN   va   CTC   ning   birgalikda   ishlashi     tarmoqni   birgalikda
o qitish   uchun   bir   nechta   modullar   bitta   tarmoqga   birlashtirilgan.   Bu   esa   o zʻ ʻ
navbatida modullar orasidagi holatlarni tasvirlashlarni amalga oshirish uchun ko plab	
ʻ
modullarni   ishlab   chiqishni   talab   qilmaydi.   Shuning   uchun   ham   bunday   gibrid
modellar   boshqa   akustik   tizimlarga   nisbatan   amalga   oshirish   sodda,   tezlik   va   tanib
olish   aniqligi   ko rsatkichlari   bo yicha   yuqori   samaradorlikga   ega,   nisbatan   kamroq	
ʻ ʻ
xotira   talabi   hamda   yuqori   darajadagi   baholash   kriteriyalariga   mos   keluvchi
funksiyalardan foydalanishni taqdim etadi.
7.   Nutqni   tanib   olish   tizimi   uchun   tanlangan   arxitektura   va   giperparametrlar
uchun   neyron   tarmoqni   yaratish   va   o qitish   imkoniyatini   taqdim   etuvchi   dasturiy	
ʻ
modul ishlab chiqildi. Ishlab chiqilgan nutqni tanib olish moduli ishi sifati baholandi.
Tanlangan neyron tarmoq arxitekturasi asosida tanib olishning eng yaxshi ko rsatkichi	
ʻ
WER=23.1% va CER=7.6% erishildi.
71 Adabiyotlar ro yxatiʻ
1. O zbekiston   Respublikasini   yanada   rivojlantirish   bo yicha   harakatlar	
ʻ ʻ
strategiyasi to g risida O zbekiston Respublikasi Prezidentining Farmoni.	
ʻ ʻ ʻ
2. A.   Ronzhin,   A.   Karpov,   Russian   Voice   Interface   //   Pattern   Recognition   and
Image Analysis, 2007. Vol. 17, No. 2, pp. 321–336. 
3. Fahmy  S.A.,  Cheung  P.Y.K.,  Luk  W.,  Hardware  Acceleration  of  Hidden
Markov Model Decoding for Person Detection // Design, Automation and Test
in Europe, 2005. Vol. 3. – Pp. 8-13.
4. Тампель И.Б. Автоматическое раnознавание речи – оsовные этапы за 50
лет   //   Научно-технический   вестник   информационных   технологий,
механики и оптики. 2015. Том 15. № 6. С. 957–968.
5.   Sarma   B.D.,   Prasanna   S.R.M.   Acoustic–Phonetic   Analysis   for   Speech
Recognition: A Review. IETE Technical Review. 2018. pp.305-327.
6. Gulmezoglu   M.B.   A   novel   approach   to   isolated   word   recognition.   IEEE
Transactions on Speech and Audio Processing, 1999. 7(6): p. 620-628.
7. Wyse   L.   Audio   Spectrogram   Representations   for   Processing   with
Convolutional   Neural   Networks.Proceedings   of   the   First   International
Workshop   on   Deep   Learning   and   Music   joint   with   IJCNN.   Anchorage,US.
May, 2017. 1(1). pp 37-41  
8.  Ahmadi M., Bailey N. J  and Hoyle B. S. "Phoneme recognition using speech
image (spectrogram)," Proceedings of Third International Conference on Signal
Processing   (ICSP'96),   Beijing,   1996,   pp.   675-677   vol.1,   doi:
10.1109/ICSIGP.1996.567353.
9.   Abdel-Hamid   O.,   Mohamed   A.,   Jiang   H.,   Deng   L.,   Penn   G   and   Yu   D.
"Convolutional   Neural   Networks   for   Speech   Recognition,"   in   IEEE/ACM
Transactions on Audio, Speech, and Language Processing, vol. 22, no. 10, pp.
1533-1545, Oct. 2014, doi: 10.1109/TASLP.2014.2339736.
72 10. Nguyen   Q.   T.   “Speech   classification   using   sift   features   on   spectrogram
images,”   Vietnam   Journal   of   Computer   Science,   vol.   3,   no.   4,   pp.   247–257,
2016.
11. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение/ пер. с анг. А.
А. Слинкина. – 2-е изд., иnр. – М.: ДМК Прес, 2018. – 652 с.: цв. ил.
12.   Pineda   F.J.   Recurrent   back-propagation   and   the   dynamical   approach   to
adaptive neural computation // Neural Computing, 1989. No. 1. pp. 161-172.
13. Gori   M.,   Bengio   Y.,   R.   De   Mori   BPS:   a   learning   algorithm   for   capturing   the
dynamical nature of speech // Proceedings of the International Joint Conference
on Neural Networks, Washington, DC, IEEE, New York, 1989, pp. 643-644.
14.   Morgan   N.,   Bourlard   H.   Neural   Network   for   Statistical   Recognition   of
Continuous Speech // Proceedings of IEEE, 1995. Vol.83, No. 5. pp.742-770.
15. Henneberg J., Ris C., Bourlard H., Renals S., Morgan N. Estimation of global
posteriors   and   forward-backward   training   of   hybrid   HMM/ANN   systems   //
Proceedings of EUROSPEECH, 1997. Vol. 4, Rhodi, pp. 1951-1954.
16. Musaev   M.,   Khujayorov   I     and   Ochilov   M.   "The   Use   of   Neural   Networks   to
Improve   the   Recognition   Accuracy   of   Explosive   and   Unvoiced   Phonemes   in
Uzbek Language," 2020 Information Communication Technologies Conference
(ICTC),   Nanjing,   China,   2020,   pp.   231-234,   doi:
10.1109/ICTC49638.2020.9123309.
17.   Adrian   Rosebrock.   Deep   Learning   for   Computer   Vision   with   Python   Starter
Bundle. 1st Edition (1.2.2). PyImageSearch.com. 2017.
18.   Diederik   K.   Adam:   A   Method   for   Stochastic   Optimization   /   K.   Diederik,
B.Jimmy // Published as a conference paper at the 3 rd
 International Conference
for Learning Represenations, San Diego, 2015.
19. Рамсундар   Б.   Tensorflow   для     глубокого   обучения:   Пер.   с   англ   //   Санкт-
Петербург: БХВ- Петербург, 2019. -256 с.
73 20. Шолле Ф. Глубокое обучение на Рython. / Санкт-Петербург: Питер, 2019. -
400 с.
21. Жерон   О.   Прикладное   машинное   обучение   с   помощью   Scikit-Learn   и
Tensorflow:   концепции,   инструменты   и   техники   для   iздания
интелектуальных систем. / Пер. с англ. –Санкт-Петербург:  ООО «Альфа-
книга», 2018.- 688с.
22. Xujayarov   I.Sh,   Mamaraimov   A.K,   Rashidova   D.E.   Nutq   signallarini
parametrlash   algoritmlari   tahlili.   Axborot   kommunikatsiya   texnologiyalari   va
dasturiy ta minot yaratishda innovatsion g oyalar respublika miqyosidagi ilmiy-ʼ ʻ
texnik anjumani. Samarqand,17-18 may, 2021 yil B 270-274.
23. Xujayarov   I.Sh,   Mamaraimov   A.K,   Rashidova   D.E.   Nutqni   tanib   olishda
yashirin   Markov   modellari.   “Zamonaviy   axborot,   kommunikatsiya
texnologiyalari   va   at-ta lim   tadbiqi   muammolari”   mavzusidagi   respublika	
ʼ
ilmiy-amaliy anjumani. Samarqand, 24-25 noyabr 2021yil, B 72-76
24. Xujayarov   I.Sh,   Mamaraimov   A.K,   Rashidova   D.E.   Ochiq   internet
manbalardan   ma lumotalarni   ajratib   olishni   avtomatlashtirish   usullari.	
ʼ
“Zamonaviy   axborot,   kommunikatsiya   texnologiyalari   va   at-ta lim   tatbiqi	
ʼ
muammolari”   mavzusidagi   Respublika   ilmiy-amaliy   anjumani.   Samarqand,   9-
aprel 2022yil, B 101-104.
25. Alhawiti,   K.M.   (2015).   Advances   in   Artificial   intelligence   Using   Speech
Recognition. World  Academy  of  Science,  Engineering  and  Technology, 
International  Journal  of  Computer  and  Information  Engineering,  9,  1439-
1442. 
26. Altınok, H., Kurdal, S., & Yucal, M.M. (2021). Turkish Speech Recognition in
Call   Centers.   2021   6th   International   Conference   on   Computer   Science   and
Engineering (UBMK), 791-793. 
27. Arisoy,  E.;  Sethy,  A.;  Ramabhadran,  B.;  Chen,  S.  Bidirectional  recurrent
neural     network     language     models     for     automatic     speech     recognition.     In
74 Proceedings   of   the   40th   IEEE   International   Conference   on   Acoustics,   Speech
and  Signal  Processing  (ICASSP),  South  Brisbane,  QLD,  Australia,  19–24
April 2015, pp. 5421–5425. 
28. Arslan,   R.,   S.,   Barışçı,   N.,   “A   Detailed   Survey   of   Turkish   Automatic   Speech
Recognition”,     Turkish     Journal     of     Electrical     Engineering     &     Computer
Sciences, 28: 3253-3269, (2020). 
29.   B. Tombaloğlu and H. Erdem , "Turkish Speech Recognition Techniques and
Applications of Recurrent Units (LSTM and GRU)", Gazi University Journal of
Science,     vol.     34,     no.     4,     pp.     1035-1049,     Dec.     2021,
doi:10.35378/gujs.816499.
30. Bahdanau,  D.;  Chorowski, J.;  Serdyuk, D.;  Brakel, P.;  Bengio,  Y. End-to-end
attention-based   large   vocabulary   speech   recognition.   In   Proceedings   of   the
2016     IEEE     International     Conference     on     Acoustics,     Speech     and     Signal
Processing (ICASSP), Shanghai, China, 20–25 March 2016; pp. 4945–4949. 
31.   Biswajit   Dev   Sarma   &   S.   R.   Mahadeva   Prasanna   (2018)   Acoustic–Phonetic
Analysis  for  Speech  Recognition:  A  Review, IETE  Technical Review, 35:3,
305-327, DOI: 10.1080/02564602.2017.1293570 
32.   Chan,   W.;   Jaitly,   N.;   Le,   Q.;   Vinyals,   O.   Listen,   attend   and   spell:   A   neural
network     for     large     vocabulary     conversational     speech     recognition.     In
Proceedings  of  the 2016 IEEE International Conference on Acoustics,  Speech
and   Signal   Processing   (ICASSP),   Shanghai,   China,   20–25   March   2016;   pp.
4960–4964. 
33. Chorowski,  J.;  Bahdanau,  D.;  Cho,  K.;  Bengio,  Y.  End-to-end  continuous
speech     recognition     using     attention-based     recurrent     nn:     First     results.     In
Proceedings   of   the   NIPS   2014   Workshop   on   Deep   Learning,   Montreal,   QC,
Canada, 12 December 2014.
34. D.   Bahdanau,   K.   Cho,   and   Y.   Bengio.   Neural   machine   translation   by   jointly
learning to align and translate. CoRR, abs/1409.0473, 2014. 
75 35. Daniel   Jurafsky,   James   H.   Martin.   Speech   and   Language   Processing   (3rd
ed.draft)  “An  Introduction  to  Natural  Language  Processing,  Computational
Linguistics, and Speech Recognition”, Chapter-3, N-gram Language Models. P.
29-55
36. Xujayarov   I.Sh,   Kamolov   R.K,   Xafizova   Sh.G‘   Nutq   signallariga   raqamli
ishlov berishda spektral usullarning o‘rni. “Zamonaviy axborot texnologiyalari
va   ta’lim   tizimini   rivojlantirish   istiqbollari”   xalqaro   ilmiy-amaliy   anjumani.
Denov-2023-yil B101-106
37.  Xujayarov I.Sh, Kamolov R.K, Xafizova Sh.G‘ Call-markazi masalalari uchun
mashinali   o‘qitish   usullarini   qo‘llanilishi   tahlili.   “Zamonaviy   axborot,
kommunikatsiya texnologiyalari va at-ta lim tadbiqi muammolari” mavzusidagiʼ
respublika ilmiy-amaliy anjumani. Samarqand 7-8-aprel 2023-yil B 31-33.
38. Yansun Xu J. B. Weaver D. M. Healy and Jian Lu. "Wavelet transform domain
filters: a spatially selective noise filtration technique," in IEEE  Transactions on
Image   Processing,   vol.   3,   no.   6,   pp.   747-758,   Nov.   1994,     doi:
10.1109/83.336245.
39.   Ziółko   B.,   S.   Manandhar   R.,   Wilson   C   and   Ziółko   M.   "Wavelet   method   of
speech   segmentation,"   2006   14th   European   Signal   Processing   Conference,
Florence, 2006, pp. 1-5.
40.   Tufekci   Z   and   Gowdy   J.   N.   "Feature   extraction   using   discrete   wavelet
transform   for   speech   recognition,"   Proceedings   of   the   IEEE   SoutheastCon
2000.   'Preparing   for   The   New   Millennium'   (Cat.   No.00CH37105),   Nashville,
TN, USA, 2000, pp. 116-123, doi: 10.1109/SECON.2000.845444.
41.   Chengalvarayan   R   and   Li   Deng.   Use   of   generalized   dynamic   feature
parameters for speech recognition," in IEEE Transactions on Speech and Audio
Processing, vol. 5, no. 3, pp. 232-242, May 1997, doi: 10.1109/89.568730.
42. B.   Babenko,   “Multiple   instance   learning:   Algorithms   and  applications,”   View
Article PubMed/NCBI Google Scholar, pp. 1–19, 2008.
76 43. B. McFee, J. Salamon, and J. P. Bello, “Adaptive pooling operators for weakly
labeled sound event detection,” IEEE/ACM Transactions on Audio, Speech and
Language Processing (TASLP), vol. 26, no. 11, pp. 2180–2193, 2018.
44. .   Morfi   and   D.   Stowell,   “Data-efficient   weakly   supervised   learning   for   low-
resource   audio   event   detection   using   deep   learning,”   arXiv   preprint
arXiv:1807.06972, 2018.
45. Z.   Zhang,   S.   Xu,   S.   Cao,   and   S.   Zhang,   “Deep   convolutional   neural   network
with mixup for environmental sound classification,” in Chinese conference on
pattern recognition and computer vision (prcv), 2018, pp. 356–367.
46. Д.Ю.   Саханевич.   Иследование   подходов   и   методов   применения
искуственного   интеллекта   и   машинного   обучения   в   iциально-
экономических   процесах.   Herald  of   Omsk   University.   Series   "Economics",
2020, Vol. 18, no. 2
47. Коротеев   М.   В.   Обзор   некоторых   iвременных   тенденций   в   технологии
машинного   обучения   //   E - Managment .   –   2018.   –   Т.   1,   №   1.   –   С.   26–35.   –
DOI : 10.26425/2658-3445-2018-1-26-35.
48. Черкаiв   Д.   Ю.,   Иванов   В.   В.   Машинное   обучение   //   Наука,   техника   и
образование. –2018. – № 5 (46). – С. 85–87.
49. A. Belozor, A. Goldstein.  Analysis  of  the application  of  machine  learning for
the   tasks   of   telecom   operators.   Информационные   технологии   и
телекоммуникации. 2019. Т. 7. № 3.
50. Соколова И. С., Гальдин А. А. Практическое применение искуственного
интеллекта   в   условиях   цифровой   экономики   //   Модели,   системы,   сети   в
экономике, технике, природе и обществе. – 2018. – № 2 (26). – С. 71–79.
51. Неделько   В.   М.   Оsовы   статистических   методов   машинного   обучения   :
учеб. поiбие. –Новосибирск : Новосиб. гос. техн. ун-т, 2010. – 79 с
52. T.   Sainath   and   C.   Parada,   “Convolutional   neural   networks   for   small-footprint
keyword spotting,” 2015.
77 ILOVA
Ilova A
1-Listing. Audiofaylni freymlarga ajratish:
Timesteps=np.arange(len(clip))/sample_rate
Fig.ax=plt.subplots(2,figsize=(12,5))
Fig. subplots_adjust(hspace=0.5)
Ax[0].plot(timesteps,clip)
Ax[0].set_xlabel(‘Vremya(s)’)
Ax[0].set_ylabel(‘Amplituda )ʼ
Ax[0].set_title(‘Fayl:prts_000002.wav({}  samples)’.format(len(clip)))
N_fft=1024
Start=45000
X=clip[start:start+n_fft]
Ax[0].axvline(start/sample_rate,c=’r’)
Ax[0].axvline((start+n_fft)/sample_rate,c=’r’)
Ax[1].plot(x)
Ax[1].set_xlabel(‘Vremya(ms)’)
Ax[1].set_ylabel(‘Amplituda )
ʼ
Ax[1].set_title(‘Fayl:prts_000002.wav({}  samples)’.format(len(x)));
2-Listing- Xemming oyna funksiyasini  qo llash:	
ʻ
Window=get_window(‘hann’,n_fft)
Wx=x*window
Fig.ax=plt.subplots(1,2,figsize=(16,2))
78 Ax[0].plot(window)
Ax[1].plot(wx);
3-Listing.  Tezkor Fur’e almashtirish:
X=fft(x,n_fft)
X.shape,X.dtype
X=X[:n_fft//2+1]
X_magnitude,X_phase=librosa.magphase(X)
Plt.plot(X_magnitude);
X_magnitude.shape, X_magnitude.dtype
X_magnitude_db=librosa.amplitude_to_db(X_magnitude)
Plt.plot(X_magnitude_db)
Plt.xlabel(‘Chastota(Gs)’)
Plt.ylabel(‘Db’)
Plt.title(‘Spektr’)
4-Listing. Mel chastotali kepstral koeffisientlarni hisoblash:
Hop_length=512
N_mels=64
Stft=librosa.stft(clip,n_fft=n_fft,hop_length=hop_length)
Stft_magnitude, stft_phase= librosa.magphase(stft)
Stft_magnitude_db= librosa.amplitude_to_db(stft_magnitude,ref=np.max)
Fig,ax=plt.subplots(1,2,figsize=(12,5))
Fmin=0
Fmax=22050
Mel_spec=librosa.feature.melspectrogram(clip,n_fft=n_fft,hop_length=hop_length, 
n_mels=n_mels,sr=sample_rate,power=1.0,fmin=fmin,fmax=fmax)
Mel_spec_db= librosa.amplitude_to_db(mel_spec,ref=np.max)
79 Librosa.displey.specshow(mel_spec_db,x_axis=’time’,y_axis=’mel’,sr=sample_rate,
hop_length=hop_length,fmin=fmin,fmax=fmax,ax=ax[0])
ax[0].set_title(‘n_mels=64,fmin=0,fmax=22050’)
fmin=20
fmax=8000
mel_spac_db=librosa.feature.melspectrogram(clip,n_fft=n_fft,hop_length=hop_lengt
h,n_mels=n_mels,sr=sample_rate,power=1.0,fmin=fmin,fmax=fmax)
mel_spac_db= librosa.amplitude_to_db(mel_spec,ref=np.max)
librosa.display.specshow(mel_spec_db,x_axis=’time’,y_axis=’mel’,sr=sample_rate,
hop_length=hop_length,fmin=fmin,fmax=fmax,ax=ax[1])
ax[1].set_title(‘n_mels=64,fmin=20,fmax=8000’)
plt.show()
5-Listing. Neyron tarmoqni yaratish:
Graph=tf.Graph()
With graph.as_default();
Input_X=tf.placeholder(tf.float32,shape=[None,None,13],name=”input_X”)
Labels=tf.sparse_placeholder(tf.int32)
Seq_lens=tf. Placeholder(tf.int32,shape=[None],name=”seq_lens”)
Model=Sequential
Model.add(Bidirectional(LSTM(128,return_sequences=True,implementation=2),inpu
t_shape=(None,13)))
Model.add(Bidirectional(LSTM(128,return_sequences=True,implementation=2)))
Model.add(TimeDistributed(Dense(len(inv_mapping)+2)))
Final_seq_lens=seq_lens
Logits=model(input_X)
Logits=tf.transpose(logits,[1,0,2])
Ctc_loss=td.reduce_mean(tf.nn.ctc_loss(labels,logits,final_seq_lens))
80 Decoded,log_prob=tf.nn.ctc_greedy_decoder(logits,final_seq_lens)
Ler=tf.reduce_mean(tf.edit_distance(tf.cast(decoded[0],tf.int32),labels))
Train_op=tf.train.AdamOptimizer(learning_rate=1e-4).minimize(ctc_loss)
Neyron tarmoq yaratilgandan so ng o qitish jarayoniga o tkaziladi.ʻ ʻ ʻ
6-Listing. Neyron tarmoqni o qitish:	
ʻ
With tf.Session(graph=graph) as session:
Saver=tf.train.Saver(tf.global_variables())
Snapshot=”ctc”
Chekpoint=tf.train.latest_checkpoint(checkpoint_dir=”ch_p”)
Last_epoch=0
If checkpoint:
Try:
Saver.restore(session,checkpoint)
Ast_epoch=int(checkpoint.split(‘-’)[-1])+1
Except:
Print(“Error load checkpoint”)
Else:
Tf.global_variables_initializer().run()
For epoch in range(last_epoch,num_epochs);
For X_bath,seq_lens_batch,y_batch,y_batch_origin batch (X_train1, y_train1,100): 
Feed_dict={
Input_X:X_batch,
Labels:y_batch,
Seq_lens:seq_lens_batch}
Train_loss,train_ler,train_decoded,true,_=session.run([ctc_loss,ler,decoded[0],label
s,train_op],feed_dict=feed_dict)
81 If epoch % epoch_save_step==0 and epoch > 0:
Saver.save(session,”checkpoint1/”+snapshot+”.ckpt”,epoch)
7-Listing .Tanib olish uchun tayyorlangan faylni tanlash:
WAVE_OUTPUT_FILENAME=’test.wav’
Fs,audio=wav.read(WAVE _OUTPUT_FILENAME)
Features=mfcc(audio,samplerate=fs,lowfreq=50)
Mean_scale=np.mean(features,axis=0)
std_scale=np.std(,axis=0)
features=( features-mean_scale[np.newaxis,:])/std_scale[np. Newaxis,:]
seq_len=features.shape[0]
8-Listing.Tanib olish uchun mikrafondan nutqni yozish:
CHUNK=1024
FORMAT=pyaudio.paInt16
CHANNELS=1
RATE=16000
RECORD_SECONDS=3
WAVE_OUTPUT_FILENAME=’speech.wav’
p=pyaudio.PyAudio()
stream=p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)
frames=[]
82 for i in range(0,int(RATE/CHUNK*RECORD_SECONDS));
data=stream.read(CHUNK)
frames.append(data)
stream.stop_stream()
stream.close()
p.terminate()
wf=wave.open(WAVE_OUTPUT_FILENAME,’wb’)
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b”.join(frames))
wf.close()
fs,audio=wav.read(WAVE_OUTPUT_FILENAME)
features=mfcc(audio,samplerate=fs,lowfreq=50)
mean_scale=np.mean(features,axis=0)
std_scale=np.std(features,axis=0)
features=( features-mean_scale[np.newaxis,:])/std_scale[np.newaxis,:]
seq_len=features.shape[0]
9-Listing . Nutqni tanib olish:
With tf.Session(graph=graph) as session:
Saver=tf.train.Saver(tf.global_variables())
Snapshot=”ctc”
Checkpoint=tf.train.latest_ checkpoint(checkpoint_dir=” checkpoint1”)
Last_epoch=0
Saver.restore(session, checkpoint)
83 Tf.global_variables_initializer().run()
Decode_single(session,features)
Ilova B. 
SHARTLI QISQARTMALAR VA ATAMALAR RO YXATI  ʻ
E2E-  End-To-End
LVCSR- Large vocabulary continuous speech recognition
CTC-  connectionist temporal classification
FFT - Fast Fourier Transform
DCT - Discrete Cosine Transform
SP- Speed Perturbation
SA- SpecAugment
MTL- Multi Task Learning
MHA Multi Head Attention
DKA - Diskret kosinus almashtirish
MFCC- Mel Cepstral Coefficients
LDM- local distance matrix
LPC - Linear predictive coding
GMM- Gaussian mixed model
WSJ- Wall Street Journal
TIMIT- Texas Instruments/Massachusetts Institute of Technology
FFNN- Feedforward Neural Network
LM- Language model
ANT - Avtomatik nutqni tanish
ANTT - Avtomatik nutqni tanish tizimi
DTW - Dynamic Time Warping
VQ- Vector Quantization 
84 HMM - Hidden Markov Model
ANN - Artificial neural networks 
CNN - Svyortkali neyron tarmoq
RNN - Recurrent Neural Network
BP - Back Propagation Error
BRNN - Bidirectional RNN
LSTM - Long Short Term Memory networks
BLSTM - Bidirectional LSTM based RNN
GPU - Grafik prosessor
DNN - Deep Neural Networks
CER - Character  Error  Rate
PER- Phoneme Error Rate
WER- Word Error  Rate
85

END-TO-END MODELLAR ASOSIDA O‘ZBEK TILIDAGI NUTQNI AVTOMATIK TANIB OLISHNING ALGORITMLARI VA DASTURIY TA’MINOTINI ISHLAB CHIQISH MUNDARIJA KIRISH ………………………………………………………...................... 4 I- BOB NUTQ SIGNALLARINI AVTOMATIK TANIB OLISHNING USULLAR TAHLILI 7 1.1 -§ Nutq signallarini tarkibi va xususiyatlari ………………….............. 7 1.2 -§ Nutq signallariga dastlabki ishlov berishda qo’llaniladigan algoritmlar tahlili…………………. ……………………….……..... 10 Birinchi bob bo yicha xulosalar.........................................................ʻ 17 II- BOB NUTQ SIGNALLARINI PARAMETRLASH ALGORITMLARI.......................................................................... 18 2.1 -§ Nutq signallarini spektral taqdim etishning algoritmlari va usullari…………………………………………………….….......... 18 2.2 -§ Nutq signalini parametrlash tasnifi…………………….….............. 24 2.3 -§ Nutq korpusi shakllantirish texnologiyalari...................................... 29 Ikkinchi bob bo yicha xulosalar ʻ …..………………………………. 33 III- BOB NUTQNI TANISH TIZIMINI LOYIHALASHTIRISH …........ 34 3.1 -§ Neyron tarmoqlari………………………………………………..... 34 3.2 -§ Chuqur neyron tarmoqlarining arxitekturalari………………......... 40 3.3 -§ Nutqni tanish tizimining strukturali sxemasi……………….......... 43 3.4 -§ Neyron tarmoqni loyihalashtirish va arxitekturasini ishlab chiqish……………………………………………………………… 45 Uchinchi bob bo yicha xulosalar ʻ …..……………………………… 58 IV- BOB End-to-End tizimiga asosan nutqni tanish modulini ishlab chiqish ….….……........................................................................... 59 4.1 -§ Python dasturlash tili. TensorFlow kutubxonasi………………........ 59 4.2 -§ Tanib olish modullarini dasturiy amalga oshirish.............................. 61 4.3 -§ Nutqni tanib olish moduli ishini sifatini baholash............................. 64 To‘rtinchi bob bo yicha xulosalar ʻ ………………………………… 67 1

XULOSA …………………………………………………..…....................... 69 ADABIYOTLAR RO YXATIʻ ………………………………………….… 71 ILOVALAR …………………………………………………..….............… 76 ANNOTATSIYA Ushbu ilmiy tadqiqot ishida neyron tarmoqlari modeli asosida o‘zbek tili nutqi nutqini tanib olish masalasini yechish jarayoni o‘rganib chiqilgan. Nutq signallariga ishlov berish, ularni tanib olish va tahlil qilish uchun avtomatlashtirilgan tizimlar yaratishning mavjud usul va algoritmlarini takomillashtirish hamda yangi hisoblash algoritmlarini ishlab chiqishga yo‘naltirilgan keng qamrovli ilmiy-tadqiqot ishlari olib borilgan. N utq signallarga ishlov berish algoritmlari tahliliga asoslangan holda o’zbek tili uchun nutq signalarlarni tanishning neyron tarmog’iga asoslangan algoritmlari va dasturiy vositasi ishlab chiqilgan. Bu borada, nutq korpusini shakllantirish, nutq signallarini xarakterlovchi belgilarni ajratish usullari takomillashtirish va yaratish hamda ushbu xarakterlovchi belgilar asosida tanib olish algoritmlarini ishlab chiqish, ular asosida nutqni avtomatik tanib olishning dasturiy vositalarini yaratish axborot texnologiyalarini rivojlantirishning muhim vazifalaridan biri hisoblanadi. ANNOTATION In this scientific research, the process of solving the problem of Uzbek language speech recognition based on the neural network model was studied. Comprehensive research and development activities aimed at improving the existing methods and algorithms for creating automated systems for processing speech signals, their recognition and analysis, as well as developing new calculation algorithms have been carried out. In this regard, the formation of a speech corpus, the improvement and creation of methods for distinguishing characters characterizing speech signals, the development of recognition algorithms based on these characterizing characters, and 2

the creation of software tools for automatic speech recognition based on them are one of the important tasks of the development of information technologies. KIRISH Dissertasiya ishining dolzarbligi. Mamlakatimizda mustaqillik yillarida ilm fan sohasida keng ko’lamli ishlar amalga oshirildi. Axborot texnologiyalari sohasida zamonaviy texnologiyalarning joriy etilishi muhim ahamiyat kasb etdi. Sohalarga zamonaviy axborot texnologiyalarning kirib borishi natijasida ilm-fan va tadqiqot sohalarining masalalari kengaydi. Hozirgi kunda har bir sohaga axborot texnologiyalari kirib bormoqda. Davlatimizni yanada barqaror va jadal sur’atlar bilan rivojlantirish uchun mutlaqo yangicha yondashuv hamda tamoyillarni ishlab chiqish va ro’yobga chiqarish, Respublikada olib borilayotgan islohotlar samarasini yanada oshirish, davlat va jamiyatning har tomonlama va jadal rivojlanishi uchun shart- sharoitlar yaratish, mamlakatimizni modernizasiya qilish hamda hayotning barcha sohalarini liberallashtirish bo’yicha ustuvor yo’nalishlarni amalga oshirish maqsadida, O’zbekiston Respublikasi Prezidentining 2017 yil 7 fevraldagi “O’zbekiston Respublikasini yanada rivojlantirish bo’yicha Harakatlar strategiyasi to’g’risida”gi PF-4947-son farmoni qabul qilindi [1]. Mazkur farmonda ko’rsatilgan vazifalarni amalga oshirishda jumladan, nutqni tanib olish usullaridan foydalanib axborot tizimlarida ovozli so’rovlarni amalga oshirish, texnik qurilmalarni ovozli buyruqlar asosida boshqarish, ovozli qidiruv, eshitish va nutqida muammosi mavjud bolalar reabilitasiyasi hamda ularni o’qitish muhim masalalardan biridir . Shuning uchun nutqga dastlabki ishlov berish, ularni tavsiflovchi xarakterli belgilarni ajratish va tanib olish masalalari, intellektual ishlov berish usul va algoritmlarini rivojlantirish hamda ularni nutqni avtomatik tanib olish tizimlarda qo’llash dolzarb muammo hisoblanadi. 3

Tadqiqot obyekti va predmeti . Tadqiqot obyekti sifatida turli sharoitlarda yozib olingan o’zbek tili nutq signallari va ulardan hosil qilingan muhim belgilar to’plami, rekurrent neyron tarmoqlarini o’qitish jarayoni qaralgan. Tadqiqot predmeti sifatida nutq signallarni tanishda foydalaniladigan algoritmlar, nutq signalning parametrlari, nutq signallarga ishlov berishda qo’llaniladigan intelektual algoritmlari va modellar tashkil etadi. Tadqiqotning maqsadi va vazifalari. Tadqiqot maqsadi nutq signallarga ishlov berish algoritmlari tahliliga asoslangan holda o’zbek tili uchun nutq signallarni tanishning neyron tarmog’iga asoslangan algoritmlari va dasturiy vositasini ishlab chiqishdan iborat. Ushbu maqsadga erishish uchun dissertasiya ishida quyidagi vazifalar hal etiladi: - Nutq signallariga ishlov berish va ularni tanib olishga mo’ljallangan adabiyotlar tahlilini olib borish; - nutq signallarga ishlov beruvchi apparat va dasturiy vositalarni tahlil qilish va imkoniyatlarini o’rganish; - nutq signallarga ishlov berish jarayonlarida qo’llaniladigan algoritmlarni, modellarni tahlil qilish va ularning asosiy vazifalarini o’zlashtirish; - neyron tarmoqlariga asoslangan nutq signallarini akustik modellashtirishni usullarini tahlil qilish va tanlash. - O’zbek tili nutqini tanib olishning algoritmi va dasturiy vositasini ishlab chiqish. Tadqiqot usullari. Dissertasiya ishi tadqiqotlarni olib borish quyidagi usullardan foydalaniladi: ehtimollar nazariyasi; timsollarni tanish; ma’lumotlarga intellektual ishlov berish; matematik statistika; chiziqli algebra; signallarga raqamli ishlov berish; obyektga yo’naltirilgan dasturlash. Tadqiqotning ilmiy yangiligi quyidagilardan iborat: 4

 audio manbalardan nutq korpusini shakllantirish uchun audio fayl va unga mos keluvchi matnni segmentasiyalash algoritmlari hamda segmentlangan audiofayl va uning matni mosligini tekshiruvchi dasturiy interfeysi ishlab chiqilgan;  o’zbek tili nutqini avtomatik tanib olishning rekurrent neyron tarmog’i arxitekturasi yaratilgan. Tadqiqotning amaliy natijasi quyidagilardan iborat: Ishlab chiqilgan algoritmlar va dasturiy vositalar asosida quyidagi tizim va sohalarga keng qo’llash mumkin:  turli audio manbalardan nutq korpusini shakllantirish algoritmlari asosida dastur ishlab chiqildi va cheklangan lug’atdagi o’zbek tili nutqini tanish tizimi uchun qo’llandi;  nutq signallarini yaxshi ifodalay oladigan, turli halaqitlarga barqaror bo’lgan belgilar vektorini hosil qilish algoritmi va dasturi yaratildi;  cheklangan lug’atdagi o’zbek tili nutqini avtomatik tanib olish dasturlari texnikalarni ovozli boshqaruv jarayonlariga qo’llaniladi. Dissertasiyaning hajmi va tuzilishi. Magistrlik dissertasiyasi tarkibi kirish, to’rtta bob, umumiy xulosalar, foydalanilgan adabiyotlar ro’yxati va ilovalardan iborat. Dissertatsiya ishida 4 ta jadval, 38 ta rasm keltirilgan. Dissertasiyaning hajmi 83 betni tashkil etgan. 5