logo

Nazorat ostida o’qitish algoritmlari. Ridge Regression

Загружено в:

08.08.2023

Скачано:

0

Размер:

243 KB
Mav zu:Nazorat  ost ida o’qit ish algorit mlari.
Ridge Regression
REJ A:
1 A mal qilish k erak  bo'lgan qadamlar
2 A lgorit mni t anlash
3 Tarafk ashlik  v a dispersiy a o'rt asidagi k elishuv                         Nazorat   ostida   o'rganish   (SL)   -   bu   mavjud   ma'lumotlar
belgilangan   misollardan   iborat   bo'lgan   vazifalar   uchun   mashinani
o'rganish   paradigmasi,   ya'ni   har   bir   ma'lumot   nuqtasida   ob'ektlar
(kovariatlar)   va   ular   bilan   bog'liq   yorliq   mavjud.   Nazorat   qilinadigan
o'rganish   algoritmlarining   maqsadi   i   /   u   juftliklari   misollari   asosida
ob'ekt   vektorlarini   (kirish   ma'lumotlarini)   yorliqlarga   (chiqishlarga)
xaritalaydigan   funktsiyani   o'rganishdir.U   funktsiyani   a   dan   chiqaradi
boshqaruv   signali   kirish   ob'ekti   (odatda   vektor)   va   kerakli   chiqish
qiymatidan   iborat   (shuningdek,   deyiladi)   juftlik   nazorat   ostida
o'qitishda   har   bir   misol   ifodalaydi   .o'quv   misollari   to'plamidan   iborat
o'quv   ma'lumotlari,   etiketlangan   o'quv   misollari   to'plamidan   tashkil
topgan   yorliqli   o'quv   ma'lumotlari.   Nazorat   ostida   o'qitishda   har   bir
misol   kirish   ob'ekti   (odatda   vektor)   va   kerakli   chiqish   qiymatidan
(boshqaruv signali deb ham ataladi) iborat juftlikdir.
A mal qilish k erak  bo'lgan qadamlar
Ushbu nazorat ostida o'rganish muammosini hal qilish uchun quyidagi
amallarni bajarish kerak:
1.O'quv   misollarining   turini   aniqlang.   Boshqa   hech   narsa   qilishdan
oldin,   foydalanuvchi   qaysi   ma'lumotlar   o'quv   to'plami   sifatida
ishlatilishini   hal   qilishi   kerak.   Masalan,   qo'l   yozuvi   tahlilida   bu   bitta
qo'lda   yozilgan   belgi,   butun   qo'lda   yozilgan   so'z,   qo'lda   yozilgan
matnning   butun   jumlasi   yoki  ehtimol  qo'lda   yozilgan   matnning  butun
paragrafi bo'lishi mumkin.
2.O'quv   to'plamini   to'plang.   O'quv   to'plami   funktsiyadan   haqiqiy
foydalanishning   vakili   bo'lishi   kerak.   Shunday   qilib,   kirish   ob'ektlari
to'plami   yig'iladi,   shuningdek,   inson   mutaxassislari   yoki   o'lchovlardan
tegishli chiqishlar yig'iladi. 3.O'rganilayotgan   funktsiyaning   kirish   xususiyati   tasvirini   aniqlang.
O'rganilgan   funktsiyaning   aniqligi   kirish   ob'ekti   qanday   taqdim
etilishiga   bog'liq.   Odatda,   kirish   ob'ekti   ob'ektni   tavsiflovchi   bir   qator
xususiyatlarni   o'z   ichiga   olgan   xususiyatlar   vektoriga   aylantiriladi.
O'lchov   la'nati   tufayli   funktsiyalar   soni   juda   ko'p   bo'lmasligi   kerak;
ammo   natijani  aniq   bashorat   qilish   uchun   etarli  ma'lumotni   o'z  ichiga
olishi kerak.
4.O'rganilayotgan   funktsiyaning   tuzilishini   va   tegishli   o'rganish
algoritmini   aniqlang.   Masalan,   muhandis   qo'llab-quvvatlovchi   vektorli
mashinalardan   yoki   qaror   daraxtlaridan   foydalanishni   tanlashi
mumkin.
5.Dizaynni   yakunlang.   Yig'ilgan   o'quv   to'plamida   o'quv   algoritmini
ishga   tushiring.   Ba'zi   boshqariladigan   o'rganish   algoritmlari
foydalanuvchidan   ma'lum   boshqaruv   parametrlarini   aniqlashni   talab
qiladi.   Ushbu   parametrlarni   o'quv   to'plamining   pastki   qismining
ishlashini optimallashtirish (tasdiqlash to'plami deb ataladi) yoki o'zaro
tekshirish orqali sozlash mumkin.
6.O'rganilgan   funktsiyaning   aniqligini   baholang.   Sozlamalar   va
treninglar   o'rnatilgandan   so'ng,   natijada   paydo   bo'lgan   funktsiyaning
ishlashi o'quv to'plamidan ajratilgan test to'plamida o'lchanishi kerak.
Algorit mni t anlash
Nazorat   ostida   o'rganish   algoritmlarining   keng   doirasi   mavjud,
ularning   har   biri   o'zining   kuchli   va   zaif   tomonlariga   ega.   Barcha
nazorat   ostida   o'rganish   muammolarini   hal   qilish   uchun   eng   mos
keladigan yagona o'rganish algoritmi mavjud emas (bepul ovqatlanish
teoremasiga qarang).
Nazorat   ostida   o'qitishda   e'tiborga   olish   kerak   bo'lgan   to'rtta   asosiy
savol mavjud:
1.Tarafk ashlik  v a dispersiy a o'rt asidagi k elishuv
Birinchi   muammo-bu   o'zaro   kelishuv   tarafkashlik   va   dispersiya.
Tasavvur   qiling-a,   bizda   bir   nechta   turli   xil,   ammo   bir   xil   darajada
yaxshi  o'quv  ma'lumotlari  to'plamlari  mavjud.   O'quv  algoritmi  ma'lum bir   kirish   uchun   ofsetdir   {\displaystyle   x}x   agar   ushbu   ma'lumotlar
to'plamlarining   har   birida   o'qitishda   {\displaystyle   x}x   uchun   to'g'ri
natijani   bashorat   qilishda   muntazam   ravishda   noto'g'ri   bo'lsa.   o'quv
to'plamlari.   O'rganilgan   tasniflagichni   bashorat   qilish   xatosi   o'rganish
algoritmining   siljishi   va   dispersiyasi   yig'indisi   bilan   bog'liq.Odatda,
tarafkashlik   va   og'ish   o'rtasida   kelishuv   mavjud.   Ma'lumotni   yaxshi
ishlashi   uchun   past   darajadagi   o'rganish   algoritmi   "moslashuvchan"
bo'lishi   kerak.   Ammo   agar   o'rganish   algoritmi   juda   moslashuvchan
bo'lsa,   u   har   bir   o'quv   ma'lumotlari   to'plamiga   har   xil   mos   keladi   va
shuning   uchun   yuqori   dispersiyaga   ega   bo'ladi.   Ko'pgina   nazorat
ostida   o'qitish   usullarining   asosiy   jihati   shundaki,   ular   ofset   va   og'ish
o'rtasidagi   ushbu   kelishuvni   tartibga   solishga   qodir   (yoki   avtomatik
ravishda  yoki foydalanuvchi sozlashi mumkin  bo'lgan  ofset  / rad  etish
parametrini taqdim etish orqali).
2.Funk t siy alarning murak k abligi v a o'quv  ma'lumot larining hajmi
Ikkinchi muammo - "haqiqiy" funktsiyaning murakkabligi (klassifikator
yoki regressiya funktsiyasi) bo'yicha mavjud bo'lgan o'quv ma'lumotlari
soni.   Agar   haqiqiy   funktsiya   sodda   bo'lsa,   unda   yuqori   xato   va   past
dispersiyaga   ega   bo'lgan"   egiluvchan   "   o'rganish   algoritmi   uni   oz
miqdordagi   ma'lumotlardan   o'rganishi   mumkin.   Ammo   agar   haqiqiy
funktsiya juda murakkab bo'lsa (masalan, u turli xil kirish funktsiyalari
o'rtasidagi   murakkab   o'zaro   ta'sirlarni   o'z   ichiga   olganligi   va   kirish
maydonining   turli   qismlarida   boshqacha   harakat   qilganligi   sababli),   u
holda   funktsiya   faqat   "moslashuvchan"   past   darajadagi   o'rganish
algoritmi   bilan   birgalikda   katta   miqdordagi   o'quv   ma'lumotlari   bilan
o'qitilishi mumkin.va yuqori dispersiya .
3.   Kirish may donining o'lchami
Uchinchi   muammo-kirish   maydonining   o'lchami.   Agar   kirish   xususiyat
vektorlari   katta   bo'lsa,   funktsiyani   o'rganish   qiyin   bo'lishi   mumkin,
hatto haqiqiy funktsiya faqat ushbu xususiyatlarning oz soniga bog'liq
bo'lsa   ham.   Buning   sababi   shundaki,   ko'plab   "qo'shimcha"   o'lchovlar
o'rganish   algoritmini   chalkashtirib   yuborishi   va   uning   yuqori
dispersiyasiga   olib   kelishi   mumkin.   Shuning   uchun,   katta   hajmdagi
kirishlar odatda tasniflagichni past dispersiya va yuqori xato chegarasi uchun   sozlashni   talab   qiladi.   Amalda,   agar   muhandis   keraksiz
funktsiyalarni   kirishdan   qo'lda   olib   tashlashi   mumkin   bo'lsa,   bu
o'rganilgan   funktsiyaning   aniqligini   oshirishi   mumkin.   Bundan
tashqari,   ko'plab   algoritmlar   mavjud   uchinchi   muammo   -   kirish
maydonining   o'lchami.   Agar   kirish   xususiyat   vektorlari   katta   bo'lsa,
funktsiyani   o'rganish   qiyin   bo'lishi   mumkin,   hatto   haqiqiy   funktsiya
faqat   ushbu   xususiyatlarning   oz   soniga   bog'liq   bo'lsa   ham.   Buning
sababi shundaki, ko'plab "qo'shimcha" o'lchovlar o'rganish algoritmini
chalkashtirib   yuborishi   va   uning   yuqori   dispersiyasiga   olib   kelishi
mumkin.
4.   Chiqish qiy mat larida shov qin
qayta   o'qitish,   ma'lumotlarning   juda   ehtiyotkorlik   bilan   o'rnatilishi
quyidagilarga   olib   keladi   agar   kerakli   chiqish   qiymatlari   ko'pincha
noto'g'ri   bo'lsa   (inson   xatosi   yoki   sensor   xatolari   tufayli),   unda
o'rganish   algoritmi   o'quv   misollariga   to'liq   mos   keladigan   funktsiyani
topishga   urinmasligi   kerak.   Agar   talab   qilinadigan   chiqish   qiymatlari
ko'pincha   noto'g'ri   bo'lsa   (inson   xatosi   yoki   sensor   xatolari   tufayli),
unda   o'rganish   algoritmi   funktsiyani   topishga   urinmasligi   kerak
maqsadli   o'zgaruvchilar,   teskari   savol-kerakli   chiqish   qiymatlaridagi
shovqin   darajasi   (mos   yozuvlar   .   Agar   siz   o'rganmoqchi   bo'lgan
xususiyat   sizning   o'rganish   modelingiz   uchun   juda   murakkab   bo'lsa,
o'lchov   xatolari   (stoxastik   shovqin)   bo'lmasa   ham,   siz   qayta
o'rganishingiz   mumkin.   Bunday   vaziyatda   maqsadli   funktsiyaning
modellashtirilmaydigan   qismi   sizning   o'quv   ma'lumotlaringizni
"buzadi" - bu hodisa deyiladi . Agar siz o'rganmoqchi bo'lgan xususiyat
sizning   o'rganish   modelingiz   uchun   juda   murakkab   bo'lsa,   o'lchov
xatolari   (stoxastik   shovqin)   bo'lmasa   ham,   siz   qayta   o'rganishingiz
mumkin. Y axshi foy dalanish uchun t izma regressiy asi
Ushbu   mustaqil   ishning   maqsadi   kutubxonalar   taqdim   etgan
narsalardan   foydalanishdan   ko'ra,   tizma   regressiyasidan   yaxshiroq
foydalanishga   imkon   berishdir.   Keyin:   "tizma   regressiyasi   nima?”.   Bu
savolga   javob   berishning   eng   oson   usuli   -   "chiziqli   regressiyaning
o'zgarishi".   Eng   yomon   usul-ko'pchilik   bir   qarashda   tushuna
olmaydigan quyidagi matematik tenglamalardan boshlash.
Yomon   xabar   shundaki,   biz   hali   ham  bu   bilan   shug'ullanishimiz   kerak
va   yaxshi   xabar   shundaki,   biz   hozir   bo'lmasa   ham,   shunga   o'xshash
tenglamalardan   boshlamaymiz.   Men   boshlashni  istagan   narsa   "  oddiy
eng kichik kvadratchalar (OLS)'. Agar siz chiziqli regressiya haqida kam
ma'lumotga   ega   bo'lsangiz   yoki   umuman   bilmasangiz,   ushbu   video
sizga   "eng   kichik   kvadratlar   usuli"   yordamida   qanday   ishlashini
tushunishga   yordam   beradi.   Endi   bilasizki,   OLS   biz   odatda   "chiziqli
regressiya"   deb   ataydigan   narsadir   va   men   bu   atamani   shunday
ishlataman.
Dav om et ishdan oldin
Keyingi   bo'limlarda   men   turli   xil   atamalar   va   raqamlar   bilan   turli   xil
yondashuvlardan   foydalanaman.   Siz   eslashni   istagan   ikkita   narsa   bor.
Birinchidan,   biz   qayta   o'qitishni   yoqtirmaymiz.   Boshqacha   qilib
aytganda,   biz   har   doim   umumiy   naqshlarni   qabul   qiladigan   modelni
afzal   ko'ramiz.   Yana   biri   shundaki,   bizning   maqsadimiz   aniq
ma'lumotlarga   emas,   balki   yangi   ma'lumotlarga   asoslanib   bashorat
qilishdir.   Shuning   uchun   modelni   baholash   berilgan   ma'lumotlarga
(o'quv   to'plamiga)   emas,   balki   yangi   ma'lumotlarga   (test   to'plamiga) asoslangan   bo'lishi   kerak.   Bundan   tashqari,   men   quyidagi   atamalarni
bir-birining o'rnida ishlataman.
 Mustaqil o'zgaruvchi = atribut = atribut = bashorat qiluvchi = X
 Koeffitsient = Beta = β
 Kvadratlarning qoldiq yig'indisi = RSS
Nima uchun va nima uchun OLS emas
Eng kichik kvadratlar usuli eng yaxshi va xolis koeffitsientlarni topadi
Siz bilishingiz mumkinki, eng kichik kvadratlar ma'lumotlarga eng mos keladigan 
koeffitsientlarni topadi. Qo'shish kerak bo'lgan yana bir shart shundaki, u xolis 
koeffitsientlarni ham topadi. Bu erda ochiq fikr OLS qaysi mustaqil 
o'zgaruvchining boshqalardan ko'ra muhimroq ekanligini hisobga olmasligini 
anglatadi. U faqat berilgan ma'lumotlar to'plami uchun koeffitsientlarni topadi. 
Muxtasar qilib aytganda, faqat bitta beta to'plamini topish kerak, natijada eng 
kichik "kvadratlarning qoldiq yig'indisi (RSS)'. Keyin savol tug'iladi: "eng kichik 
RSS modeli haqiqatan ham eng yaxshi modelmi?”.
Ofset va burilish
Yuqoridagi savolga javob "aslida emas". "Xolis" so'zida aytilganidek, biz 
"tarafkashlik" ni ham hisobga olishimiz kerak. Noto'g'ri bo'lish, model o'zining 
bashoratchilariga qanchalik g'amxo'rlik qilishini anglatadi. Aytaylik, olma narxini 
bashorat qilish uchun ikkita model mavjud, ikkita "shirinlik" va "yorqinlik" 
bashoratchilari; bitta model xolis, ikkinchisi esa xolis.
Birinchidan, ob'ektiv model OLS usuli kabi ikkita funktsiya va narxlar o'rtasidagi 
munosabatni topishga harakat qiladi. Ushbu model RSS-ni minimallashtirish 
uchun kuzatuvlarga iloji boricha mos keladi. Biroq, bu osonlik bilan qayta 
jihozlash muammolariga olib kelishi mumkin. Boshqacha qilib aytganda, model 
yangi ma'lumotlar bilan bir xil ishlamaydi, chunki u berilgan ma'lumotlar uchun 
shunchalik aniq qurilganki, u yangi ma'lumotlarga mos kelmasligi mumkin. Xolis model har bir bashoratchini boshqacha qayta ishlash uchun o'zgaruvchilarini 
notekis qabul qiladi. Misolga qaytsak, biz faqat modelni qurishning "yoqimliligi" 
haqida qayg'urmoqchimiz va bu yangi ma'lumotlar bilan yaxshiroq ishlashi kerak. 
Buning sababi tarafkashlik va dispersiya munosabatlarini tushungandan so'ng 
tushuntiriladi. Agar siz tarafkashlik va dispersiya mavzusi bilan tanish 
bo'lmasangiz, sizga fikr beradigan ushbu videoni tomosha qilishingizni maslahat 
beraman.
Aytish mumkinki, tarafkashlik modelning o'quv to'plamiga mos kelmasligi va 
og'ish modelning sinov to'plamiga mos kelmasligi bilan bog'liq. Ko'chirish va 
dispersiya modelning murakkabligi bilan taqqoslaganda murosaga keladi, ya'ni 
oddiy model yuqori siljish va past dispersiyaga ega bo'ladi va aksincha. Bizning 
Apple misolimizda faqat "shirinlik" ni hisobga oladigan model "shirinlik" va 
"yorqinlik" ni hisobga oladigan boshqa model kabi o'quv ma'lumotlariga mos 
kelmaydi, ammo sodda model yangi ma'lumotlarni yaxshiroq bashorat qiladi. Buning sababi shundaki," shirinlik "narxni belgilovchi omil hisoblanadi," porlash "
esa aql bilan bo'lmasligi kerak. Biz hammamiz buni inson sifatida bilamiz, ammo 
matematik modellar biz kabi o'ylamaydi va shunchaki berilgan narsalarni hisoblab 
chiqadi, chunki ular barcha bashoratchilar va mustaqil o'zgaruvchi o'rtasida 
o'rganish ma'lumotlariga mos keladigan munosabatlarni topguncha.
* Eslatma: biz "shirinlik" va "porlash" o'zaro bog'liq emas deb taxmin qilamiz
Tepalik regressiyasi qayerda paydo bo'ladi
Ofsetning dispersiyaga bog'liqligi o'lchoviga qarab, y o'qi "xato" bo'lib, u "ofset va 
dispersiya yig'indisi" dir. Ularning ikkalasi ham asosan nosozliklar bilan bog'liq 
bo'lganligi sababli, biz ularni minimal darajada saqlamoqchimiz. Endi chizilgan 
rasmga yana bir bor diqqat bilan qarasangiz, umumiy xato eng kichik bo'lgan joy 
o'rtada ekanligini bilib olasiz. Bu ko'pincha "shirin nuqta" deb nomlanadi.
Eslatib o'tamiz, OLS barcha o'zgaruvchilarni bir xil (ochiq fikr bilan) boshqaradi. 
Shunday qilib, yangi o'zgaruvchilar qo'shilishi bilan OLS modeli yanada 
murakkablashadi. Aytish mumkinki, OLS modeli har doim rasmning o'ng 
tomonida, eng kichik ofset va eng katta dispersiyaga ega. U erda mahkamlangan, 
hech qachon harakat qilmaydi, lekin biz uni kerakli joyga ko'chirmoqchimiz. Bu 
erda tizma regressiyasi porlaydi, bu regulyatsiya deb ham ataladi. Tepalik 
regressiyasida siz lambda parametrini model koeffitsientlari o'zgarishi uchun 
sozlashingiz mumkin.

Mav zu:Nazorat ost ida o’qit ish algorit mlari. Ridge Regression REJ A: 1 A mal qilish k erak bo'lgan qadamlar 2 A lgorit mni t anlash 3 Tarafk ashlik v a dispersiy a o'rt asidagi k elishuv

Nazorat ostida o'rganish (SL) - bu mavjud ma'lumotlar belgilangan misollardan iborat bo'lgan vazifalar uchun mashinani o'rganish paradigmasi, ya'ni har bir ma'lumot nuqtasida ob'ektlar (kovariatlar) va ular bilan bog'liq yorliq mavjud. Nazorat qilinadigan o'rganish algoritmlarining maqsadi i / u juftliklari misollari asosida ob'ekt vektorlarini (kirish ma'lumotlarini) yorliqlarga (chiqishlarga) xaritalaydigan funktsiyani o'rganishdir.U funktsiyani a dan chiqaradi boshqaruv signali kirish ob'ekti (odatda vektor) va kerakli chiqish qiymatidan iborat (shuningdek, deyiladi) juftlik nazorat ostida o'qitishda har bir misol ifodalaydi .o'quv misollari to'plamidan iborat o'quv ma'lumotlari, etiketlangan o'quv misollari to'plamidan tashkil topgan yorliqli o'quv ma'lumotlari. Nazorat ostida o'qitishda har bir misol kirish ob'ekti (odatda vektor) va kerakli chiqish qiymatidan (boshqaruv signali deb ham ataladi) iborat juftlikdir. A mal qilish k erak bo'lgan qadamlar Ushbu nazorat ostida o'rganish muammosini hal qilish uchun quyidagi amallarni bajarish kerak: 1.O'quv misollarining turini aniqlang. Boshqa hech narsa qilishdan oldin, foydalanuvchi qaysi ma'lumotlar o'quv to'plami sifatida ishlatilishini hal qilishi kerak. Masalan, qo'l yozuvi tahlilida bu bitta qo'lda yozilgan belgi, butun qo'lda yozilgan so'z, qo'lda yozilgan matnning butun jumlasi yoki ehtimol qo'lda yozilgan matnning butun paragrafi bo'lishi mumkin. 2.O'quv to'plamini to'plang. O'quv to'plami funktsiyadan haqiqiy foydalanishning vakili bo'lishi kerak. Shunday qilib, kirish ob'ektlari to'plami yig'iladi, shuningdek, inson mutaxassislari yoki o'lchovlardan tegishli chiqishlar yig'iladi.

3.O'rganilayotgan funktsiyaning kirish xususiyati tasvirini aniqlang. O'rganilgan funktsiyaning aniqligi kirish ob'ekti qanday taqdim etilishiga bog'liq. Odatda, kirish ob'ekti ob'ektni tavsiflovchi bir qator xususiyatlarni o'z ichiga olgan xususiyatlar vektoriga aylantiriladi. O'lchov la'nati tufayli funktsiyalar soni juda ko'p bo'lmasligi kerak; ammo natijani aniq bashorat qilish uchun etarli ma'lumotni o'z ichiga olishi kerak. 4.O'rganilayotgan funktsiyaning tuzilishini va tegishli o'rganish algoritmini aniqlang. Masalan, muhandis qo'llab-quvvatlovchi vektorli mashinalardan yoki qaror daraxtlaridan foydalanishni tanlashi mumkin. 5.Dizaynni yakunlang. Yig'ilgan o'quv to'plamida o'quv algoritmini ishga tushiring. Ba'zi boshqariladigan o'rganish algoritmlari foydalanuvchidan ma'lum boshqaruv parametrlarini aniqlashni talab qiladi. Ushbu parametrlarni o'quv to'plamining pastki qismining ishlashini optimallashtirish (tasdiqlash to'plami deb ataladi) yoki o'zaro tekshirish orqali sozlash mumkin. 6.O'rganilgan funktsiyaning aniqligini baholang. Sozlamalar va treninglar o'rnatilgandan so'ng, natijada paydo bo'lgan funktsiyaning ishlashi o'quv to'plamidan ajratilgan test to'plamida o'lchanishi kerak. Algorit mni t anlash Nazorat ostida o'rganish algoritmlarining keng doirasi mavjud, ularning har biri o'zining kuchli va zaif tomonlariga ega. Barcha nazorat ostida o'rganish muammolarini hal qilish uchun eng mos keladigan yagona o'rganish algoritmi mavjud emas (bepul ovqatlanish teoremasiga qarang). Nazorat ostida o'qitishda e'tiborga olish kerak bo'lgan to'rtta asosiy savol mavjud: 1.Tarafk ashlik v a dispersiy a o'rt asidagi k elishuv Birinchi muammo-bu o'zaro kelishuv tarafkashlik va dispersiya. Tasavvur qiling-a, bizda bir nechta turli xil, ammo bir xil darajada yaxshi o'quv ma'lumotlari to'plamlari mavjud. O'quv algoritmi ma'lum

bir kirish uchun ofsetdir {\displaystyle x}x agar ushbu ma'lumotlar to'plamlarining har birida o'qitishda {\displaystyle x}x uchun to'g'ri natijani bashorat qilishda muntazam ravishda noto'g'ri bo'lsa. o'quv to'plamlari. O'rganilgan tasniflagichni bashorat qilish xatosi o'rganish algoritmining siljishi va dispersiyasi yig'indisi bilan bog'liq.Odatda, tarafkashlik va og'ish o'rtasida kelishuv mavjud. Ma'lumotni yaxshi ishlashi uchun past darajadagi o'rganish algoritmi "moslashuvchan" bo'lishi kerak. Ammo agar o'rganish algoritmi juda moslashuvchan bo'lsa, u har bir o'quv ma'lumotlari to'plamiga har xil mos keladi va shuning uchun yuqori dispersiyaga ega bo'ladi. Ko'pgina nazorat ostida o'qitish usullarining asosiy jihati shundaki, ular ofset va og'ish o'rtasidagi ushbu kelishuvni tartibga solishga qodir (yoki avtomatik ravishda yoki foydalanuvchi sozlashi mumkin bo'lgan ofset / rad etish parametrini taqdim etish orqali). 2.Funk t siy alarning murak k abligi v a o'quv ma'lumot larining hajmi Ikkinchi muammo - "haqiqiy" funktsiyaning murakkabligi (klassifikator yoki regressiya funktsiyasi) bo'yicha mavjud bo'lgan o'quv ma'lumotlari soni. Agar haqiqiy funktsiya sodda bo'lsa, unda yuqori xato va past dispersiyaga ega bo'lgan" egiluvchan " o'rganish algoritmi uni oz miqdordagi ma'lumotlardan o'rganishi mumkin. Ammo agar haqiqiy funktsiya juda murakkab bo'lsa (masalan, u turli xil kirish funktsiyalari o'rtasidagi murakkab o'zaro ta'sirlarni o'z ichiga olganligi va kirish maydonining turli qismlarida boshqacha harakat qilganligi sababli), u holda funktsiya faqat "moslashuvchan" past darajadagi o'rganish algoritmi bilan birgalikda katta miqdordagi o'quv ma'lumotlari bilan o'qitilishi mumkin.va yuqori dispersiya . 3. Kirish may donining o'lchami Uchinchi muammo-kirish maydonining o'lchami. Agar kirish xususiyat vektorlari katta bo'lsa, funktsiyani o'rganish qiyin bo'lishi mumkin, hatto haqiqiy funktsiya faqat ushbu xususiyatlarning oz soniga bog'liq bo'lsa ham. Buning sababi shundaki, ko'plab "qo'shimcha" o'lchovlar o'rganish algoritmini chalkashtirib yuborishi va uning yuqori dispersiyasiga olib kelishi mumkin. Shuning uchun, katta hajmdagi kirishlar odatda tasniflagichni past dispersiya va yuqori xato chegarasi

uchun sozlashni talab qiladi. Amalda, agar muhandis keraksiz funktsiyalarni kirishdan qo'lda olib tashlashi mumkin bo'lsa, bu o'rganilgan funktsiyaning aniqligini oshirishi mumkin. Bundan tashqari, ko'plab algoritmlar mavjud uchinchi muammo - kirish maydonining o'lchami. Agar kirish xususiyat vektorlari katta bo'lsa, funktsiyani o'rganish qiyin bo'lishi mumkin, hatto haqiqiy funktsiya faqat ushbu xususiyatlarning oz soniga bog'liq bo'lsa ham. Buning sababi shundaki, ko'plab "qo'shimcha" o'lchovlar o'rganish algoritmini chalkashtirib yuborishi va uning yuqori dispersiyasiga olib kelishi mumkin. 4. Chiqish qiy mat larida shov qin qayta o'qitish, ma'lumotlarning juda ehtiyotkorlik bilan o'rnatilishi quyidagilarga olib keladi agar kerakli chiqish qiymatlari ko'pincha noto'g'ri bo'lsa (inson xatosi yoki sensor xatolari tufayli), unda o'rganish algoritmi o'quv misollariga to'liq mos keladigan funktsiyani topishga urinmasligi kerak. Agar talab qilinadigan chiqish qiymatlari ko'pincha noto'g'ri bo'lsa (inson xatosi yoki sensor xatolari tufayli), unda o'rganish algoritmi funktsiyani topishga urinmasligi kerak maqsadli o'zgaruvchilar, teskari savol-kerakli chiqish qiymatlaridagi shovqin darajasi (mos yozuvlar . Agar siz o'rganmoqchi bo'lgan xususiyat sizning o'rganish modelingiz uchun juda murakkab bo'lsa, o'lchov xatolari (stoxastik shovqin) bo'lmasa ham, siz qayta o'rganishingiz mumkin. Bunday vaziyatda maqsadli funktsiyaning modellashtirilmaydigan qismi sizning o'quv ma'lumotlaringizni "buzadi" - bu hodisa deyiladi . Agar siz o'rganmoqchi bo'lgan xususiyat sizning o'rganish modelingiz uchun juda murakkab bo'lsa, o'lchov xatolari (stoxastik shovqin) bo'lmasa ham, siz qayta o'rganishingiz mumkin.