Nazorat ostida o’qitish algoritmlari. Ridge Regression

Загружено в:

08.08.2023

Скачано:

0

Размер:

243 KB

Скачать

Mav zu:Nazorat ost ida o’qit ish algorit mlari.
Ridge Regression
REJ A:
1 A mal qilish k erak bo'lgan qadamlar
2 A lgorit mni t anlash
3 Tarafk ashlik v a dispersiy a o'rt asidagi k elishuv

Nazorat ostida o'rganish (SL) - bu mavjud ma'lumotlar
belgilangan misollardan iborat bo'lgan vazifalar uchun mashinani
o'rganish paradigmasi, ya'ni har bir ma'lumot nuqtasida ob'ektlar
(kovariatlar) va ular bilan bog'liq yorliq mavjud. Nazorat qilinadigan
o'rganish algoritmlarining maqsadi i / u juftliklari misollari asosida
ob'ekt vektorlarini (kirish ma'lumotlarini) yorliqlarga (chiqishlarga)
xaritalaydigan funktsiyani o'rganishdir.U funktsiyani a dan chiqaradi
boshqaruv signali kirish ob'ekti (odatda vektor) va kerakli chiqish
qiymatidan iborat (shuningdek, deyiladi) juftlik nazorat ostida
o'qitishda har bir misol ifodalaydi .o'quv misollari to'plamidan iborat
o'quv ma'lumotlari, etiketlangan o'quv misollari to'plamidan tashkil
topgan yorliqli o'quv ma'lumotlari. Nazorat ostida o'qitishda har bir
misol kirish ob'ekti (odatda vektor) va kerakli chiqish qiymatidan
(boshqaruv signali deb ham ataladi) iborat juftlikdir.
A mal qilish k erak bo'lgan qadamlar
Ushbu nazorat ostida o'rganish muammosini hal qilish uchun quyidagi
amallarni bajarish kerak:
1.O'quv misollarining turini aniqlang. Boshqa hech narsa qilishdan
oldin, foydalanuvchi qaysi ma'lumotlar o'quv to'plami sifatida
ishlatilishini hal qilishi kerak. Masalan, qo'l yozuvi tahlilida bu bitta
qo'lda yozilgan belgi, butun qo'lda yozilgan so'z, qo'lda yozilgan
matnning butun jumlasi yoki ehtimol qo'lda yozilgan matnning butun
paragrafi bo'lishi mumkin.
2.O'quv to'plamini to'plang. O'quv to'plami funktsiyadan haqiqiy
foydalanishning vakili bo'lishi kerak. Shunday qilib, kirish ob'ektlari
to'plami yig'iladi, shuningdek, inson mutaxassislari yoki o'lchovlardan
tegishli chiqishlar yig'iladi.

3.O'rganilayotgan funktsiyaning kirish xususiyati tasvirini aniqlang.
O'rganilgan funktsiyaning aniqligi kirish ob'ekti qanday taqdim
etilishiga bog'liq. Odatda, kirish ob'ekti ob'ektni tavsiflovchi bir qator
xususiyatlarni o'z ichiga olgan xususiyatlar vektoriga aylantiriladi.
O'lchov la'nati tufayli funktsiyalar soni juda ko'p bo'lmasligi kerak;
ammo natijani aniq bashorat qilish uchun etarli ma'lumotni o'z ichiga
olishi kerak.
4.O'rganilayotgan funktsiyaning tuzilishini va tegishli o'rganish
algoritmini aniqlang. Masalan, muhandis qo'llab-quvvatlovchi vektorli
mashinalardan yoki qaror daraxtlaridan foydalanishni tanlashi
mumkin.
5.Dizaynni yakunlang. Yig'ilgan o'quv to'plamida o'quv algoritmini
ishga tushiring. Ba'zi boshqariladigan o'rganish algoritmlari
foydalanuvchidan ma'lum boshqaruv parametrlarini aniqlashni talab
qiladi. Ushbu parametrlarni o'quv to'plamining pastki qismining
ishlashini optimallashtirish (tasdiqlash to'plami deb ataladi) yoki o'zaro
tekshirish orqali sozlash mumkin.
6.O'rganilgan funktsiyaning aniqligini baholang. Sozlamalar va
treninglar o'rnatilgandan so'ng, natijada paydo bo'lgan funktsiyaning
ishlashi o'quv to'plamidan ajratilgan test to'plamida o'lchanishi kerak.
Algorit mni t anlash
Nazorat ostida o'rganish algoritmlarining keng doirasi mavjud,
ularning har biri o'zining kuchli va zaif tomonlariga ega. Barcha
nazorat ostida o'rganish muammolarini hal qilish uchun eng mos
keladigan yagona o'rganish algoritmi mavjud emas (bepul ovqatlanish
teoremasiga qarang).
Nazorat ostida o'qitishda e'tiborga olish kerak bo'lgan to'rtta asosiy
savol mavjud:
1.Tarafk ashlik v a dispersiy a o'rt asidagi k elishuv
Birinchi muammo-bu o'zaro kelishuv tarafkashlik va dispersiya.
Tasavvur qiling-a, bizda bir nechta turli xil, ammo bir xil darajada
yaxshi o'quv ma'lumotlari to'plamlari mavjud. O'quv algoritmi ma'lum

$bir kirish uchun ofsetdir {\displaystyle x}x agar ushbu ma'lumotlar to'plamlarining har birida o'qitishda {\displaystyle x}x uchun to'g'ri natijani bashorat qilishda muntazam ravishda noto'g'ri bo'lsa. o'quv to'plamlari. O'rganilgan tasniflagichni bashorat qilish xatosi o'rganish algoritmining siljishi va dispersiyasi yig'indisi bilan bog'liq.Odatda, tarafkashlik va og'ish o'rtasida kelishuv mavjud. Ma'lumotni yaxshi ishlashi uchun past darajadagi o'rganish algoritmi "moslashuvchan" bo'lishi kerak. Ammo agar o'rganish algoritmi juda moslashuvchan bo'lsa, u har bir o'quv ma'lumotlari to'plamiga har xil mos keladi va shuning uchun yuqori dispersiyaga ega bo'ladi. Ko'pgina nazorat ostida o'qitish usullarining asosiy jihati shundaki, ular ofset va og'ish o'rtasidagi ushbu kelishuvni tartibga solishga qodir (yoki avtomatik ravishda yoki foydalanuvchi sozlashi mumkin bo'lgan ofset / rad etish parametrini taqdim etish orqali). 2.Funk t siy alarning murak k abligi v a o'quv ma'lumot larining hajmi Ikkinchi muammo - "haqiqiy" funktsiyaning murakkabligi (klassifikator yoki regressiya funktsiyasi) bo'yicha mavjud bo'lgan o'quv ma'lumotlari soni. Agar haqiqiy funktsiya sodda bo'lsa, unda yuqori xato va past dispersiyaga ega bo'lgan" egiluvchan " o'rganish algoritmi uni oz miqdordagi ma'lumotlardan o'rganishi mumkin. Ammo agar haqiqiy funktsiya juda murakkab bo'lsa (masalan, u turli xil kirish funktsiyalari o'rtasidagi murakkab o'zaro ta'sirlarni o'z ichiga olganligi va kirish maydonining turli qismlarida boshqacha harakat qilganligi sababli), u holda funktsiya faqat "moslashuvchan" past darajadagi o'rganish algoritmi bilan birgalikda katta miqdordagi o'quv ma'lumotlari bilan o'qitilishi mumkin.va yuqori dispersiya . 3. Kirish may donining o'lchami Uchinchi muammo-kirish maydonining o'lchami. Agar kirish xususiyat vektorlari katta bo'lsa, funktsiyani o'rganish qiyin bo'lishi mumkin, hatto haqiqiy funktsiya faqat ushbu xususiyatlarning oz soniga bog'liq bo'lsa ham. Buning sababi shundaki, ko'plab "qo'shimcha" o'lchovlar o'rganish algoritmini chalkashtirib yuborishi va uning yuqori dispersiyasiga olib kelishi mumkin. Shuning uchun, katta hajmdagi kirishlar odatda tasniflagichni past dispersiya va yuqori xato chegarasi$

uchun sozlashni talab qiladi. Amalda, agar muhandis keraksiz
funktsiyalarni kirishdan qo'lda olib tashlashi mumkin bo'lsa, bu
o'rganilgan funktsiyaning aniqligini oshirishi mumkin. Bundan
tashqari, ko'plab algoritmlar mavjud uchinchi muammo - kirish
maydonining o'lchami. Agar kirish xususiyat vektorlari katta bo'lsa,
funktsiyani o'rganish qiyin bo'lishi mumkin, hatto haqiqiy funktsiya
faqat ushbu xususiyatlarning oz soniga bog'liq bo'lsa ham. Buning
sababi shundaki, ko'plab "qo'shimcha" o'lchovlar o'rganish algoritmini
chalkashtirib yuborishi va uning yuqori dispersiyasiga olib kelishi
mumkin.
4. Chiqish qiy mat larida shov qin
qayta o'qitish, ma'lumotlarning juda ehtiyotkorlik bilan o'rnatilishi
quyidagilarga olib keladi agar kerakli chiqish qiymatlari ko'pincha
noto'g'ri bo'lsa (inson xatosi yoki sensor xatolari tufayli), unda
o'rganish algoritmi o'quv misollariga to'liq mos keladigan funktsiyani
topishga urinmasligi kerak. Agar talab qilinadigan chiqish qiymatlari
ko'pincha noto'g'ri bo'lsa (inson xatosi yoki sensor xatolari tufayli),
unda o'rganish algoritmi funktsiyani topishga urinmasligi kerak
maqsadli o'zgaruvchilar, teskari savol-kerakli chiqish qiymatlaridagi
shovqin darajasi (mos yozuvlar . Agar siz o'rganmoqchi bo'lgan
xususiyat sizning o'rganish modelingiz uchun juda murakkab bo'lsa,
o'lchov xatolari (stoxastik shovqin) bo'lmasa ham, siz qayta
o'rganishingiz mumkin. Bunday vaziyatda maqsadli funktsiyaning
modellashtirilmaydigan qismi sizning o'quv ma'lumotlaringizni
"buzadi" - bu hodisa deyiladi . Agar siz o'rganmoqchi bo'lgan xususiyat
sizning o'rganish modelingiz uchun juda murakkab bo'lsa, o'lchov
xatolari (stoxastik shovqin) bo'lmasa ham, siz qayta o'rganishingiz
mumkin.

Y axshi foy dalanish uchun t izma regressiy asi
Ushbu mustaqil ishning maqsadi kutubxonalar taqdim etgan
narsalardan foydalanishdan ko'ra, tizma regressiyasidan yaxshiroq
foydalanishga imkon berishdir. Keyin: "tizma regressiyasi nima?”. Bu
savolga javob berishning eng oson usuli - "chiziqli regressiyaning
o'zgarishi". Eng yomon usul-ko'pchilik bir qarashda tushuna
olmaydigan quyidagi matematik tenglamalardan boshlash.
Yomon xabar shundaki, biz hali ham bu bilan shug'ullanishimiz kerak
va yaxshi xabar shundaki, biz hozir bo'lmasa ham, shunga o'xshash
tenglamalardan boshlamaymiz. Men boshlashni istagan narsa " oddiy
eng kichik kvadratchalar (OLS)'. Agar siz chiziqli regressiya haqida kam
ma'lumotga ega bo'lsangiz yoki umuman bilmasangiz, ushbu video
sizga "eng kichik kvadratlar usuli" yordamida qanday ishlashini
tushunishga yordam beradi. Endi bilasizki, OLS biz odatda "chiziqli
regressiya" deb ataydigan narsadir va men bu atamani shunday
ishlataman.
Dav om et ishdan oldin
Keyingi bo'limlarda men turli xil atamalar va raqamlar bilan turli xil
yondashuvlardan foydalanaman. Siz eslashni istagan ikkita narsa bor.
Birinchidan, biz qayta o'qitishni yoqtirmaymiz. Boshqacha qilib
aytganda, biz har doim umumiy naqshlarni qabul qiladigan modelni
afzal ko'ramiz. Yana biri shundaki, bizning maqsadimiz aniq
ma'lumotlarga emas, balki yangi ma'lumotlarga asoslanib bashorat
qilishdir. Shuning uchun modelni baholash berilgan ma'lumotlarga
(o'quv to'plamiga) emas, balki yangi ma'lumotlarga (test to'plamiga)

asoslangan bo'lishi kerak. Bundan tashqari, men quyidagi atamalarni
bir-birining o'rnida ishlataman.
 Mustaqil o'zgaruvchi = atribut = atribut = bashorat qiluvchi = X
 Koeffitsient = Beta = β
 Kvadratlarning qoldiq yig'indisi = RSS
Nima uchun va nima uchun OLS emas
Eng kichik kvadratlar usuli eng yaxshi va xolis koeffitsientlarni topadi
Siz bilishingiz mumkinki, eng kichik kvadratlar ma'lumotlarga eng mos keladigan
koeffitsientlarni topadi. Qo'shish kerak bo'lgan yana bir shart shundaki, u xolis
koeffitsientlarni ham topadi. Bu erda ochiq fikr OLS qaysi mustaqil
o'zgaruvchining boshqalardan ko'ra muhimroq ekanligini hisobga olmasligini
anglatadi. U faqat berilgan ma'lumotlar to'plami uchun koeffitsientlarni topadi.
Muxtasar qilib aytganda, faqat bitta beta to'plamini topish kerak, natijada eng
kichik "kvadratlarning qoldiq yig'indisi (RSS)'. Keyin savol tug'iladi: "eng kichik
RSS modeli haqiqatan ham eng yaxshi modelmi?”.
Ofset va burilish
Yuqoridagi savolga javob "aslida emas". "Xolis" so'zida aytilganidek, biz
"tarafkashlik" ni ham hisobga olishimiz kerak. Noto'g'ri bo'lish, model o'zining
bashoratchilariga qanchalik g'amxo'rlik qilishini anglatadi. Aytaylik, olma narxini
bashorat qilish uchun ikkita model mavjud, ikkita "shirinlik" va "yorqinlik"
bashoratchilari; bitta model xolis, ikkinchisi esa xolis.
Birinchidan, ob'ektiv model OLS usuli kabi ikkita funktsiya va narxlar o'rtasidagi
munosabatni topishga harakat qiladi. Ushbu model RSS-ni minimallashtirish
uchun kuzatuvlarga iloji boricha mos keladi. Biroq, bu osonlik bilan qayta
jihozlash muammolariga olib kelishi mumkin. Boshqacha qilib aytganda, model
yangi ma'lumotlar bilan bir xil ishlamaydi, chunki u berilgan ma'lumotlar uchun
shunchalik aniq qurilganki, u yangi ma'lumotlarga mos kelmasligi mumkin.

Xolis model har bir bashoratchini boshqacha qayta ishlash uchun o'zgaruvchilarini
notekis qabul qiladi. Misolga qaytsak, biz faqat modelni qurishning "yoqimliligi"
haqida qayg'urmoqchimiz va bu yangi ma'lumotlar bilan yaxshiroq ishlashi kerak.
Buning sababi tarafkashlik va dispersiya munosabatlarini tushungandan so'ng
tushuntiriladi. Agar siz tarafkashlik va dispersiya mavzusi bilan tanish
bo'lmasangiz, sizga fikr beradigan ushbu videoni tomosha qilishingizni maslahat
beraman.
Aytish mumkinki, tarafkashlik modelning o'quv to'plamiga mos kelmasligi va
og'ish modelning sinov to'plamiga mos kelmasligi bilan bog'liq. Ko'chirish va
dispersiya modelning murakkabligi bilan taqqoslaganda murosaga keladi, ya'ni
oddiy model yuqori siljish va past dispersiyaga ega bo'ladi va aksincha. Bizning
Apple misolimizda faqat "shirinlik" ni hisobga oladigan model "shirinlik" va
"yorqinlik" ni hisobga oladigan boshqa model kabi o'quv ma'lumotlariga mos
kelmaydi, ammo sodda model yangi ma'lumotlarni yaxshiroq bashorat qiladi.

Buning sababi shundaki," shirinlik "narxni belgilovchi omil hisoblanadi," porlash "
esa aql bilan bo'lmasligi kerak. Biz hammamiz buni inson sifatida bilamiz, ammo
matematik modellar biz kabi o'ylamaydi va shunchaki berilgan narsalarni hisoblab
chiqadi, chunki ular barcha bashoratchilar va mustaqil o'zgaruvchi o'rtasida
o'rganish ma'lumotlariga mos keladigan munosabatlarni topguncha.
* Eslatma: biz "shirinlik" va "porlash" o'zaro bog'liq emas deb taxmin qilamiz
Tepalik regressiyasi qayerda paydo bo'ladi
Ofsetning dispersiyaga bog'liqligi o'lchoviga qarab, y o'qi "xato" bo'lib, u "ofset va
dispersiya yig'indisi" dir. Ularning ikkalasi ham asosan nosozliklar bilan bog'liq
bo'lganligi sababli, biz ularni minimal darajada saqlamoqchimiz. Endi chizilgan
rasmga yana bir bor diqqat bilan qarasangiz, umumiy xato eng kichik bo'lgan joy
o'rtada ekanligini bilib olasiz. Bu ko'pincha "shirin nuqta" deb nomlanadi.
Eslatib o'tamiz, OLS barcha o'zgaruvchilarni bir xil (ochiq fikr bilan) boshqaradi.
Shunday qilib, yangi o'zgaruvchilar qo'shilishi bilan OLS modeli yanada
murakkablashadi. Aytish mumkinki, OLS modeli har doim rasmning o'ng
tomonida, eng kichik ofset va eng katta dispersiyaga ega. U erda mahkamlangan,
hech qachon harakat qilmaydi, lekin biz uni kerakli joyga ko'chirmoqchimiz. Bu
erda tizma regressiyasi porlaydi, bu regulyatsiya deb ham ataladi. Tepalik
regressiyasida siz lambda parametrini model koeffitsientlari o'zgarishi uchun
sozlashingiz mumkin.

Mav zu:Nazorat ost ida o’qit ish algorit mlari. Ridge Regression REJ A: 1 A mal qilish k erak bo'lgan qadamlar 2 A lgorit mni t anlash 3 Tarafk ashlik v a dispersiy a o'rt asidagi k elishuv

Nazorat ostida o'rganish (SL) - bu mavjud ma'lumotlar belgilangan misollardan iborat bo'lgan vazifalar uchun mashinani o'rganish paradigmasi, ya'ni har bir ma'lumot nuqtasida ob'ektlar (kovariatlar) va ular bilan bog'liq yorliq mavjud. Nazorat qilinadigan o'rganish algoritmlarining maqsadi i / u juftliklari misollari asosida ob'ekt vektorlarini (kirish ma'lumotlarini) yorliqlarga (chiqishlarga) xaritalaydigan funktsiyani o'rganishdir.U funktsiyani a dan chiqaradi boshqaruv signali kirish ob'ekti (odatda vektor) va kerakli chiqish qiymatidan iborat (shuningdek, deyiladi) juftlik nazorat ostida o'qitishda har bir misol ifodalaydi .o'quv misollari to'plamidan iborat o'quv ma'lumotlari, etiketlangan o'quv misollari to'plamidan tashkil topgan yorliqli o'quv ma'lumotlari. Nazorat ostida o'qitishda har bir misol kirish ob'ekti (odatda vektor) va kerakli chiqish qiymatidan (boshqaruv signali deb ham ataladi) iborat juftlikdir. A mal qilish k erak bo'lgan qadamlar Ushbu nazorat ostida o'rganish muammosini hal qilish uchun quyidagi amallarni bajarish kerak: 1.O'quv misollarining turini aniqlang. Boshqa hech narsa qilishdan oldin, foydalanuvchi qaysi ma'lumotlar o'quv to'plami sifatida ishlatilishini hal qilishi kerak. Masalan, qo'l yozuvi tahlilida bu bitta qo'lda yozilgan belgi, butun qo'lda yozilgan so'z, qo'lda yozilgan matnning butun jumlasi yoki ehtimol qo'lda yozilgan matnning butun paragrafi bo'lishi mumkin. 2.O'quv to'plamini to'plang. O'quv to'plami funktsiyadan haqiqiy foydalanishning vakili bo'lishi kerak. Shunday qilib, kirish ob'ektlari to'plami yig'iladi, shuningdek, inson mutaxassislari yoki o'lchovlardan tegishli chiqishlar yig'iladi.

3.O'rganilayotgan funktsiyaning kirish xususiyati tasvirini aniqlang. O'rganilgan funktsiyaning aniqligi kirish ob'ekti qanday taqdim etilishiga bog'liq. Odatda, kirish ob'ekti ob'ektni tavsiflovchi bir qator xususiyatlarni o'z ichiga olgan xususiyatlar vektoriga aylantiriladi. O'lchov la'nati tufayli funktsiyalar soni juda ko'p bo'lmasligi kerak; ammo natijani aniq bashorat qilish uchun etarli ma'lumotni o'z ichiga olishi kerak. 4.O'rganilayotgan funktsiyaning tuzilishini va tegishli o'rganish algoritmini aniqlang. Masalan, muhandis qo'llab-quvvatlovchi vektorli mashinalardan yoki qaror daraxtlaridan foydalanishni tanlashi mumkin. 5.Dizaynni yakunlang. Yig'ilgan o'quv to'plamida o'quv algoritmini ishga tushiring. Ba'zi boshqariladigan o'rganish algoritmlari foydalanuvchidan ma'lum boshqaruv parametrlarini aniqlashni talab qiladi. Ushbu parametrlarni o'quv to'plamining pastki qismining ishlashini optimallashtirish (tasdiqlash to'plami deb ataladi) yoki o'zaro tekshirish orqali sozlash mumkin. 6.O'rganilgan funktsiyaning aniqligini baholang. Sozlamalar va treninglar o'rnatilgandan so'ng, natijada paydo bo'lgan funktsiyaning ishlashi o'quv to'plamidan ajratilgan test to'plamida o'lchanishi kerak. Algorit mni t anlash Nazorat ostida o'rganish algoritmlarining keng doirasi mavjud, ularning har biri o'zining kuchli va zaif tomonlariga ega. Barcha nazorat ostida o'rganish muammolarini hal qilish uchun eng mos keladigan yagona o'rganish algoritmi mavjud emas (bepul ovqatlanish teoremasiga qarang). Nazorat ostida o'qitishda e'tiborga olish kerak bo'lgan to'rtta asosiy savol mavjud: 1.Tarafk ashlik v a dispersiy a o'rt asidagi k elishuv Birinchi muammo-bu o'zaro kelishuv tarafkashlik va dispersiya. Tasavvur qiling-a, bizda bir nechta turli xil, ammo bir xil darajada yaxshi o'quv ma'lumotlari to'plamlari mavjud. O'quv algoritmi ma'lum

bir kirish uchun ofsetdir {\displaystyle x}x agar ushbu ma'lumotlar to'plamlarining har birida o'qitishda {\displaystyle x}x uchun to'g'ri natijani bashorat qilishda muntazam ravishda noto'g'ri bo'lsa. o'quv to'plamlari. O'rganilgan tasniflagichni bashorat qilish xatosi o'rganish algoritmining siljishi va dispersiyasi yig'indisi bilan bog'liq.Odatda, tarafkashlik va og'ish o'rtasida kelishuv mavjud. Ma'lumotni yaxshi ishlashi uchun past darajadagi o'rganish algoritmi "moslashuvchan" bo'lishi kerak. Ammo agar o'rganish algoritmi juda moslashuvchan bo'lsa, u har bir o'quv ma'lumotlari to'plamiga har xil mos keladi va shuning uchun yuqori dispersiyaga ega bo'ladi. Ko'pgina nazorat ostida o'qitish usullarining asosiy jihati shundaki, ular ofset va og'ish o'rtasidagi ushbu kelishuvni tartibga solishga qodir (yoki avtomatik ravishda yoki foydalanuvchi sozlashi mumkin bo'lgan ofset / rad etish parametrini taqdim etish orqali). 2.Funk t siy alarning murak k abligi v a o'quv ma'lumot larining hajmi Ikkinchi muammo - "haqiqiy" funktsiyaning murakkabligi (klassifikator yoki regressiya funktsiyasi) bo'yicha mavjud bo'lgan o'quv ma'lumotlari soni. Agar haqiqiy funktsiya sodda bo'lsa, unda yuqori xato va past dispersiyaga ega bo'lgan" egiluvchan " o'rganish algoritmi uni oz miqdordagi ma'lumotlardan o'rganishi mumkin. Ammo agar haqiqiy funktsiya juda murakkab bo'lsa (masalan, u turli xil kirish funktsiyalari o'rtasidagi murakkab o'zaro ta'sirlarni o'z ichiga olganligi va kirish maydonining turli qismlarida boshqacha harakat qilganligi sababli), u holda funktsiya faqat "moslashuvchan" past darajadagi o'rganish algoritmi bilan birgalikda katta miqdordagi o'quv ma'lumotlari bilan o'qitilishi mumkin.va yuqori dispersiya . 3. Kirish may donining o'lchami Uchinchi muammo-kirish maydonining o'lchami. Agar kirish xususiyat vektorlari katta bo'lsa, funktsiyani o'rganish qiyin bo'lishi mumkin, hatto haqiqiy funktsiya faqat ushbu xususiyatlarning oz soniga bog'liq bo'lsa ham. Buning sababi shundaki, ko'plab "qo'shimcha" o'lchovlar o'rganish algoritmini chalkashtirib yuborishi va uning yuqori dispersiyasiga olib kelishi mumkin. Shuning uchun, katta hajmdagi kirishlar odatda tasniflagichni past dispersiya va yuqori xato chegarasi

uchun sozlashni talab qiladi. Amalda, agar muhandis keraksiz funktsiyalarni kirishdan qo'lda olib tashlashi mumkin bo'lsa, bu o'rganilgan funktsiyaning aniqligini oshirishi mumkin. Bundan tashqari, ko'plab algoritmlar mavjud uchinchi muammo - kirish maydonining o'lchami. Agar kirish xususiyat vektorlari katta bo'lsa, funktsiyani o'rganish qiyin bo'lishi mumkin, hatto haqiqiy funktsiya faqat ushbu xususiyatlarning oz soniga bog'liq bo'lsa ham. Buning sababi shundaki, ko'plab "qo'shimcha" o'lchovlar o'rganish algoritmini chalkashtirib yuborishi va uning yuqori dispersiyasiga olib kelishi mumkin. 4. Chiqish qiy mat larida shov qin qayta o'qitish, ma'lumotlarning juda ehtiyotkorlik bilan o'rnatilishi quyidagilarga olib keladi agar kerakli chiqish qiymatlari ko'pincha noto'g'ri bo'lsa (inson xatosi yoki sensor xatolari tufayli), unda o'rganish algoritmi o'quv misollariga to'liq mos keladigan funktsiyani topishga urinmasligi kerak. Agar talab qilinadigan chiqish qiymatlari ko'pincha noto'g'ri bo'lsa (inson xatosi yoki sensor xatolari tufayli), unda o'rganish algoritmi funktsiyani topishga urinmasligi kerak maqsadli o'zgaruvchilar, teskari savol-kerakli chiqish qiymatlaridagi shovqin darajasi (mos yozuvlar . Agar siz o'rganmoqchi bo'lgan xususiyat sizning o'rganish modelingiz uchun juda murakkab bo'lsa, o'lchov xatolari (stoxastik shovqin) bo'lmasa ham, siz qayta o'rganishingiz mumkin. Bunday vaziyatda maqsadli funktsiyaning modellashtirilmaydigan qismi sizning o'quv ma'lumotlaringizni "buzadi" - bu hodisa deyiladi . Agar siz o'rganmoqchi bo'lgan xususiyat sizning o'rganish modelingiz uchun juda murakkab bo'lsa, o'lchov xatolari (stoxastik shovqin) bo'lmasa ham, siz qayta o'rganishingiz mumkin.

Nazorat ostida o’qitish algoritmlari. Ridge Regression

08.08.2023

0

243 KB

Похожие