Polinomli regressiya algoritmi asosida model yaratish


Mavzu: Polinomli regressiya algoritmi asosida model yaratish . Mundareja: Iqtisodiy obyektni shakllantirish .............................................................................................................. 1 Obyekt ustida ma’lumotlar tahlili ............................................................................................................ 2 Model ishlab chiqish uchun algoritmning tahlili amalga oshirish ............................................................. 5 Python dasturlash tilida modelni realizatsiya qilish ( Sklearn moduli ) .................................................... 6 Modelni baholaydi( MAE, RMSE, R-kvadrat) ............................................................................................ 8 Python dasturlash tili orqali natijalarni garafik tasvirini yaratish ( MatPlotlib moduli ) ............................ 8 Iqtisodiy obyektni shakllantirish Birinchi qadamda biz iqtisodiy obyekt tanlab oldek buning uchun tibbiyotga doir ma’lumotlarni o’zida jamlagan va quyidagi xususiyatlarga ega bo’lgan obyektda ma’lumotlar to’plamini shakllantirdek: Bizning obyektimizda 1337 ta satrdan iborat ma’lumotlar to’plamini shakllantirib oldek.
Obyekt ustida ma’lumotlar tahlili Bu qadamda bizning obyektimizdagi NaN qiymatlarni bartaraf etish, xususiyatlarning korrelyatsion tahlili, normallashtirish, ma’lumotlar to’plamini test va o’quv to’plamlariga bo’lish kabi amallarni bajarishimiz kerak bo’ladi. Buning uchun Python dasturlash tilidagi Pandas modulidan foydalanamiz. Pandas - bu ochiq manbali kutubxona bo'lib, u asosan aloqador yoki etiketli ma'lumotlar bilan oson va intuitiv tarzda ishlash uchun yaratilgan. U turli xil ma'lumotlar tuzilmalari va raqamli ma'lumotlar va vaqt seriyalarini manipulyatsiya qilish uchun operatsiyalarni taqdim etadi. Bu kutubxona NumPy kutubxonasi ustiga qurilgan. Pandas tez va u foydalanuvchilar uchun yuqori unumdorlikka ega. Dastlab bu modulni ishchi muhitga o’rnatib olishimiz kerak bo’ladi. Buning uchun terminalga quyidagi buyruqni yozamiz: pip install pandas Biz esa google colabdan foydalanamiz, unda yangi loyiha yaratamiz, ma’lumotlar to’plamimizni esa google diskka yuklab loyihada uni chaqirib olamiz: import pandas as pd # pandas kutubxonasi import qilindi df = pd.read_excel ("./Zayniddin exsel.xlsx", index_col= 0 ) # data yuklandi df #data chop qilindi natija: Butun DataFrame bo’yicha ma’lumot olamiz. Endi Nan qiymatlarni bartaraf etish malasini ko’rib chiqamiz. Pandas modulida DataFrame bilan ishlash uchun mo’ljallangan isnull() funksiyasi mavjud bu har bir qiymatni tekshiradi biz uni quyidagicha qo’llaymiz:
import pandas as pd # pandas kutubxonasi import qilindi df = pd.read_excel ("./Zayniddin exsel.xlsx”, index_col= 0 ) # data yuklandi df.isnull () .values. any () # data tekshirildi df.isnull () .values. any () Bu kod mantiqiy qiymat qaytaradi(rost yoki yolg’on). Agar rost bo’lsa bo’sh qiymat mavjud aks holda bo’sh qiymat yo’q bo’ladi. Ma’lumotlar to’plamini normallashtirish: Raqamli xususiyatlarni umumiy miqyosga keltirish uchun masshtablash, kattaroq kattalikdagi xususiyatlarni modelda hukmronlik qilishiga yo‘l qo‘ymaydi. Ma’lumotlarni normallashtirish usullariga quyidagilarni misol keltirishimiz mumkin: Masshtablash yoki Min-Max Scaling. Masshtablash ma’lumotlarni 0-100 yoki 0-1 kabi ma’lum bir shkalaga mos keladigan tarzda o‘zgartirishni anglatadi Buning uchun ko‘chmas mulk ma’lumotlar to’plamidagi biror ustun qiymatlarining min( xmin ) va max( xmax ) qiymatlari topiladi. Keyin esa ustundagi har bir qiymat x quyidagi (1) formula asosida hisoblab chiqiladi:xyangi = x− xmin xmax − xmin Bu bizga ma’lumotlar ustida ishlash davomida vaqt jihatdan yutishga imkon beradigan usuldir. Bizning ma’lumotlar to’plamimizda bizga kerakli hamma ma’lumotlar normallashtirilgan ko’rinishdadir. Endi xususiyatlarning korrelyatsion tahlili amalga oshiramiz. Korrelyatsiya – bu Datasetdagi xususiyatlar o’rtasidagi bir – biri bilan bog’liqlik darajasining koeffitsyentidir. import pandas as pd # pandas kutubxonasi import qilindi df = pd.read_excel ("./Zayniddin exsel .xlsx" , index_col= 0 ) # data yuklandi df.corr () #xususiyatlarning korrelyatsiyasi natija:
Ko’rib turinibniki faqat raqam turidagi ma’lumotlar o’rtasidagi korrelyatsiya tahlilini amalga oshirmoqda. Bizga Satr turidagi ma’lumotni tahlil qilish uchun satrli ma’lumotni raqamli turga o’g’irishimiz kerak. jinsi = { 'ayol' : 1 , 'erkak' : 2 } df.jins = [jinsi[item] for item in df.jins ] df natija: Endi Datasetdagi barcha ma’lumotlar raqamli turga o’tdi. Korrelyatsiya tahlilini qayta o’tkazamiz: