R dasturlash tili
R dasturlash tili Reja: R dasturlash tili ............................................................................................................................................ 1 R bilan tanishtirish ....................................................................................................................................... 2 R dasturlash tili uchun misol ma'lumotlari .................................................................................................. 4 R dasturlash yordamida korrelyatsiya matritsasi yaratish ........................................................................... 6 Chiziqli regressiya modelini baholash uchun R dasturlash tilidan foydalanish ............................................ 6 R dasturlash yordamida tasodifiy raqamlarni yaratish ................................................................................ 7
R bilan tanishtirish R - bu statistik hisoblash va grafika uchun til va muhit. Bu Jon Chambers va uning hamkasblari tomonidan Bell Laboratories (avvalgi AT&T, hozir Lucent Technologies) da ishlab chiqilgan S tili va muhitiga o'xshash GNU loyihasidir . R ni S ning boshqa amalga oshirilishi deb hisoblash mumkin. Ba'zi muhim farqlar mavjud, ammo S uchun yozilgan ko'p kod R ostida o'zgarmagan holda ishlaydi. R turli xil statistik (chiziqli va chiziqli bo'lmagan modellashtirish, klassik statistik testlar, vaqt-seriyalarni tahlil qilish, tasniflash, klasterlash, …) va grafik usullarni taqdim etadi va juda kengaytiriladi. S tili ko'pincha statistik metodologiya bo'yicha tadqiqot uchun tanlangan vositadir va R ushbu faoliyatda ishtirok etish uchun ochiq manba yo'nalishini taqdim etadi. R ning kuchli tomonlaridan biri bu yaxshi ishlab chiqilgan nashr sifatiga ega syujetlarni, jumladan matematik belgilar va kerak bo‘lganda formulalarni ishlab chiqarish qulayligidir. Grafikadagi kichik dizayn tanlovlari uchun standart sozlamalarga katta e'tibor berilgan, ammo foydalanuvchi to'liq nazoratni saqlab qoladi. R bepul dasturiy ta'minot sifatida Erkin dasturiy ta'minot jamg'armasining GNU General Public License shartlariga muvofiq manba kodi shaklida mavjud . U turli xil UNIX platformalari va shunga o'xshash tizimlar (jumladan, FreeBSD va Linux), Windows va MacOS larni kompilyatsiya qiladi va ishlaydi. R muhiti R - ma'lumotlarni manipulyatsiya qilish, hisoblash va grafik ko'rsatish uchun dasturiy ta'minot vositalarining o'rnatilgan to'plami. O'z ichiga oladi samarali ma'lumotlarni qayta ishlash va saqlash vositasi; massivlar, xususan matritsalar bo'yicha hisob-kitoblar uchun operatorlar to'plami; ma'lumotlarni tahlil qilish uchun oraliq vositalarning katta, izchil, integratsiyalashgan to'plami; ma'lumotlarni tahlil qilish va ekranda yoki qog'ozda ko'rsatish uchun grafik vositalar va yaxshi ishlab chiqilgan, sodda va samarali dasturlash tili bo'lib, u
shartli shartlar, tsikllar, foydalanuvchi tomonidan belgilangan rekursiv funktsiyalar va kirish va chiqish moslamalarini o'z ichiga oladi. "Atrof-muhit" atamasi uni boshqa ma'lumotlarni tahlil qilish dasturlarida bo'lgani kabi juda o'ziga xos va moslashuvchan vositalarning bosqichma-bosqich to'planishi emas, balki to'liq rejalashtirilgan va izchil tizim sifatida tavsiflash uchun mo'ljallangan. R, xuddi S kabi, haqiqiy kompyuter tili atrofida ishlab chiqilgan va u foydalanuvchilarga yangi funktsiyalarni belgilash orqali qo'shimcha funktsiyalarni qo'shish imkonini beradi. Tizimning ko'p qismi o'zi S ning R dialektida yozilgan bo'lib, bu foydalanuvchilarga algoritmik tanlovlarni kuzatishni osonlashtiradi. Hisoblash intensiv vazifalari uchun C, C++ va Fortran kodlari ulanishi va ish vaqtida chaqirilishi mumkin. Ilg'or foydalanuvchilar to'g'ridan-to'g'ri R obyektlarini boshqarish uchun C kodini yozishlari mumkin. Ko'pgina foydalanuvchilar R ni statistika tizimi deb bilishadi. Biz buni statistik usullar amalga oshiriladigan muhit sifatida ko'rishni afzal ko'ramiz. R paketlar orqali kengaytirilishi mumkin (osonlik bilan) . R tarqatish bilan ta'minlangan sakkizga yaqin paketlar mavjud va yana ko'plari zamonaviy statistikaning juda keng doirasini qamrab oluvchi Internet saytlarining CRAN oilasi orqali mavjud. R o'zining LaTeX-ga o'xshash hujjat formatiga ega bo'lib, u bir qator formatlarda ham, qog'oz nusxada ham on-layn rejimda keng qamrovli hujjatlarni taqdim etish uchun ishlatiladi. R dasturlash tili tahlilchilar tez-tez foydalanadigan kuchli va bepul statistik dasturiy vositadir. R dasturlash tili ochiq kodli dasturiy ta'minot bo'lib, u erda R hamjamiyati uni ishlab chiqadi va qo'llab-quvvatlaydi, foydalanuvchilar esa uni bepul yuklab olishlari mumkin. Ochiq manba bo'lish ko'plab afzalliklarni beradi, jumladan, quyidagilar: Yangi statistik usullar tezda mavjud, chunki R hamjamiyati keng va faoldir.
Har bir funktsiya uchun manba kodi bepul mavjud va uni hamma ko'rib chiqishi mumkin. R dasturlash tilidan foydalanish bepul! Bu SAS, STATA va SPSS kabi nisbatan qimmat statistik vositalar uchun muhim afzallikdir. Ushbu maqolada men R funksiyalaridan foydalangan holda haqiqiy ma'lumotlar to'plamiga asosiy statistik tushunchalarni qo'llash orqali R dasturlash tilining kuchli tomonlari haqida qisqacha ma'lumot beraman. Agar siz misollarga amal qilmoqchi bo'lsangiz, ushbu maqolada ko'rsatilgan kodlarni R yoki RStudio-ga nusxalashingiz va joylashtirishingiz mumkin. Barcha kodlar 100% takrorlanishi mumkin. Keling, unga sho'ng'iymiz! R dasturlash tili uchun misol ma'lumotlari Ushbu maqolaning birinchi qismida biz iris ma'lumotlar to'plamini R. Ronald Fisher, biolog va statistik 1936 yilda taqdim etgan iris gullari ma'lumotlar to'plamiga yuklaymiz. Unda gul o'lchovlari mavjud. Ma'lumotlar to'plamini yuklab olgandan so'ng, quyidagi kodni bajarish orqali uni R ga yuklang: data(iris) # Loading iris flower data as example data set Keyinchalik, bosh funksiyasidan foydalanib, iris gullari ma'lumotlarining tuzilishini tekshirishimiz mumkin. Head funktsiyasi ma'lumotlar to'plamining faqat birinchi olti qatorini qaytaradi: head(iris) # Printing first six rows of iris data set Ushbu jadval misol ma'lumotlarimizning dastlabki olti qatorini ko'rsatadi va bizning ma'lumotlarimizda beshta o'zgaruvchi borligini ko'rsatadi: "Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width" va "Turlar".
Birinchi to'rtta o'zgaruvchi raqamli qiymatlarni o'z ichiga oladi va beshinchi o'zgaruvchi bizning ma'lumotlarimizni turli gul turlariga guruhlaydi. Keyingi bo'limlarda biz ushbu ma'lumotlarni tahlil qilamiz - Shuning uchun o'qishda davom eting! Ma'lumotlar to'plami uchun asosiy tavsiflovchi statistikani hisoblash uchun R funksiyalaridan foydalanish Quyidagi sintaksis ma'lumotlar to'plamidagi barcha o'zgaruvchilar uchun tavsiflovchi statistik ma'lumotlar to'plamini qanday hisoblashni ko'rsatadi. Ushbu vazifa uchun biz quyida ko'rsatilgandek xulosa funksiyasini qo'llashimiz mumkin: summary(iris) # Return summary statistics Ushbu jadvalda bizning ma'lumotlarimizdagi raqamli ustunlar uchun minimal, 1- kvantil, median, o'rtacha, 3-kvantil va maksimal qiymatlar va raqamli bo'lmagan ustunlar uchun har bir toifaning hisobi mavjud. Ushbu ma'lumot bizga o'zgaruvchilarimiz uchun ma'lumotlar taqsimoti haqida umumiy ma'lumot beradi. Biroq, biz ma'lumotlarimizni batafsilroq tahlil qilishimiz mumkin! Tegishli xabarlar : Markaziy tendentsiya o'lchovlari va foizlar va kvartillarni sharhlash R yordamida guruh bo'yicha tavsiflovchi statistikani hisoblash Oldingi bo'limlarda ko'rganingizdek, bizning ma'lumotlar to'plamimiz kuzatishlarni uchta gul turi bo'yicha guruhlaydi: setoza, versicolor va virginica. Shuning uchun, turli xil gul turlarining tavsifiy statistikasini solishtirish qiziqarli bo'lishi mumkin . Quyidagi R kodi Sepal.Length o‘zgaruvchisi uchun guruh bo‘yicha o‘rtachani (ya’ni gul turlarini) hisoblash uchun agregat va o‘rtacha funksiyalardan foydalanadi: