logo

Daslabki ma’lumotlarga ishlov berish. Ma’lumotlar tahlili. Ma’lumotlarni tayyorlash.

Yuklangan vaqt:

08.08.2023

Ko'chirishlar soni:

0

Hajmi:

470.1943359375 KB
Daslabki ma’lumotlarga ishlov berish.   Ma’lumotlar tahlili.
Ma’lumotlarni tayyorlash.
Reja:
1. Fayldan ma’lumotlarni o’qish
2. Fayllarga ma’lumotlarni yozish.
3. HDF5   formati. 1. Fayllar bilan ishlash.
1.1  Fayldan ma’lumotlarni o’qish.
Pandas   kutubxonasi fayllar bilan ishlaydigan bir nechta funksiyalardan 
iborat .
 read_csv   - vergul bilan ajratilgan jadval fayllarni o'qish uchun
 read_table   - probel (bo'sh joy) bilan ajratilgan jadval fayllarni o'qish
uchun
 read_excel   -   xls   yoki   xlsx   formatidagi   Excel   fayllarni o'qish uchun
 read_clipboard   - ko'chirilgan (xotiradagi) jadvalni o'qish
 read_hdf   -   HDF5   formatidagi fayllarni o'qish
 read_html   - HTML (web) sahifadagi barcha jadvallarni o'qish
 read_json   -   JSON   ma'lumotlarni o'qish
 read_pickle   - pickle formatidagi fayllarni o'qish
 read_sql   - SQL query dan qaytgan ma'lumotlarni o'qish 
(SQLAlchemy bilan ishlayd)
Yuqoridagi funksiyalarning deyarlari barchasining ishlashi juda o'xshash, 
muhimi, to'g'ri formatdagi faylni ko'rsatish va turli qo'shimcha 
parametrlardan foydalangan xolda jadvalni to'g'ri yaratib olish.
Fayl kompyuterdagi yoki onlinedagi fayl bo'lishi mumkin. Dars 
davomida Githubda joylashgan turli fayllardan foydalanamiz. Siz kerakli 
faylni kompyuterga yuklab olib, Jupyter Notebookda ochishingiz mumkin .
Agar kerakli fayl Jupyter Notebook fayli joylashgan papkada bo’lsa 
shunchaki nomini yozamiz. Fayl manbaasi sifatida internetdagi faylni ham ko'rsatishimiz mumkin. 
Bunda albatta faylga to'g'ridan-to'g'ri bog'lama (link) talab qilinadi.
GitHubdagi fayllarga to'g'ridan-to'g'ri link olish uchun keraklai faylni 
tanlang va   Raw   tugmasini bosing.
Pandas yangi ochilgan jadvalning qatorlariga avtomat ravishda 0 dan 
boshlab indeks beradi. Agar siz indeks sifatida fayldagi jadvalning biror 
ustunini ishlatmoqchi bo'lsangiz, ustun tartib raqamini   index_col   parametri 
yordamida ko'rsatishingiz mumkin. .nrows   parametri yordamida jadvaldan faqatgina sanoqli qatorlarni 
o'qish mumkin. Bu katta jadvallar bilan ishlash uchun qulay. 
Pandasda fayllarni o'qishda 50 ga yaqin parametrlarni ko'rsatish 
mumkin. To'liq ro'yxat bilan quyidagi sayt orqali tanishish mumkin: 
pandas.pydata.org.
1.2 Fayllarga ma’lumotlarni yozish.
Fayllarga ma’lumotlarni yozish uchun dastlab birorta faylni chaqirib 
olamiz. Faylni chaqirib olgandan so’ng “to” buyrug’i orqali biror faylga yozamiz.
Series   obyektini ham faylga yozishimiz mumkin. Dastlab, Series 
obyektini yaratib olamiz.
Series obyektini fayldan o’qilganda avtomatik DataFramega aylanadi, buni 
o’zgartirish uchun squeeze parametridan foydalanamiz. Biz DataFrameni faylga saqlashda faqat kerakli ustunlarini saqlashimiz 
mumkin.
1.3 HDF5   formati.
HDF5   formati   ilmiy   tadqiqodlar   qilishda   katta   hajmdagi   ma'lumotlarni
saqlash   uchun   keng   ishlatiladigan   formatlardan   hisoblanadi.   HDF5   fayllarni
nafaqat Python, balki Java, Julia, Matlab va boshqa dasturlash tillarida ochish
mumkin.   HDF   -   hierarchial   data   format   (irarxiyali   ma'lumotlar   formati)
hisoblanib,   tarkibida   bir   nechta   datasetlarni   siqilgan   holatda   saqlashi mumkin.   HDF   formatida   fayllarni   saqlash   uchun   avval   HDF   obyketini
yaratamiz:
“hd”   fayliga   .put   metodi   yordamida   “df”   va   “df2”   DataFramelarini   mos
ravishda ‘country’ va ‘cardata’ kalit so’zlari bilan yozamiz.
“hd” faylidagi DataFramega murojaat qilish uchun quyidagicha yo’l tutamiz.
1.4 Web fayllar bilan ishlash
Read_html()   - web sahifadagi barcha jadvallarni o'qib, DataFramelardan 
iborat ro'yxat ko'rinishida qaytaradi.
“data”   tarkibida sahifadagi barcha jadvallar 
alohida   DataFrame   ko'rinishida saqlangan. Jadvallar sonini ko'rish 
uchun   len()   funksiyasiga murojaat qilamiz. Yuqoridagi data tarkibida 9 ta DataFrame bor ekan. Alohida 
DataFramelarga indeks orqali murojaat qilishimiz mumkin. Ba'zida kerakli 
jadvallarni topguncha bir necha indekslarni qarab chiqish talab qilinishi 
mumkin.
1.5 JSON format.
JSON web orqali ma'lumotlarni uzatishda ishlatiluvchi eng mashhur 
formatlardan biri. Foydalanilgan adabiyotlar
1. Wolfgang   Ertel.   “Introduction   to   Artificial   Intelligence”.   Germany-
2017.
2. Joshua   Eckroth.   “Python   Artificial   Intelligence   Projects   for
Beginners”.Birmingham 2018.
3. Nigmatov H. “Intellektual tizimlar”. Toshkent-2019.
4. А.В.   Гаврилов.   Системы   искусственного   интеллекта.   Учебное
пособие, ч. 1. - Новосибирск, НГТУ, 2000.  – 115 с.
5. Интеллектуалные системы и их моделирование. - М.: Наука, 1986.
–с. 25-125.
6. Искусственный   интеллект.   Применение   в   интегрированных
производственных   системах.   Под   ред.   Э.Кюсиака.   -   М.:
Машиностроение, 1991.  – с.40-70.
7. Искусственный интеллект. Справочник в 3-х томах. - М.: Радио и
связ, 1990.  – с.30-140.

Daslabki ma’lumotlarga ishlov berish. Ma’lumotlar tahlili. Ma’lumotlarni tayyorlash. Reja: 1. Fayldan ma’lumotlarni o’qish 2. Fayllarga ma’lumotlarni yozish. 3. HDF5 formati.

1. Fayllar bilan ishlash. 1.1 Fayldan ma’lumotlarni o’qish. Pandas kutubxonasi fayllar bilan ishlaydigan bir nechta funksiyalardan iborat .  read_csv - vergul bilan ajratilgan jadval fayllarni o'qish uchun  read_table - probel (bo'sh joy) bilan ajratilgan jadval fayllarni o'qish uchun  read_excel - xls yoki xlsx formatidagi Excel fayllarni o'qish uchun  read_clipboard - ko'chirilgan (xotiradagi) jadvalni o'qish  read_hdf - HDF5 formatidagi fayllarni o'qish  read_html - HTML (web) sahifadagi barcha jadvallarni o'qish  read_json - JSON ma'lumotlarni o'qish  read_pickle - pickle formatidagi fayllarni o'qish  read_sql - SQL query dan qaytgan ma'lumotlarni o'qish (SQLAlchemy bilan ishlayd) Yuqoridagi funksiyalarning deyarlari barchasining ishlashi juda o'xshash, muhimi, to'g'ri formatdagi faylni ko'rsatish va turli qo'shimcha parametrlardan foydalangan xolda jadvalni to'g'ri yaratib olish. Fayl kompyuterdagi yoki onlinedagi fayl bo'lishi mumkin. Dars davomida Githubda joylashgan turli fayllardan foydalanamiz. Siz kerakli faylni kompyuterga yuklab olib, Jupyter Notebookda ochishingiz mumkin . Agar kerakli fayl Jupyter Notebook fayli joylashgan papkada bo’lsa shunchaki nomini yozamiz.

Fayl manbaasi sifatida internetdagi faylni ham ko'rsatishimiz mumkin. Bunda albatta faylga to'g'ridan-to'g'ri bog'lama (link) talab qilinadi. GitHubdagi fayllarga to'g'ridan-to'g'ri link olish uchun keraklai faylni tanlang va Raw tugmasini bosing. Pandas yangi ochilgan jadvalning qatorlariga avtomat ravishda 0 dan boshlab indeks beradi. Agar siz indeks sifatida fayldagi jadvalning biror ustunini ishlatmoqchi bo'lsangiz, ustun tartib raqamini index_col parametri yordamida ko'rsatishingiz mumkin.

.nrows parametri yordamida jadvaldan faqatgina sanoqli qatorlarni o'qish mumkin. Bu katta jadvallar bilan ishlash uchun qulay. Pandasda fayllarni o'qishda 50 ga yaqin parametrlarni ko'rsatish mumkin. To'liq ro'yxat bilan quyidagi sayt orqali tanishish mumkin: pandas.pydata.org. 1.2 Fayllarga ma’lumotlarni yozish. Fayllarga ma’lumotlarni yozish uchun dastlab birorta faylni chaqirib olamiz.

Faylni chaqirib olgandan so’ng “to” buyrug’i orqali biror faylga yozamiz. Series obyektini ham faylga yozishimiz mumkin. Dastlab, Series obyektini yaratib olamiz. Series obyektini fayldan o’qilganda avtomatik DataFramega aylanadi, buni o’zgartirish uchun squeeze parametridan foydalanamiz.