Pandas ve NumPy ile Veri Manipülasyonuna Giriş
Örneğin, diyelim ki büyük bir veri setiniz var ve bu veri setinde eksik değerler, hatalı formatlar ve fazla boşluklar bulunuyor. Pandas, bu gibi problemleri kolayca çözmenize yardımcı olabilir. NumPy ile sayısal hesaplamaları hızlı bir şekilde yapabilir, Pandas ile verinizi temizleyip analiz edebilirsiniz.
Veri Temizleme ve Manipülasyonu: Pandas ile Güçlü Çözümler
# 1. Eksik Verilerle Çalışmak
```python
import pandas as pd
# Veri setini yükleyelim
data = pd.read_csv('veri.csv')
# Eksik verileri kontrol edelim
print(data.isnull().sum())
# Eksik verileri ortalama ile dolduralım
data.fillna(data.mean(), inplace=True)
```
Yukarıdaki örnekte, eksik değerleri veri setindeki ortalama değerle doldurduk. Bu, eksik verilerle başa çıkmanın yaygın bir yoludur.
# 2. Veri Filtreleme ve İleri Düzey Seçim Teknikleri
```python
# 'Yaş' sütunu 30'dan büyük olan kişileri seçelim
filtered_data = data[data['Yaş'] > 30]
```
Bu şekilde, sadece belirli koşullara uyan verileri hızlıca seçebiliriz.
NumPy ile Hızlı Sayısal Hesaplamalar
```python
import numpy as np
# NumPy dizisi oluşturma
arr = np.array([1, 2, 3, 4, 5])
# Dizinin tüm elemanlarını iki katına çıkaralım
arr = arr * 2
print(arr)
```
NumPy'nin hızlı ve verimli hesaplama yapma yeteneği, büyük veri setlerinde bile işlem süresini önemli ölçüde kısaltır.
Pandas ve NumPy’nin Birlikte Gücü
# 1. Veri Manipülasyonu ve Matematiksel Hesaplamalar
import numpy as np
import pandas as pd
# Veri setini Pandas ile yükleyelim
data = pd.read_csv('veri.csv')
# NumPy dizisine dönüştürelim
numerical_data = np.array(data['Gelir'])
# Her geliri %10 artırarak yeni bir sütun ekleyelim
data['Gelir Artış'] = numerical_data * 1.10
print(data.head())
```
Bu örnekte, gelir sütunundaki verilerin %10 artırılmasını sağladık ve bunu Pandas ve NumPy’nin gücüyle kolayca yaptık.
İleri Düzey Veri Manipülasyonu Teknikleri
# 1. Veri Birleştirme
```python
# İki veri setini birleştirelim
merged_data = pd.merge(data1, data2, on='ID', how='inner')
```
Bu işlemle, belirli bir ortak sütuna (bu örnekte 'ID') göre iki veri setini birleştirebilirsiniz.
# 2. Gruplama ve Pivot Tabloları
```python
# 'Bölge'ye göre gelirleri gruplayalım
grouped_data = data.groupby('Bölge')['Gelir'].sum()
print(grouped_data)
```
Ayrıca, pivot tablolar ile veriyi daha kolay analiz edebiliriz:
```python
pivot_table = data.pivot_table(values='Gelir', index='Bölge', columns='Yıl', aggfunc='sum')
print(pivot_table)
```
Sonuç olarak
Veri bilimi yolculuğunuzda bu araçları kullanarak başarıya ulaşabilirsiniz. Pandas ve NumPy ile her bir veri adımını doğru şekilde atarak, veriyi şekillendirmenin ustalığını kazanabilirsiniz.