Adım 1: Veri Setinizi İnceleyin
Veri temizliğine başlamadan önce, çalıştığınız veri setini iyi anlamalısınız. Bu adım, verilerdeki eksiklikleri, hatalı değerleri ve tutarsızlıkları görmek için oldukça önemlidir.
Python'da veri setinizi incelemek için en yaygın kullanılan kütüphaneler Pandas ve NumPy'dir. Bu araçlarla veri setinizi hızlıca yükleyebilir ve genel özelliklerini inceleyebilirsiniz.
```python
import pandas as pd
# Veri setini yükleyin
veri = pd.read_csv("veri_seti.csv")
# İlk birkaç satırı görüntüleyin
print(veri.head())
# Veri seti hakkında genel bilgi
print(veri.info())
```
Bu adımda, veri setindeki sütunları ve veri tiplerini gözden geçirebilir, eksik verileri ve hatalı kayıtları tespit edebilirsiniz.
Adım 2: Eksik Verilerle Başa Çıkın
Veri setlerindeki eksik veriler, genellikle analizler için büyük bir engel oluşturur. Pandas, eksik verileri kolayca tespit etmenizi sağlar. Eksik verilerle başa çıkmanın birkaç yolu vardır:
1. Eksik verileri kaldırmak: Bu, eğer eksik veri oranı düşükse ve eksik olan satırlar analiz için önemli değilse tercih edilebilir.
```python
# Eksik verileri içeren satırları sil
veri = veri.dropna()
```
2. Eksik verileri doldurmak: Eksik verileri ortalama, medyan ya da diğer uygun değerlerle doldurabilirsiniz.
```python
# Eksik verileri ortalama ile doldur
veri['sütun_adı'] = veri['sütun_adı'].fillna(veri['sütun_adı'].mean())
```
Eksik verilerle nasıl başa çıktığınız, veri setinizin yapısına ve analiz amacınıza göre değişebilir. Bu yüzden her iki seçeneği de dikkatlice değerlendirmeniz önemlidir.
Adım 3: Hatalı Değerleri Düzeltilmesi
Veri setinizde bazen yanlış ya da tutarsız değerler bulunabilir. Örneğin, yaş sütununda 200 gibi mantıksız bir değer olabilir. Bu tür hatalı değerleri tespit etmek için verilerinizi gözden geçirebilirsiniz.
Python'da, Pandas ile belirli değerleri filtreleyerek bu hataları kolayca tespit edebilirsiniz:
```python
# Hatalı değeri tespit et
veri[veri['yaş'] > 100]
```
Bu tür hatalı verileri, uygun bir değerle değiştirebilir ya da satırı kaldırabilirsiniz.
Adım 4: Kategorik Verileri Düzenleyin
Veri setinde bazı kategorik veriler (örneğin, "Evet" ve "Hayır") karışık şekilde yazılmış olabilir. Bu, analizlerinizi zorlaştırabilir. Bu durumda, kategorik verilerinizi tek bir biçime sokmak iyi bir fikir olacaktır.
```python
# Kategorik verileri düzelt
veri['sütun_adı'] = veri['sütun_adı'].replace({'Evet': 1, 'Hayır': 0})
```
Bu sayede, tüm kategorik değerler tutarlı bir şekilde sayısal verilere dönüştürülmüş olur.
Adım 5: Veri Normalizasyonu ve Standartlaştırma
Veri setinizdeki sayısal verilerin farklı ölçeklerde olması, bazı algoritmaların performansını olumsuz etkileyebilir. Bu nedenle, verilerinizi normalleştirmeniz veya standartlaştırmanız gerekebilir. Bunun için sklearn.preprocessing modülünü kullanabilirsiniz.
```python
from sklearn.preprocessing import MinMaxScaler
# Normalizasyon
scaler = MinMaxScaler()
veri['normalizasyon'] = scaler.fit_transform(veri[['sütun_adı']])
```
Bu adım, özellikle makine öğrenmesi algoritmalarını kullanırken oldukça faydalıdır.
Adım 6: Veri Setinizi Son Haline Getirin
Son olarak, tüm temizleme işlemleri bittiğinde, veri setiniz artık daha düzenli ve analizlere uygun hale gelmiş olmalıdır. Bu noktada, veri setinizi kaydedebilir ve bir sonraki adımda kullanabilirsiniz.
```python
# Veri setini kaydet
veri.to_csv("temizlenmis_veri.csv", index=False)
```
Bu adımla, temizlenmiş veri setinizi dışa aktarabilirsiniz.
Sonuç olarak, veri temizleme süreci, veri bilimi ve makine öğrenmesi projelerinin en kritik aşamalarından biridir. Python ile veri temizleme, doğru araçları ve yöntemleri kullanarak, verilerinizi en iyi hale getirebilirsiniz. Yukarıdaki adımları izleyerek, veri setinizi analiz için hazır hale getirebilir ve başarılı projeler geliştirebilirsiniz!