1. Verileri Gözden Geçirme ve İlk Hataları Tespit Etme
Her şeyden önce, veri temizlemeye başlamadan önce, verilerinizi gözden geçirmelisiniz. Verilerinizi incelediğinizde, eksik değerler, tutarsızlıklar veya yanlış formatlanmış bilgilerle karşılaşmanız mümkün. Bu, özellikle büyük veri setlerinde sıkça karşılaşılan bir durumdur.
Bu aşamada Python'da en çok kullandığınız araçlardan biri olan pandas’ı kullanarak veri setinizi daha rahat inceleyebilirsiniz:
```python
import pandas as pd
df = pd.read_csv('veri.csv')
print(df.head()) # İlk 5 satırı görüntüler
```
Bu basit kod parçası, verilerinizi anlamaya başlamak için iyi bir adım olacaktır.
2. Eksik Verilerle Başa Çıkma
Eksik veriler, veri analizi süreçlerinin en büyük engellerinden biridir. Ancak endişelenmeyin, eksik verilerle başa çıkmanın birkaç etkili yolu vardır. Verileri temizlerken, eksik verileri iki şekilde ele alabilirsiniz:
2. Eksik Verileri Silmek: Eğer eksik veri sayısı çok yüksekse, o satırları veya sütunları tamamen silebilirsiniz.
```python
# Eksik verileri ortalama ile doldurmak
df['fiyat'] = df['fiyat'].fillna(df['fiyat'].mean())
```
3. Verileri Formatlama ve Standartlaştırma
Veri setindeki bazı değerler, beklenen formatta olmayabilir. Örneğin, bir tarih sütunu DD/MM/YYYY formatında olabilirken, bir başka sütun YYYY-MM-DD formatında olabilir. Bu gibi durumlar, veri analizi ve modelleme sürecinde kafa karıştırıcı olabilir.
```python
# Tarih formatını değiştirmek
df['tarih'] = pd.to_datetime(df['tarih'], format='%d/%m/%Y')
```
Bu işlem, tüm tarihleri aynı formata dönüştürür ve analiz süreçlerinizi kolaylaştırır.
4. Tutarsız Değerlerle Başa Çıkma
Veri setindeki bazı değerler, yanlış girilmiş veya tutarsız olabilir. Örneğin, bir "yaş" sütununda negatif sayılar veya 200'ü geçen yaşlar yer alabilir. Bu tür hataları tespit etmek ve düzeltmek önemlidir.
# Yaşın 0'dan küçük ve 120'den büyük olduğu durumları bulalım
df = df[(df['yaş'] > 0) & (df['yaş'] < 120)]
```
5. Aykırı Değerleri Tespit Etme
Aykırı değerler, veri setinde yer alan ve genel trendin dışındaki verilerdir. Bu tür veriler, analizlerinizi yanıltabilir. Python'da aykırı değerleri tespit etmek için birkaç yöntem vardır. En yaygın kullanılan yöntemlerden biri boxplot grafiği kullanmaktır.
import seaborn as sns
sns.boxplot(x=df['fiyat'])
```
Bu şekilde, fiyatlarındaki aykırı değerleri hızlıca görebilirsiniz.
### Sonuç: Temiz Veri ile Daha İyi Sonuçlar
Veri temizleme, veri analizi sürecinin belki de en önemli adımıdır. Temizlenmiş verilerle yapılan analizler, size daha güvenilir sonuçlar ve daha anlamlı içgörüler sunar. Python'un güçlü araçlarıyla veri temizleme sürecini hem hızlı hem de verimli hale getirebilirsiniz. Unutmayın, her veri seti farklıdır ve her veri seti için temizleme süreci de değişiklik gösterebilir. Ancak bu adımları takip ederek, veri temizleme konusunda güçlü bir temel oluşturabilirsiniz.