Python’da Veri Analizinin Temelleri
Veri analizine başlamak için önce verileri nasıl işleyeceğimizi bilmemiz gerekir. Python, bu konuda oldukça güçlü bir dil. Ancak işin içine Pandas, NumPy gibi kütüphaneler girince işin rengi değişiyor. Bu kütüphaneler, verileri daha hızlı ve verimli bir şekilde işleyebilmemizi sağlıyor.
import pandas as pd
# CSV dosyasını yükleyelim
df = pd.read_csv('veri.csv')
# Verinin ilk 5 satırını görelim
print(df.head())
Bu kadar basit! Veriyi yükledikten sonra, NumPy'yi kullanarak matematiksel işlemleri de çok rahat bir şekilde gerçekleştirebiliriz. Python’un bu güçlü kütüphaneleri, veri analizi sürecini hem kolaylaştırır hem de hızlandırır.
Veri Temizleme ve Hazırlama
Veri analizi yaparken karşımıza en çok çıkan engellerden biri "kirli veriler"dir. Eksik veriler, yanlış formatlar veya hatalı veriler, her veri bilimcisinin karşılaştığı yaygın sorunlardır. Neyse ki Python, bu tür sorunlarla başa çıkmada bize yardımcı olacak birçok araç sunar.
# Eksik verileri kontrol edelim
print(df.isnull().sum())
# Eksik verileri ortalama ile dolduralım
df.fillna(df.mean(), inplace=True)
Bu, veri temizleme adımında bizlere büyük kolaylık sağlar. Çünkü veriyi temizlemeden ve doğru bir şekilde hazırlamadan doğru analizler yapmamız neredeyse imkansızdır.
Makine Öğrenmesi Algoritmalarının Kullanımı
Bir veri setini temizledikten sonra, makine öğrenmesi algoritmalarını kullanarak verilerden anlamlı sonuçlar çıkarabiliriz. Python, Scikit-learn gibi popüler kütüphaneleriyle makine öğrenmesi dünyasına adım atmak isteyenler için harika bir platform sunar.
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
# Özellikler (features) ve hedef (target) değişkenini ayıralım
X = df[['özellik1', 'özellik2', 'özellik3']]
y = df['satın_alma']
# Veriyi eğitim ve test olarak ayıralım
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Modeli oluşturup eğitelim
model = RandomForestClassifier()
model.fit(X_train, y_train)
# Modelin doğruluğunu ölçelim
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f'Model doğruluğu: {accuracy*100}%')
Bu kadar basit! Makine öğrenmesi algoritmalarını kullanarak verilerden anlamlı tahminlerde bulunabiliriz. Bu tarz projeler, iş dünyasında büyük farklar yaratabilir ve gelecekteki kararlarınız için değerli bilgiler sunabilir.