Python ile Veri Bilimine Adım Atmak
1. NumPy: Sayısal Verilerle Çalışmanın Temeli
NumPy ile bir dizi oluşturmak ve üzerinde işlem yapmak oldukça kolaydır. İşte basit bir örnek:
import numpy as np
# Basit bir NumPy dizisi oluşturuyoruz
dizi = np.array([1, 2, 3, 4, 5])
# Dizinin her elemanını 2 ile çarpıyoruz
yeni_dizi = dizi * 2
print(yeni_dizi)
Yukarıdaki örnekte, NumPy kullanarak basit bir dizi oluşturduk ve bu dizinin her bir elemanını ikiyle çarptık. İşte bu kadar basit!
2. Pandas: Veri Manipülasyonu ve Analizi
Pandas ile veri setini okumak, filtrelemek ve dönüştürmek oldukça kolaydır. Örneğin, bir CSV dosyasındaki verileri nasıl okuyabileceğinizi görelim:
import pandas as pd
# CSV dosyasından veri okuma
veri = pd.read_csv("veri_seti.csv")
# İlk 5 satırı görmek
print(veri.head())
Bu kadar basit bir kod ile, dışarıdan bir veri dosyasını Python ortamına alıp, üzerinde işlemler yapmaya başlayabilirsiniz. Pandas’ın gücü, verileri hızlı ve verimli bir şekilde analiz etme yeteneğinden gelir.
3. Matplotlib: Görselleştirme ile Verilerinizi Anlamlı Hale Getirin
İşte basit bir çizgi grafiği örneği:
import matplotlib.pyplot as plt
# Basit bir veri seti
x = [1, 2, 3, 4, 5]
y = [1, 4, 9, 16, 25]
# Grafik oluşturma
plt.plot(x, y)
# Başlık ekleme
plt.title("Örnek Çizgi Grafiği")
# Eksenler için etiket ekleme
plt.xlabel("X Değeri")
plt.ylabel("Y Değeri")
# Grafiği gösterme
plt.show()
Bu grafikte, x ve y eksenleriyle gösterilen bir veri kümesinin çizgisel bir temsilini elde ettik. Matplotlib ile çok daha karmaşık görselleştirmeler yapmanız mümkün!
4. Scikit-learn: Makine Öğrenimi İçin En Güçlü Araç
Bir sınıflandırma problemi üzerinde çalışmak için basit bir örnek:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
# Iris veri setini yükleyelim
veri = load_iris()
# Veri ve hedefi ayıralım
X = veri.data
y = veri.target
# Veri setini eğitim ve test olarak ayıralım
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Modeli oluşturalım
model = RandomForestClassifier()
model.fit(X_train, y_train)
# Test verisi üzerinde tahmin yapalım
y_pred = model.predict(X_test)
# Modelin doğruluğunu hesaplayalım
dogruluk = accuracy_score(y_test, y_pred)
print(f"Model doğruluğu: {dogruluk * 100:.2f}%")
Scikit-learn ile makine öğrenimi algoritmalarını hızlıca kullanabilir ve modelinizi test edebilirsiniz.
Sonuç: Python ile Veri Bilimi Yolculuğunuz Başlıyor!
Veri bilimi, yeni başlayanlar için zorlayıcı olabilir, ancak doğru araçlarla bu yolculuk oldukça keyifli ve öğretici olacaktır. Python’un sunduğu bu araçlarla, her geçen gün daha fazla şey öğrenebilir ve kariyerinizde ilerleyebilirsiniz. O halde, Python ile veri bilimi yolculuğunuza hemen başlayın!