Python ile Web Scraping: Yeni Başlayanlar İçin Adım Adım Kılavuz

Web Scraping Nedir?

Web scraping, internet üzerinden veri toplama işlemine verilen isimdir. Eğer bir web sitesindeki verileri otomatik olarak almak ve bunları düzenlemek istiyorsanız, web scraping tam size göre bir konu. Python, bu işi oldukça kolaylaştıran güçlü bir dil olarak karşımıza çıkıyor. Peki, Python ile web scraping yapmak ne kadar kolay? Gelin birlikte adım adım bu konuda derin bir yolculuğa çıkalım.

Adım 1: Python Kurulumu

Web scraping yapmaya başlamadan önce Python’u bilgisayarınıza kurmanız gerekiyor. Python’un en son sürümünü [buradan](https://www.python.org/downloads/) indirip kurabilirsiniz. Kurulum sırasında *"Add Python to PATH"* seçeneğini işaretlemeyi unutmayın. Böylece komut satırından Python komutlarını çalıştırabileceksiniz.

Adım 2: Gerekli Kütüphaneleri Kurma

Python ile web scraping yapmak için bazı kütüphanelere ihtiyacımız olacak. Bunlar arasında *Requests* ve *BeautifulSoup* en çok kullanılanlar. İlk olarak, terminal veya komut satırında şu komutu girerek bu kütüphaneleri kurabilirsiniz:

pip install requests beautifulsoup4

*Requests*, web sayfalarına istek göndermek için kullanılırken, *BeautifulSoup* ise HTML ve XML dökümanlarını daha okunabilir hale getirir. Bu iki kütüphane, web scraping işlemlerinin temel taşlarıdır.

Adım 3: Web Sayfasına İstek Gönderme

Şimdi ilk adımımızı atıyoruz: İnternetteki bir sayfaya istek göndermek. Örneğin, bir haber sitesindeki başlıkları çekmek isteyelim. İşte bunun için kullanacağımız kod:

import requests

url = "https://www.example.com"  # Verileri almak istediğiniz URL
response = requests.get(url)

print(response.text)  # Sayfanın HTML içeriğini yazdırıyoruz

Bu kod, belirttiğiniz URL’ye bir istek gönderir ve sayfanın HTML içeriğini elde eder. HTML, web sayfalarının iskeletidir, yani içeriklerin düzenlendiği yerdir. Şimdi bu HTML üzerinden veri çekmeye başlayacağız.

Adım 4: BeautifulSoup ile HTML Parsing (Çözümleme)

Elde ettiğimiz HTML verisini anlamak ve içinden istediğimiz bilgiyi almak için *BeautifulSoup* kütüphanesini kullanacağız. İşte HTML içeriğinden başlıkları çekmek için kullanacağımız örnek kod:

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
headlines = soup.find_all('h2')  # Sayfadaki tüm  başlıklarını buluyoruz

for headline in headlines:
    print(headline.text)  # Başlık metinlerini yazdırıyoruz

Burada, `find_all('h2')` fonksiyonu ile sayfadaki tüm başlıkları (h2 etiketleri) alıyoruz. Geriye sadece bunları ekrana yazdırmak kalıyor. Bu adımı her zaman ihtiyacınıza göre özelleştirebilirsiniz; örneğin bir makalenin yazarının ismini ya da tarihini çekmek gibi.

Adım 5: Veri Temizliği ve Düzenleme

Veriyi çektikten sonra, çoğu zaman veriler biraz karışık olabilir. HTML etiketlerini ve gereksiz boşlukları temizlemek, veriyi daha düzenli hale getirmek önemlidir. İşte bu adımda *strip* fonksiyonundan yararlanabiliriz:

cleaned_text = headline.text.strip()  # Gereksiz boşluklardan arındırıyoruz
print(cleaned_text)

Adım 6: Verileri Kaydetme

Artık verileri çektiğimiz ve düzenlediğimize göre, bu verileri bir dosyaya kaydedebiliriz. En yaygın kullanılan formatlar CSV veya JSON’dur. Örneğin, verileri CSV formatında kaydetmek için şu kodu kullanabilirsiniz:

import csv

with open('headlines.csv', mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['Headline'])  # Başlık satırını yazıyoruz
    for headline in headlines:
        writer.writerow([headline.text.strip()])

Bu şekilde, başlıkları `headlines.csv` adlı bir dosyaya kaydediyoruz. Verileri farklı formatlarda kaydetmek, onları daha sonra kullanabilmenizi sağlar.

Adım 7: İleri Seviye Web Scraping Teknikleri

Eğer daha karmaşık veri çekme işlemleri yapmak istiyorsanız, JavaScript ile yüklenen dinamik içerikleri çekmek gibi ileri seviye tekniklere göz atabilirsiniz. Bunun için Selenium veya Scrapy gibi araçları kullanabilirsiniz. Ancak bu yazıda sadece temel düzeyde Python ile web scraping nasıl yapılır, bunu öğrendik.

Sonuç: Python ile Web Scraping

Python ile web scraping yapmak oldukça basit ve etkili bir yöntem. Bugün öğrendiğiniz temel adımlarla, internet üzerinden verileri kolayca çekebilir, düzenleyebilir ve kullanabilirsiniz. Ancak unutmayın, her zaman web sitelerinin kullanım şartlarını kontrol edin ve etik kurallara uyarak veri çekme işlemleri yapın.

Bu yazıyı takip ederek Python ile web scraping yapmaya başlamak oldukça kolay. İlerleyen zamanlarda daha fazla kütüphane ve teknik kullanarak projelerinizi daha da geliştirebilirsiniz. Şimdi sıra sizde! Python’un gücünü keşfedin ve veriyi anlamlandırmak için bu güçlü dili kullanmaya başlayın.

`başlıklarını buluyoruz for headline in headlines: print(headline.text) # Başlık metinlerini yazdırıyoruz`

Kategori

Tags

Yazar Hakkında

BFS

Yazarın Diğer Yazıları:

Kategoriler

Popüler Yazılar

ApiUp Nedir?

"Veri Güvenliği: MySQL Veritabanınızı Hack’lere Karşı Nasıl Korursunuz?"

NetBeans Debugging Başlatılmıyor – Çözüm Adımları ile Sorunu Gidermek

Tags

İlgili Yazılar

NetBeans Debugging Başlatılmıyor – Çözüm Adımları ile Sorunu Gidermek

ASP.NET Core 500 Internal Server Error: Sebepleri ve Çözümleri

NetBeans Debugging Hatası ve Çözümü: Adım Adım Rehber