Veri analitiği dünyasında, AWK bir efsane haline gelmiştir. Dosyalarda bulunan verileri sıralamak, filtrelemek ve düzenlemek için mükemmel bir araçtır. Özellikle büyük veri setleriyle çalışırken, verileri manipüle etmek için oldukça hızlı ve etkilidir.
Örneğin, bir CSV dosyasındaki belirli bir sütundaki verileri almak için şu şekilde kullanabilirsiniz:
awk -F, '{print $2}' dosya.csvBu komut, CSV dosyanızdaki ikinci sütunun tüm verilerini alır ve size sunar. Bu şekilde veriyi anında filtreleyebilirsiniz.
Sed, verileri değiştirmek ve temizlemek için bir başka güçlü araçtır. Dosyalarda yapılan değişiklikleri hızlı bir şekilde uygulamanızı sağlar. Büyük veri dosyalarında gereksiz boşlukları, hatalı karakterleri veya fazla satırları temizlemek için idealdir.
Örneğin, dosyadaki tüm boşlukları kaldırmak için şu komutu kullanabilirsiniz:
sed 's/ //g' dosya.txtBu komut, dosyanızdaki tüm boşlukları siler ve verilerinizi temizler. Veri temizliği, doğru analizler yapmak için kritik bir adımdır.
Grep, komut satırında arama yapmanın ve sonuçları filtrelemenin en hızlı yoludur. Veri dosyalarınızda belirli bir anahtar kelimeyi veya değeri bulmak için mükemmel bir araçtır. Ayrıca, yalnızca ilgilendiğiniz verileri almanızı sağlar.
Bir örnekle açıklayalım, bir log dosyasında belirli bir hata mesajını aramak için:
grep "hata" log_dosyası.txtBu komut, “hata” kelimesini içeren tüm satırları gösterir. Bu sayede yalnızca ilgilendiğiniz veriyi çekebilirsiniz.
Sort, verilerinizi sıralamak ve düzenlemek için kullanabileceğiniz bir araçtır. Büyük veri setlerinde, verileri belli bir düzende görmek veya sıralamak gerektiğinde sort yardımcı olabilir.
Bir dosyayı alfabetik sıraya dizmek için:
sort dosya.txtBu komut, dosyanızdaki tüm satırları alfabetik olarak sıralar. Veriyi düzenlemek için harika bir yoldur.
Cut, dosyalarınızda bulunan belirli sütunları veya veri parçalarını hızlıca çıkarmanızı sağlar. Özellikle CSV veya tabüler formatlarda verilerle çalışıyorsanız, kullanışlı bir araçtır.
Bir dosyadaki ilk iki sütunu almak için:
cut -d, -f1,2 dosya.csvBu komut, CSV dosyasındaki ilk iki sütunu çıkarır ve bunları size gösterir.
Bazen büyük bir dosyayı incelemek, tüm veriyi yüklemek için çok zaman alabilir. Head ve Tail komutları, dosyanın yalnızca ilk veya son birkaç satırını görmenizi sağlar, bu da hızlıca bir gözden geçirme yapmak için idealdir.
Örneğin, bir dosyanın ilk 10 satırını görmek için:
head dosya.txtSon 10 satır için ise:
tail dosya.txtUniq, bir dosyada tekrar eden satırları bulmak ve yalnızca benzersiz olanları görmek için harika bir araçtır. Özellikle veri setinizde tekrarlanan girişleri temizlemek istiyorsanız, bu araç oldukça faydalıdır.
Bir dosyada benzersiz satırları görmek için:
uniq dosya.txtFind, belirli kriterlere göre dosyaları bulmanıza yardımcı olur. Verileri incelemek için, dosya sisteminizde belirli türdeki dosyaları veya belirli içerikteki verileri aramak oldukça kullanışlıdır.
Bir dizindeki tüm CSV dosyalarını bulmak için:
find . -name "*.csv"Tee, veriyi hem ekrana yazdırmak hem de bir dosyaya kaydetmek için kullanılan bir araçtır. Bu sayede, analiz sırasında veriyi anında görüp, aynı zamanda bir dosyada tutabilirsiniz.
Bir komutun çıktısını hem ekrana yazdırmak hem de dosyaya kaydetmek için:
komut | tee dosya.txtVeri analitiği sadece dosya analiziyle sınırlı değildir. Mtr, ağ bağlantılarınızı analiz etmek için harika bir araçtır. Ağ bağlantılarınızdaki olası problemleri veya gecikmeleri hızlıca tespit etmek için kullanabilirsiniz.
Ağ bağlantılarınızı kontrol etmek için:
mtr google.comSonuç: Linux ve Komut Satırının Gücü
Unutmayın, güçlü araçlar her zaman en iyi sonuçları sağlar. Linux’un komut satırı araçlarını öğrenmek ve kullanmak, veri analizi işinizi hızlandıracak ve verilerinize dair değerli içgörüler elde etmenizi sağlayacaktır.
---
**