Giriş
Veri Bilimi uygulamaları için bir geliştirme aracına ihtiyaç vardır. Veri bilimi için hangi programlama aracının en uygun olduğu konusunda tartışmalar devam etmektedir. Ancak şunu unutmamak gerekir bir veri bilimi projesi için tüm kütüphaneleri ve çözümleri içinde barındıran tek bir araç yoktur. Veri Bilimci ihtiyaçlarına göre farklı veri bilimi araçlarını zaman zaman birlikte kullanmak zorunda kalabilir.
Bu kitap kapsamında Veri Bilimi aracı olarak Python programlama dili kullanılacaktır. Bu programın sahip olduğu zengin kütüphaneler sayesinde veri bilimi problemlerine hızlı çözüm üretilebilmektedir. Bu bölümde bu programlama dili için gerekli olan araçlar ve kurulumları anlatılacaktır.
Python kodları ve veri bilimi uygulamalarının denenmesi için IDE (Integrated Development Environment – Tümleşik Geliştirme Ortamı) olarak adlandırılan bir ortama ihtiyaç vardır. Bu kitap kapsamında IDE ortamı olarak kolaylığı ve kullanışlılığı sebebiyle veri biliminde yaygın kullanım alanı bulan Jupyter Notebook kullanılacaktır. Bu bölümde bu çalışma kitabının kendi bilgisayarınızda nasıl aktif edileceği açıklanmıştır.
2.1. Python Programlama Dili
Python, Guido Van Rossum tarafından 1990 yılında geliştirilmeye başlanan nesne yönelimli, yorumlanabilen ve yüksek seviyeli bir programlama dilidir. İlk ortaya çıkışından bu yana yazılım ve özellikle veri bilimi uygulamalarında en fazla kullanılan popüler programlama dillerinden biri haline geldi. Bu dili bu kadar popüler yapan etmenlerin başında Numpy, Pandas ve Scikit-learn gibi sahip olduğu birçok geliştirme aracı kütüphanelerin açık kaynak kodlu olarak ücretsiz bir şekilde indirilebilmesidir. Bu yapısı Python’u genel amaçlı yazılım mühendisliği ve veri uygulamaları geliştirmek için öğrenilmesi gereken en önemli dillerden biri haline getirmiştir. Yayınlanan sürümler düzenli olarak https://www.python.org/[5] sitesinde ilan edilmekte ve eklenen yenilikler açıklanmaktadır. Bu dokümanın yazılma sürecinde en son sürüm olarak October 5th,2020 tarihinde Python 3.9 yayınlanmıştır. Python 3’ün önceki sürümlerinde yazılan kodlar Python 3.9’da çalışmaktadır.
2.2. Python İle Veri Bilimi Arasındaki İlişki
Python, popülerliğini hızlı bir şekilde arttırmaktadır. İlk defa programlamaya başlangıç yapanlar ya da farklı dillerde uzmanlaşanlar “Python öğrenmeli miyim?” sorusunu sormaktadır. Uzun yıllar önce programlama öğrenmek isteyenler için bir programlama dilini öğrenmek veya aşina olmak şimdikinden çok daha zordu. Ancak zamanla insan diline yakın denilebilecek yüksek seviyeli programlama dilleri ortaya çıkmıştır.
Python kodlarını yorumlamak ve öğrenmek diğer dillere göre daha kolaydır[6]. Diğer dillerde bulunan noktalama işareti zorunlulukları, parantezler veya kurallar programlamaya yeni başlayan kullanıcı için zaman zaman zorluklar çıkarmaktadır. Python’da bu tür zorunluluklar olmadığı gibi yapısı itibariyle diğer dillere göre daha sadedir. Python, söz dizimi açısından algoritma tabanlı bir dil olup C veya C++ gibi veri yapısı tabanlı bir dil değildir. Python öğrenmek, önceden kodlama deneyimi olan ve deneyimi olmayanlar kişiler için de uygun bir dildir.
Ayrıca Python, belirli bir geliştirici topluluğuna ve öğretici dokümana sahip olmuştur. Python ile program geliştirirken karşılaşmanız muhtemel olan birçok sorunun cevabı “stackoverflow.com”[7] gibi sitelerde bulunmaktadır. Buda Python’u öğrenirken hızlı ilerlemenize imkan sağlar. Python, Microsoft, Linux ve Mac OS X üzerinde çalışabilen ve PyPI ile diğer dillerle etkileşimi sağlayan bir dildir. En önemlisi de Google, Python’u resmi programlama dili olarak ilan etmesi onun ne kadar önemli bir dil olduğunu göstermektedir. Ancak, Java ve C’ye göre daha yavaş çalışır.
Python’un veri analizi için neden bu kadar önemli olduğunu incelemeden önce, veri analizi ile veri bilimi arasındaki ilişkiyi kurmak önemlidir. Çünkü Veri Bilimi programlama dilinden büyük ölçüde yararlanma eğilimindedir. Başka bir deyişle, Python’un veri bilimi için yararlı olmasının birçok nedeni, aynı zamanda veri analizi için uygun olmasının da nedenlerini oluşturur.
Veri analistleri, sonuçları analiz etmekten ve raporlar oluşturmaktan sorumludur. Veri analistleri, kendilerine sunulan soruları yanıtlamak için verileri kullanarak günlük işleri kotarırken, Veri bilimcileri geleceği tahmin etmeye ve bu tahminleri yeni sorularla çerçevelemeye çalışır. Başka bir deyişle, veri analistleri günlük işlere odaklanırken, veri bilimcileri ise olabilecekleri tahmin etmeye çalışır. Her iki meslek de yazılım mühendisliği bilgisi, temel matematik bilgisi ve algoritmaların anlaşılmasını gerektirir. Dahası, her iki meslek de R, SQL ve tabii ki Python gibi programlama dilleri bilgisine ihtiyaç duyar. Sonuç olarak, bir veri bilimcisinin ideal olarak güçlü bir problem çözme zekâsına sahip olması gerekirken, veri analistinin Excel ve Tablue gibi araçları kullanabilme konusunda yetkin olmalıdır.
2.3. Python Programlama Dilinin Kurulumu
İnternet tarayıcısını (browser) açıp adres çubuğuna https://www.anaconda.com/ adresi[8] yazılır. Açılan pencereden “Products” sekmesine tıklanır. Daha sonra aşağı doğru açılan pencereden en üstte yer alan “Individual Edition” e tıklandıktan sonra aşağıdaki şekilde verilen ekran görüntüsüne ulaşılır.
Şekil 2.1. Anaconda kurulum ve sürüm seçim ekranı
Açılan ‘Your data science toolkit’ ekranın altında yer alan “Download” düğmesine basılıyor.
Şekil 2.2. Anaconda kurulumu için seçilen sürümün yükleme ekranı
Açılan pencerede işletim sistemlerine ve işlemcinizin (64 bit- 32 bit) durumuna göre Şekil 2.5’te gösterilen ilgili sekme tıklanır. Bu işlemden sonra program bilgisayarınızda belirttiğiniz bir klasöre yüklenmeye başlayacak ve kuruluma geçecektir.
Şekil 2.3. İşletim sistemi ve işlemciye göre kurulacak sürümün seçim ekranı
2.4. Python Programlama Dilinin Kurulumu
Kurulumdan sonra bilgisayarınızın başlat menüsünde bulunan ara sekmesinin içine “anaconda” yazarak uygulamanın nerede olduğunu bulabilirsiniz. Açılan pencerede en üstte yer alan “Jupyter Notebook” a sağ tıklayarak sağa doğru açılan pencerede “Görev çubuğuna sabitle” sekmesine tıklayarak, görev çubuğuna sabitlemiş olursunuz (Şekil 2.4).
Şekil 2.4. Jupiter Notebook’un görev çubuğuna sabitlenmesi
Bu sayede Python ve Veri Bilimi öğrenme sürecinde geliştirme ortamı olarak kullanılacak olan araca daha hızlı erişim sağlanır. Bunun için sadece görev çubuğunda sabitlenmiş olan Jupyter Notebook simgesine tıklanır (Şekil 2.5).
Şekil 2.5. Jupyter Notebook geliştirme ortamının çalıştırılması
Daha sonra aşağıda verilen ekran görüntüsüne ulaşmış oluruz (Şekil 2.6).
Şekil 2.6. Jupyter Notebook geliştirme ortamının ana ekranı
Bu ekranın sağ üst köşesinde yer “New” sekmesine tıklanır ve aşağı doğru açılan pencereden “Python3” seçilerek tıklanır (Şekil 2.7).
Şekil 2.7. Jupyter Notebook çalışma için Python 3’ün seçilme ekranı
Bu aşamadan sonra kitap boyunca anlatılacak örneklerin kodlandığı ve denendiği aşağıdaki şekilde gösterilen bütünleşik Jupyter Notebook geliştirme ortamına erişilmiş olunur (Şekil 2.8).
Şekil 2.8. Jupyter Notebook bütünleşik geliştirme ara yüzü
Bölüm Özeti
Bu bölümde Veri Bilimi çalışmalarımızdaki kodlamalar için kullanılacak olan Python dilinin özelliklerinden kısaca bahsedilmiştir. Daha sonra Veri Bilimi ile Python arasındaki ilişki kurularak neden veri bilimi uygulamalarında bu dilin kullanıldığı açıklanmaya çalışılmıştır. Son olarak Python ve Jupyter Notebook geliştirme ortamının kullanıcıların kendi bilgisayarlarına nasıl aktif edecekleri ekran görüntüleri ile adım adım anlatılmıştır.
Kaynakça
İlker Arslan, “Python ile Veri Bilimi”, Pusula, 2. Baskı, 2019
WEB: https://www.anaconda.com/
WEB: https://www.python.org/doc/essays/blurb/
Sibel AKBIYIK (Editör), “Python Eğitimi, Herkes için Python Programlama Dili”, Millî Eğitim Bakanlığı Öğretmen Yetiştirme ve Geliştirme Genel Müdürlüğü Yayını, 2020
İleri okuma için önerilen kaynaklar:
1. Kodlamaya Yeni Başlayanlar İçin Python Programlama Dili, Dr. Öğr. Üyesi Fatih Çağatay Baz, KARAHAN KİTABEVİ
2. Yeni Başlayanlar İçin Python, Ahmet Aksoy,Abaküs Kitap
Comments