Elektronik

1.1. Veri Bilimi Nedir?

Giriş

Veri Bilimi kitabının ilk bölümü olan bu bölümde, Veri Bilimi ile ilgili genel bilgiler verilecektir. Günümüzde çok popüler olan bu bilim dalı yalnız başına çalışan bir yapıya sahip değildir. Bunun sebebi Veri Bilimi’nin birden fazla bilim dalının kesişmesinden oluşan ve birden fazla bilim dalını içine alan bir bilim dalı olmasından kaynaklanır. Dolayısıyla okuyucuların iyi bir veri bilimci olması için bu kesişen bilim dalları hakkında temel bilgilere sahip olması gerekir. Temel kavramları içselleştiren bir kimse veri bilimi projelerinde daha başarılı sonuçlar elde eder.

1.1. Veri Bilimi Nedir?

Veri bilimi, veri içerisinde yer alan ancak direkt olarak gözle görülemeyen kalıpları/örüntüleri bulmak, anlamlı bilgiler elde etmek ve iş kararları vermek için modern araçlar ve teknikler kullanarak büyük hacimli verilerle ilgilenen bir çalışma alanıdır[1]. Veri bilimi, tahmine dayalı modeller oluşturmak için karmaşık makine öğrenimi algoritmaları kullanır. Analiz için kullanılan veriler birden fazla kaynaktan olabilir ve çeşitli formatlarda sunulabilir. Veri bilimi, dijital araçlarla üretilen büyük miktarda veri göz önüne alındığında, günümüzde çeşitli endüstri ve işletmelerin önemli bir uğraş alanı haline gelmiştir. Şirketler, işlerini büyütmek ve müşteri memnuniyetini artırmak için veri bilimi tekniklerini uygulamaya başladılar.

1.1.1. Veri Biliminde Kullanılan Temel Kavramlar

Bu bölümde ilk olarak Veri Bilimi’nin ne olduğunu öğrenmeye başlamadan önce bilinmesi gereken bazı teknik ve temel kavramlar aşağıda kısaca açıklanmıştır[2].

1. Makine Öğrenimi

Makine öğrenimi (Machine Learning-ML), veri biliminin bel kemiğidir. Veri Bilimciler, temel istatistik bilgilerine ek olarak makine öğrenimi hakkında sağlam bir bilgiye sahip olmalıdır. ML veriyi analiz etmek için kullanılan algoritmaları kapsar.

2. Modelleme

Matematiksel modeller, veriler hakkında bilgilere dayanarak hızlı hesaplamalar ve tahminler yapmaya imkân sağlar. Modelleme aynı zamanda makine öğreniminin bir parçasıdır ve belirli bir problemi çözmek için hangi algoritmanın en uygun olduğunu ve bu modellerin nasıl eğitileceğini belirlemeyi içerir.

3. İstatistik

İstatistik, veri biliminin merkezinde yer alır. İstatistik bilgisi olmadan Veri Bilimi yapılamaz. Algoritmalardan elde edilen çıktılar istatistiksel yöntemler kullanılarak anlamlandırılır. İstatistik analizler sonucu kullanılan verilerden daha zeki, yararlı sonuçlar elde edilir.

4. Programlama

Başarılı bir veri bilimi projesini yürütmek için bir miktar programlama gereklidir. Veri biliminde kullanılan en yaygın programlama dilleri Python ve R’dir. Python özellikle popüler bir dildir. Çünkü öğrenmesi kolaydır ve veri bilimi ve makine öğrenimi için birçok kütüphaneye/kitaplığa sahiptir.

5. Veri tabanları

Başarılı/yetenekli bir veri bilimci olmak için, veri tabanlarının nasıl çalıştığını, nasıl yönetileceğini ve onlardan nasıl veri çıkarılacağı konusunda bilgi sahibi olmak gerekir. Veri Tabanları, bir sorgulama diline sahip olan ve birçok yazılımla birlikte kullanılan verilerin tutulması, saklanması, kaydedilmesi, filtrelenmesi ve sorgulanması ve kullanılması amacıyla geliştirilmiş olan sistemlerdir. Günümüzde farklı firmaların geliştirdiği çok sayıda Veri Tabanı Sistemleri vardır. Bunlar arasında en sık kullanılan Microsoft SQL Server, MySql, Oracle ve Postrage SQL vb. sistemlerdir.

1.1.2. Temel Makine Öğrenimi Algoritmaları

Bir veri bilimcinin kullandığı en temel makine öğrenimi algoritmaları[3] aşağıda kısaca açıklanmıştır:

1. Regresyon

Regresyon, denetimli öğrenme tekniklerine dayalı bir makine öğrenmesi algoritmasıdır. Girdi özniteliklerinin bir fonksiyon ile temsil edilerek, çıktı özniteliklerinin tahmin edilmesine imkan veren bir modeldir. Regresyon çıktısı gerçek veya sürekli bir değer olabilir. Örneğin, bir odanın sıcaklığını tahmin etmek gibi.

2. Kümeleme

Kümeleme, denetimsiz öğrenme tekniklerine dayalı bir makine öğrenimi algoritmasıdır. Bir dizi etiketlenmemiş veri noktası üzerinde çalışır ve her veri noktasını bir kümede gruplandırır.

3. Karar Ağacı

Karar ağacı, öncelikle sınıflandırma için kullanılan denetimli bir öğrenme yöntemini ifade eder. Algoritma, çeşitli girdileri belirli bir parametreye göre sınıflandırır. Bir karar ağacının en önemli avantajı, anlaşılmasının kolay olması ve sınıflandırılmasının nedenini açıkça göstermesidir.

4. Destek Vektör Makineleri

Destek vektör makineleri (SVM’ler) öncelikle sınıflandırma ve regresyon modelleri için kullanılan denetimli bir öğrenme yöntemidir. Ancak çoğunlukla sınıflandırma problemlerinde kullanılır. SVM’ler ile hem doğrusal hem de doğrusal olmayan sınıflandırmalar gerçekleştirebilir.

5. Naive Bayes

Naive Bayes, ikili ve çok sınıflı sınıflandırma problemleri için en iyi kullanılan istatistiksel olasılık tabanlı bir sınıflandırma yöntemidir. Elinizde eğitilmiş bulunan verileri kendi formülüne göre işler ve her durum için yüzdelik bir oran çıkarır. Daha sonra girilen test verisini bu çıkan olasılıklara göre sınıflandırır.

1.1.3. Bir Veri Bilimi Projesinin Yaşam Döngüsü

Veri Bilimi’nin ne olduğunu daha iyi kavramak için veri biliminin iş zekâsından nasıl farklılaştığını anlamak gerekir. Bunu daha iyi açıklayabilmek için bu bölümde bir veri bilimi projesinin yaşam döngüsüne[4] dâhil olan aşamaların ayrıntılı açıklaması verilmiştir.

1. Kavram Çalışması

Bir veri bilimi projesinin ilk aşaması, kavram çalışmasıdır. Bu adımın amacı, iş modeli üzerinde bir çalışma yaparak sorunu anlamaktır. Örneğin, 1.35 karatlık bir elmasın fiyatının tahmin edilmeye çalışıldığını varsayalım. Bu durumda, ilk olarak sektörde kullanılan terminolojiyi öğrenmek gerekir. Yani sektörün çalışma yapısını anlamak lazımdır. Daha sonra sektör hakkında yeterince ilgili veriyi toplamaya geçilir.

2. Veri Hazırlama

Ham veriler veri bilimi projelerinde direkt olarak kullanılamaz. Bundan dolayı veri hazırlama, veri bilimi yaşam döngüsünün en önemli adımını oluşturur. Veri bilimcisi, herhangi bir değer katmayan boşlukları veya verileri belirlemek için önce verileri inceler. Bu işlem sırasında, aşağıdaki adımların bazılarına ihtiyaç duyar:

Veri Entegrasyonu

Veri entegrasyonu, farklı kaynaklardan gelen verileri tek bir veri setinde bütünleştirme uygulamasıdır. Nihai amaç, kullanıcılara konulara ve yapı türlerine bağlı olarak tutarlı veri erişimi sağlamaktır. Bu sayede tüm uygulamaların ve iş süreçlerinin veri ihtiyaçlarını karşılamaktır. Veri entegrasyon süreci, genel veri yönetimi sürecinin ana bileşenlerinden biridir ve büyük veri entegrasyonu ve mevcut verileri paylaşma ihtiyacı artmaya devam ettikçe artan sıklıkta kullanılmaktadır.

Veri Dönüşümü

ETL (ayıklama, dönüştürme, yükleme) işleminde farklı kaynaklardan gelen veri kümelerinin kopyaları bir araya toplanır, uyumlu hale getirilir ve bir veri tabanına yüklenir

Veri Azaltma

Çeşitli stratejiler kullanarak, kaliteyi veya sonucu etkilemeden veri boyutunun azaltılması işlemidir.

Veri temizleme

Eksik değerli kayıtlar doldurularak ve gürültülü veriler düzeltilerek tutarsız verilerin düzeltilmesi işlemidir.

3. Model Planlama

Veriler temizlendikten sonra uygun bir model seçilir. İstenen model problemin doğasına uygun olmalıdır. Ele alınan problem bir regresyon problemi mi yoksa bir sınıflandırma problemi mi olduğuna karar verilir/tespit edilir. Bu adım aynı zamanda verilerin daha derinlemesine bir analizini sağlamak ve değişkenler arasındaki ilişkiyi anlamak için Keşifsel Veri Analizi (EDA) sürecini içerir. Keşifsel veri analizi (EDA) için histogramlar, kutu grafikleri ve trend analizi gibi bazı teknikler kullanılır. Örneğin bu teknikleri kullanarak, bir karat ile bir elmasın fiyatı arasındaki ilişkinin Şekil 1’deki gibi doğrusal olduğu gösterilebilir.

Şekil 1.1. Veriler arasındaki ilişkinin gösterilmesi

Ardından, veriler eğitim ve test olmak üzere iki bölüme ayrılır. Modeli eğitmek için eğitim verileri ve modeli doğrulamak için test verileri kullanılır. Test sonuçları doğru çıkmaz ise, başka bir model kurarak, modelin yeniden eğitilmesi gerekir. Eğer test sonuçları doğru ise/geçerliyse kurulan model farklı veri setleri için kullanılabilir. Model planlama için kullanılan çeşitli araçlar vardır:

4. Model Planlama Araçları

Burada veri biliminde model planlamada açık kaynak kodlu ve ticari olarak kullanılan araçlar birer cümle ile açıklanmıştır.

R

Ayrıntılı analiz için görselleştirme dahil olmak üzere hem normal istatistiksel analiz hem de öğrenme analizi için kullanılabilir.

Python

Veri analizi ve makine öğrenimi gerçekleştirmek için zengin bir kitaplık/kütüphaneye sahiptir.

Matlab

Popüler ve öğrenmesi kolay araçlardan biridir.

SAS

Eksiksiz bir istatistiksel analiz gerçekleştirmek için gereken tüm bileşenlere sahip güçlü tescilli bir araçtır

5. Model Oluşturma

Yaşam döngüsündeki bir sonraki adım, modeli oluşturmaktır. Çeşitli analitik araçları ve teknikleri kullanarak, yararlı bilgileri “keşfetmek” amacıyla veriler işlenir. Örneğin, elimizdeki 1.35 karatlık bir elmasın fiyatını tahmin etmek istiyoruz. Elimizdeki fiyatlandırma verilerini kullanarak, 1.35 karatlık bir elmasın fiyatını tahmin etmek için onu Şekil 2’deki gibi doğrusal bir regresyon modeline bağlayabiliriz.

Şekil 2.2. Doğrusal model örneği.

Doğrusal regresyon, iki değişken  ve  arasındaki ilişkiyi tanımlar. Regresyon çizgisi çizildikten sonra, aşağıdaki formülü kullanarak bir  girdisi değeri için bir  değeri tahmin edebiliriz:

Bu denklemde:

 = Doğrunun eğimini

 = y eksenini kesme noktasını

ifade eder.

Modelin doğru çalıştığı doğrulandıktan sonra, bir sonraki düzeye, yani kullanıma geçilir. Değilse, modeli daha fazla veriyle yeniden eğitmek veya daha yeni bir model veya algoritma kullanmak ve ardından işlemi tekrarlamak gerekir. Python dilinde Pandas, Matplotlib ve NumPy gibi kitaplıklar kullanarak modeller oluşturulabilir.

6. İletişim

Bir sonraki adım, çalışmanın temel bulgularını almak ve bunları paydaşlara iletmektir. İyi bir veri bilimci, bulgularını, sorunu çözmek için atılan adımlarla ilgili ayrıntılar da dâhil olmak üzere iş odaklı kullanıcı kitlesi ile paylaşması gerekir.

Bölüm Özeti

Veriler, günümüzde işletmelerin en önemli kaynakları haline gelmiştir. Çünkü veriler iş yöneticilerinin gerçeklere, istatistiksel sayılara ve eğilimlere dayalı kararlar almasına yardımcı olur.

Gelişen teknolojiyle birlikte artan verilerin işlenebilmesi için veri bilimi multidisipliner bir alan olarak ortaya çıktı. Veri Bilimi büyük miktarda veriden bilgi ve öngörü elde etmek için bilimsel yaklaşımlar, prosedürler ve algoritmalar kullanır. Veri bilimi, ayrıca gerçek olayları verilerle anlamak ve incelemek için fikirleri, veri incelemesini, Makine Öğrenimini ve bunlarla ilgili stratejileri bir araya getiren bir kavramdır. Veri bilimi, veri madenciliği, istatistik, tahmine dayalı analiz gibi çeşitli veri analizi alanlarının bir uzantısıdır. Başka bir ifade ile Veri Bilimi, istatistik, matematik ve bilgisayar bilimi gibi diğer alanlara ait birçok yöntem ve kavramı kullanan geniş bir alandır.

Bu bölümde Veri Bilimi için gerekli olan temel kavramlara değinilmiştir. Daha sonraki bölümlerde detaylı olarak göreceğimiz makine öğrenmesi algoritmalarından kısaca bahsedilmiştir. Son olarak Veri Bilimi yaşam döngüsünün adımları açıklanmıştır.

Kaynakça

WEB: https://www.omnisci.com/learn/data-science

İlker Arslan, “Python ile Veri Bilimi”, Pusula, 2. Baskı, 2019

WEB: https://towardsdatascience.com/intro-to-data-science-531079c38b22

WEB: https://www.simplilearn.com/tutorials/data-science-tutorial/what-is-data-science

WEB: https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/

İleri okuma için önerilen kaynaklar:

1. Veri Bilimi, Cem S. Sütçü, Çiğdem Aytekin, PALOMA YAYINLARI

2. Veri Bilimi, Prof. Dr. Necmi Gürsakal, DORA YAYINLARI

Comments