İstatistik Matematik Olasılık

3. VERİLERİN DERLENMESİ, DÜZENLENMESİ VE SUNUMU

3. VERİLERİN DERLENMESİ, DÜZENLENMESİ VE SUNUMU

3.1. Verilerin Derlenmesi

Veriler, istatistik çalışmanın temelini oluşturmaktadır. İstatistiksel bir analizin doğruluğu ve güvenilirliği öncelikle verinin kalitesine (çalışmanın amacına uygun ve doğru bir şekilde toplanmış güvenilir verilere) bağlıdır.

3.1.1. Veri Kaynakları

Verilerin elde edilme süreçleri çeşitlilik göstermektedir. Şayet veriyi direkt olarak kaynağından sağlama imkanı var ise böyle elde edilen verilere birincil veri denir. Çeşitli kurum ve kuruluşların (DPT-Devlet Planlama Teşkilatı, SGK, TOBB, v.b.) yayınladıkları haftalık, aylık, yıllık, v.b. bültenlerden elde edilen veriler de birincil veri kapsamındadır. Mesleki kuruluşlar (Mimarlar Odası, Makine Mühendisleri Odası, v.b.), medya kuruluşlarının ya da araştırma firmalarının yayınladıkları veriler ise daha ziyade ikincil veri kapsamındadır. Uluslar arası veri kaynaklarının başında ise OECD (Organization for Economic Cooperation and Develeopment), WB (World Bank), BM (UN: United Nations), IMF (International Money Fund) gelmektedir.

3.1.2. Verilerin Elde Edilmesi

İstatistiksel araştırmaların yapılma nedenleri genellikle şu şekilde sıralanabilir:

1. Durum tespiti

2. Geleceğe dönük projeksiyon yapma

Durum tespitinden kasıt, bir kurumun, firmanın, v.b. içinde bulunduğu durumun bilimsel olarak ortaya konmasıdır. Her geçen gün artan rekabet şartları, eskilerin tecrübe, basiret ve sezgiye dayalı yönetim anlayışlarını yetersiz kılmıştır. Artık yapılması gereken böylesi bir ortamda firmanın ne durumda olduğu, hangi şartlarda rekabet etmekte olduğu ve gelecekteki hedeflerine ulaşabilmesi için bugünden neler yapılması gerektiğini bilimsel olarak ortaya koymaktır. Bunun da olmazsa olmaz tek şartı elbette çeşitli ölçümler yapmaktır. Yani veri toplayıp istatistiksel analizler yapmaktır. Firmanın mevcut şartlarının incelenmesi ve ortaya konması durum tespiti, geleceğe dönük yapılması gerekenlerin ortaya konması ise, projeksiyon yapıldığı anlamına gelir.

Verinin toplanması denince ilk akla gelen ve en çok kullanılan yöntem anket yöntemidir. Anketlerin uygulanma şekilleri farklılık arz eder, örneğin anketörler vasıtasıyla yüzyüze görüşme yaparak olabileceği gibi, e-posta, posta v.b. yöntemlerle de anket formları göndermek suretiyle veri elde edilebilir. Ancak posta yoluyla yapılan anketlere büyük olasılıkla geri dönüş yapılmamaktadır veya en iyi ihtimalle yarım yamalak cevaplanmış, bir sürü cevapsız soru bırakılmış anket formlarıyla karşılaşılmaktadır. Bu nedenle en sağlam veri toplama şekli yüzyüze görüşme yaparak anket yapmaktır denebilir. Gelişmiş ülkelerde posta yoluyla anket cevpalama oranı oldukça yüksektir, her ne konuda olursa olsun bir anket muhakkak bir iyileştirme çabasına hizmet etmektedir, böyle düşünüldüğünde, anketi cevaplamanın ne kadar önemli olduğu anlaşılabilir. Ülkemizde ise bırakın postayla anket cevaplamayı, bazılarının, beş dakikalığına yolunu çeviren anketörleri bile azarladıklarını görmekteyiz. Halbuki artık siyasi partiler bile araştırma şirketlerine anketler yaptırarak halkın nabzını tutmakta, neredeyse seçim sonuçlarıyla aynı denecek yakınlıkta tespitler yapmaktadırlar. Bu sayede politik planlamalar daha gerçekçi yapılabilmekte, kaynaklar daha etkin (gereksiz israf olmadan) kullanılabilmektedir. Örneğin daha küçük bir örnek verelim, bir deterjan fabrikası anket yaptırıyor olsun. Bu ankete ne kadar fazla katılım olur ve dürüstçe cevaplar verilirse, firma yöneticisi de bu doğrultuda üretime geçecek, böylece milli servetimiz heba olmayacaktır. Bir anketten ne olur ki? dememek gerekir. Sonuçta gökten para yağmadığına göre, batan bir tek fabrika bile olsa, bu durum, sadece o fabrika sahibinin iflası gibi görülmemelidir. Orada çalışan binlerce insan işsiz kaldığında, onların aileleri, akrabaları, komşuları, v.b. zaman içinde dalga dalga bu durumdan etkileneceklerdir. O halde işini zamanında doğru düzgün yapmaya çalışan, halkın fikirlerine değer veren ve kaynaklarını etkin bir biçimde kullanmak isteyen herkese bunu bir yardım talebi gibi kabul ederek yardım etmeliyiz. Bakış açımız gerçekten de böyle olmalıdır, bu sadece basit bir örnektir ama binlercesi düşünülebilir.

Anketin öneminden bahsettikten sonra, anketin nasıl uygulanması gerektiğinden bahsedelim. Adım adım özetlersek;

1. Anket konusunun ve amacının belirlenmesi

2. Anketin uygulanacağı birimlerin belirlenmesi ( genel olarak herkes mi, yoksa sadece bayanlar mı, ya da sadece 20-25 yaş arası gençler mi, v.b.)

3. Örnekleme yöntemine karar verilir. (bu konu örneklemenin konusudur ve çeşitli yöntemler vardır, örneğin basit rastgele örnekleme, sistematik örnekleme, tabakalı örnekleme, küme örneklemesi, vb.)

4. Çerçevenin belirlenmesi (çerçeve anket uygulanacak birimlerin listesi gibi düşünülebilir, böylece çalışmanın sınırları çizilmiş olur, örneğin anket bir ilçede uygulanacaksa her mahalleden kaç kişiye anket uygulanacağını belirlemek çerçeveyi çizmek anlamına gelir)

5. Anket yüzyüze görüşme yöntemi ile uygulanacaksa, bu işi en iyi ve doğru şekilde yapabilecek, konuyla ilgili bilgilendirilmiş anketörlerin seçilmesi. (örneğin inşaat malzemeleri üreten bir firma, yapı malzemelerinin tercihi konusunda anket yaptırmak istediğinde, malzemelerin özelliklerini ve ne işe yaradığını bilmeyen konudan bihaber anketörlere görev vermek sizce ne kadar doğru olur?)

6. Anketin sahada uygulanması ve verilerin toplanması. (anketin uygulanması başlı başına uzmanlık isteyen bir durumdur. Öyle ki, anketörün tutum ve tavrı, soru sorma stili, ses tonu, giydiği kıyafete kadar özenle tespit edilmelidir. Örneğin bir diş macunu firmasının anketinde, 32 dişi pırıl pırıl parlayan çok güzel dişlere sahip bir anketöre bu işi yaptırırsanız, belki haftada bir diş fırçalayan biri, günde üç kez diş fırçalamakta olduğunu beyan edebilir, çünkü anketörün görünümü karşısında ezilmiş ve kendini kötü hissettiği için de maalesef yanlış beyanda bulunmuştur.)

Verilerin anket yoluyla toplanması genel olarak bu biçimdedir. Örnekleme konusu ilerleyen haftalarda ele alınacaktır.

3.2. Verilerin Düzenlenmesi

Aşağıdaki örnek veriyi kullanarak verilerin düzenlenmesi ve özetlenmesi konularını ele alacağız:

Örnek Veri:

Örnek veri seti, 1 ile 20 arasında değer alan 50 adet gözlemden oluşmaktadır.

Dizi:

Bir veri setinin dizi haline getirilmesi demek, ya küçükten büyüğe, ya da büyükten küçüğe sıralamaktır. Genellikle küçükten büyüğe sıralama yapılır. Diziye bakarak en küçük değer ile en büyük değer arasındaki farkı belirleyerek, böylece gözlemlerin hangi aralıkta dağıldıklarını görebiliriz. Dizideki en küçük değere Xmin, en büyük değere Xmax, aralarındaki farka ise “açıklık” yani “range”, “değişim aralığı” da denebilir.

3.3. Grafikler

3.3.1. Basit Serinin Sunumu İçin Nokta Diyagramı

Verinin değişim aralığını göstermek üzere ölçeklendirilmiş bir doğru üzerinde her bir gözlemin bir nokta ile temsil edildiği bir grafiktir.

Şekil.3.1. Nokta Diyagramına Bir Örnek

Gözlem değerlerinin daha çok hangi değerler etrafında toplandıklarını, ne yönde ve ne büyüklükte dağıldıklarını ve de uç değerleri görmek açısından faydalı bir düzenleme olan nokta diyagramında aynı değere sahip birden fazla gözlem söz konusu olduğunda, noktalar bu değer üzerinde dikey olarak sıralanırlar. Örnek verinin nokta grafiğine bakıldığında verinin daha çok sol tarafta toplandığını, gözlemlerin büyük bölümünün 5-11 aralığına düştüğünü görebiliyoruz.

Örnek: Aşağıdaki verinin nokta diyagramını çizerek yorumlayınız.

Önce veri setini bir dizi haline getirmeliyiz, yani küçükten büyüğe doğru sıralamalıyız:

Nokta diyagramına baktığımızda verilerin 107 dolayında yaklaşık olarak simetrik dağıldıklarını, 129 ve 145 uç değerlerini görüyoruz.

3.3.2. Frekans Serisinin Sunumu İçin Çizgi Diyagramı

Veri kümesine bakarak verideki her bir değerin kaç defa tekrar ettiğini görmek mümkündür. Grafiksel bir yola başvurmaksızın, her bir gözlem değerini frekansıyla (sıklığıyla) birlikte gösteren bir tablo düzenlersek, frekans (sıklık) dağılımını elde etmiş oluruz. Böyle serilerin grafik sunumunda çizgi diyagramı kullanılır.

Örnek veri setimizin frekans dağılımını oluşturalım:

Sıklıkların toplamı yani , gözlem sayısı n’e eşittir. Burada k, sınıf sayısıdır. İleride sınıflanmış seri kavramını göreceğiz. Buradaki sınıftan kasıt, farklı değerler olarak anlaşılmalıdır. Yani şimdilik gerçek anlamda bir sınıftan bahsetmiyoruz.

Frekans dağılımının grafiksel gösteriminde çoğunlukla çizgi diyagramına başvurulur.

Şekil.3.2. Çizgi Diyagramına Bir Örnek

3.3.3. Sınıflanmış Serinin Sunumu İçin Histogram

Gözlem sayısı çoğaldığında, her bir verinin çizgi diyagramında olduğu gibi tek tek gösterilmesi güçleşmektedir. Bu nedenle, büyük veri seti söz konusu olduğunda verilerin sınıflandırılmaları yoluna gidilir. Verinin belli sınıflara bölünerek bu aralıklara karşılık gelen frekanslarıyla birlikte gösterildiği tabloya, sınıflandırılmış frekans dağılımı denir. Sınıflandırılmış frekans dağılımını oluşturmak için izlenmesi gereken adımlar şöyledir:

1. Verinin değişim aralığı (açıklığı- range’i) hesaplanır.

2. Değişim aralığı eşit uzunlukta alt aralıklara yani sınıflara bölünür. Sınıfların üst sınırı ile alt sınırı arasındaki fark o sınıfın sınıf genişliğini verir. Sınıf orta noktası, sınıfın alt sınırı ile üst sınırının ortalamasıdır. Sınıf sayısını bulmak için aşağıdaki formüllerden herhangi biri kullanılabilir;

k, sınıf sayısı ve n, veri setindeki gözlem sayısını ifade etmek üzere;

Değişim aralığı, sınıf sayısı ve sınıf genişliği arasındaki ilişki şöyledir;

3. Her bir sınıf aralığına kaç gözlemin düştüğü sayılır. Bu sayılar o sınıfın frekansını verir.

Örnek: Örnek veri setimizi sınıflandırılmış frekans serisi haline getirelim.

İlk olarak verinin değişim aralığını buluyoruz:

Xmax=20

Xmin=1

Range=19

Sonra, k sınıf sayısını buluyoruz:

k=1+3.3log(50)=6.6 bulduk, fakat k tamsayı olmak zorundadır, o halde k=7 alalım.

Sınıf genişliği= 19/7=2.714 bunu da 3’e yuvarlayalım.

İlk sınıfı bulmak için, Xmin değerine sınıf genişliğini ekleyelim. Böylece ilk sınıfın üst sınırını da bulmuş olacağız.

Histogram:

Histogram, dikey eksende sıklıkların, yatay eksende sınıf aralıklarının bulunduğu, yan yana dikdörtgen kutucuklardan oluşan bir grafik türüdür. Her bir kutu bir sınıfa tekabül eder ve kutunun alanı, ilgili sınıfın sıklığını verir.

Kutunun alanı=taban*yükseklik

Burada taban, sınıf genişliğidir, yani ilgili sınıfın üst sınırı ile alt sınırı arasındaki farktır. Bu değeri “h” ile ifade edersek, yükseklik şuna eşittir:

Kutunun yüksekliği = fi/h’tır.

Bu durumda kutunun alanı=h*( fi/h) = fi’dir yani ilgili sınıfın sıklığı (ilgili sınıftaki birim sayısı) dır.

Histogram çizerken şu adımlar izlenir:

1. Sınıf sayısı (k) belirlenir. Hatırlanacağı üzere k’ye elde etmek için çeşitli formüllerimiz vardı.

2. Sınıf aralığının genişliği belirlenmeli. Peki bu işlem nasıl yapılır? Bir çubuk düşünelim. Bu çubuğun boyu “range” olsun yani “Xmax-Xmin” demek istiyoruz. k’ya yani sınıf sayısını da bulduğumuza göre, bu çubuğu kaç parçaya böleceğimiz belli demektir. Çubuğu k tane parçaya böleceğiz. O halde “range/k” bize çubuğu böldüğümüz k tane parçanın bir tanesinin uzunluğunu verecektir. Bu uzunluk sınıf genişliğidir, yani sınıfın üst sınırı ile alt sınırı arasındaki farktır yani histogramda ilgili sınıfa ait kutunun taban uzunluğudur.

Örnek: Örnek veri setimizin histogramını çizelim.

k=7 alarak, sınıf genişliği 2.714 (bu değeri range/k’dan bulduk) olarak alınsaydı sınıflar aşağıdaki gibi olurdu:

Son sınıfın üst sınırı, 19.998 olarak bulduk ancak bu tamamen virgülden sonra 3 basamakla yetinmemizden kaynaklandı, şayet en azından 5 basamak alsaydık, 20’yi kapsayan bir değer bulacaktık ama böyle olduğunu bildiğimiz için son sınıfın üst sınırını “20” diyerek kapattık. Görüldüğü gibi sınıf genişliğini yuvarlamadan da sınıflandırılmış sıklık dağılımını elde edebiliriz. Gözlemlerimiz tamsayı oldukları için gözlem değerleri sınıf sınırlarıyla çakışmadı. Sıklıklar yazılırken örneğin ilk sınıfın üst sınırı 3.714 olduğundan, bu sınıfa sadece “1,2,3” dâhil edildi, 4 tabii ki alınmadı. 2. Sınıfın sıklıkları yazılırken “4,5 ve 6” alında, tabii ki 7 alınmadı, v.b.

Şekil.3.3. Histograma Bir Örnek

Bu uygulamadan da görüldüğü üzere, bir frekans serisini sınıflandırılmış frekans serisine dönüştürmenin birden fazla yolu vardır (yuvarlama yaparak veya yuvarlama yapmadan yahut k’nın formül seçiminden kaynaklı farklı sınıf sayıları ortaya çıkabilir, vb.). Dikkat edilmesi gereken hususlar ise, veri setindeki tüm gözlemlerin sınıflar tarafından kapsanması, hiçbir verinin açıkta kalmamasıdır. Ayrıca, her bir veri sadece bir sınıfa ait olmalıdır, bir veri birden fazla sınıfta yer alamaz.

3.3.3.1. Sıklık Poligonu

Sıklık poligonu frekans poligonu olarak da adlandırılır. Histogramda dikdörtgen kutuların üst kısmında sınıf ortalarının birleştirilmesiyle elde edilir.

Şekil.3.4. Sıklık Poligonuna Bir Örnek

3.3.4. Box-Whisker Grafiği

Bu grafik türünde beş adet istatistiksel özet bir arada görülür. Bunlar; Xmax, Xmin, Q1 (1. Çeyrek yani küçükten büyüğe sıralanmış bir seriyi %25’ten kesen değer), Q2 (2. Çeyrek, asıl adı medyandır, küçükten büyüğe sıralanmış bir seriyi %50’den kesen değer), Q3 (3. Çeyrek yani küçükten büyüğe sıralanmış bir seriyi %75’ten kesen değer).

Aşağıdaki şekilde örnek veri setimizin SPSS’te çizilmiş Box-Whisker grafiği yer almaktadır.

Şekil.3.5. Box-Whisker Grafiğine Bir Örnek

3.3.5. Daire (pasta) Grafiği

Daire şeklindedir. Bu grafiği çizmek için her bir sınıfın sıklığının toplam sıklık içindeki oranı bilinmelidir. Toplam sıklık 3600 olmak üzere, sınıflar sıklıkları oranında birer dilimle temsil edilirler.

Örnek: İstanbul’da 10 milyon yetişkin bulunduğunu varsayalım. Bu kişilerden 3 milyonu ilk okul mezunu, 4 milyonu ortaokul mezunu, 2 milyonu lise mezunu, 1 milyonu üniversite mezunu ise daire grafiğini çiziniz.

Çözüm:

Oran orantıyla sınıfların kaç derecelik açıyla temsil edilmesi gerektiğini hesaplayacağız.

Örneğe ilişkin pasta diyagramı aşağıdaki gibidir:

Şekil.3.6. Daire Grafiğine Bir Örnek

Yukarıdaki daire grafiğine bakıldığında, 144 derecelik kısım ortaokul mezunlarına, 108 derecelik kısım ilkokul, 72 derecelik kısım lise, 36 derecelik kısım üniversite mezunlarına aittir.

Comments