I. Metodolojinin Motoru: İstatistiğin İki Büyük Yasası
Anket, Belirsizliğin Matematiği: Devasa bir kitleyi nasıl küçük örneklemlerle temsil ederiz? Anket, çok büyük kitleleri (evren) küçük ve yönetilebilir bir modelle (örneklem) temsil etmemizi sağlar.
Rastgelelik (Random Sampling) istatistiğin temellerindendir. Her bireyin tamamen rastgele seçilmesi, sonuçların güvenilirliğinin temelini oluşturur.
İstatistik birkaç teori ile temellendirilir ve Deney Tasarımları (DOE) bu teorilerin üzerine inşa edilir. Anket tasarımı da bir İstatistiksel Deney Tasarımıdır ve anket tasarımında da temel istatistiki teorilerin düzleminde ilerlenmelidir.
İstatistiksel Deney Tasarımının yükseldiği iki düzlem “büyük sayılar yasası” ve “merkezi limit teoremi”dir (CLT).
Büyük Sayılar Yasası: Yeterince büyük ve tamamen rastgele seçilmiş bir örneklemin ortalaması, evrenin gerçek ortalamasına yakınsar. Rastgelelik temsiliyeti, yeterince büyük veri ise doğruluğu garanti eder.
Merkezi Limit Teoremi: Evrendeki verinin şekli ne kadar ayrık ve kaotik olursa olsun, yeterince büyük (n≥30) rastgele örneklemler çekildiğinde, bu örneklem ortalamalarının dağılımı (sampling distribution of the mean) kusursuza yakın bir Normal Dağılım oluşturur.
II. Belirsizliği Formüle Etmek: Hedef, Güven ve Operasyonel Maliyet
Bir ankete başlamadan önce "Kaç kişiye sorulmalı?" sorusunun cevabı aşağıdaki denklem ile bulunur:
Bu denklemin üç ana dişlisi vardır:
1. Z (Güven Seviyesi): Ölçüm Sistemine Duyulan Güven.
Veri analitiğinde endüstri standardı genellikle %95'tir (Z=1.96).
Yanılgı: Deneyi 100 kere yapsak 95'inde tam olarak aynı sayıyı buluruz.
Doğru: Eğer bu testi tamamen farklı kitlelerle 100 kez tekrarlayıp 100 farklı güven aralığı hesaplasaydık, bu aralıkların 95'i aradığımız gerçek oranı içinde barındırırdı.
Kısaca çıkan tekil sonuca değil, kullanılan bilimsel metodolojinin isabet oranına güvenilir.
2. p (Beklenen Oran): En Kötü Senaryoya Hazırlık
İncelenecek kitlenin davranışları ne kadar çeşitli? Eğer bu hiç tahmin edilemiyorsa veya fikir oluşturacak hiç veri yoksa, formüldeki varyans değerini (p*(1-p)) tepe noktasına çıkaran %50 ihtimali baz alınır. Bu, tıpkı havaya atılan bir paranın yazı mı tura mı geleceğinin tamamen belirsiz olması gibidir ve matematiksel olarak ihtiyaç duyulan en yüksek örneklem sayısını verir. Kısacası, planlama en yüksek belirsizlik senaryosuna göre yapılarak risk minimuma indirilir.
3. E (Hata Payı): Hassasiyetin Operasyonel Maliyeti
Çıkan sonuçta ne kadarlık bir sapma kabul edilebilirdir? (±%2, ±%5 ...) Formülün paydasında yer alan bu değer çok net bir kural koyar: Hata payını küçültmek, yani çok daha hassas bir ölçüm yapmak isteniyorsa, toplamamız gereken veri sayısı hata payının karesiyle orantılı olarak büyür. Kısaca hedeflenen hassasiyet arttıkça, operasyonun zaman ve efor maliyeti de katlanarak artar.
Hata Payı ve Güven Seviyesi kavramları birbirleri ile ilişkili olmakla beraber farklı noktaları ifade eder.
Hata payı hedefin büyüklüğüdür, güven seviyesi ise o hedefi tutturma ihtimalidir.
Bir Metafor: Hata Payı ve Güven Seviyesi Aslında Nedir?
"Güven Seviyesi" (Z) ve "Hata Payı" (E) kavramları kulağa birbirine çok benzer gelir ancak aralarında ters bir ilişki vardır.
Bunu atış talimi yapan bir okçu ve ustası üzerinden düşünelim:
Hata Payı (E): Okçunun vurmayı taahhüt ettiği hedefin (ambar kapısı, küçük kırmızı elma) genişliğidir.
Güven Seviyesi (Z): Atılan okun o hedefin içine düşme ihtimalidir.
Okçu yayı gerdiğinde ustası sorar:
“Oku attığında hedefi vuracağına yüzde kaç garanti verirsin?” İşte bu “Güven Seviyesi”dir.
Okçu yaya bakıp cevap verir: “Eğer hedef olarak bana şu koskoca ambar kapısını gösterirsen (geniş Hata Payı), %99 garanti veririm. Ancak hedef tam ortasındaki o küçük kırmızı elma ise (dar Hata Payı), onu tek seferde vurma garantim %5'e düşer.” Peki usta hem o küçücük elmanın hedeflenmesini hem de bunun %95 ihtimalle vurulmasını isterse ne olur? İstatistiğin kuralı nettir: Okçu ya hedefe çok daha yakından atış yapmalı ya da yörüngeyi tutturmak için denkleme devasa bir örneklem sayısı (n) ekleyip binlerce ok atmak zorundadır.
III. Sihirli Sayı 30’dan 4.000’e: Hassasiyet ve Maliyet Dengesi
İstatistik derslerinde hep bahsedilen popüler "30 kişi yeterlidir" kuralı (magic number), sadece normal dağılıma yaklaşmayı sağlar, yani matematiksel motorun çalışması için gereken minimum yakıttır. Ama güvenilirlik düzlemi için motorun çalışması yetmez, yükü de güvenle taşıması gerekir. Sistematik temelde bu iki aşamadan oluşur. Yani magic number ile sadece matematiğin kapı eşiğinden geçilir, hata payı ve güvenilirlik bu eşik aşıldıktan sonra hesaplanabilir ve kontrol edilebilir bir hal alır.
Örneklem Büyüklüğünün Maliyet ve Hassasiyet Dengesi
Teorik olarak, genel kitleyi temsil etmek ve hata payını yaklaşık %3.1 seviyesinde tutmak için 1.000 kişilik bir örneklem yeterli görülmektedir. Ancak gelişmiş veri analitiği pratiklerinde 4.000 gibi daha büyük örneklemlere ihtiyaç duyulmaktadır. Bunun temel nedeni, analizlerin alt kırılımlara (segmentlere) indirgenmesi durumunda, daralan her bir mikro grupta istatistiksel geçerliliğin korunması zorunluluğudur.
En yüksek belirsizlik senaryosu (%50 varyans) ve %95 güven seviyesi varsayımıyla, kitlenin 10 eşit alt segmente bölündüğü bir modelde ortaya çıkan istatistiksel tablo şu şekildedir:
• 1.000 Kişilik Örneklem: Genel evren hata payı %3.1'dir. Ancak kitle 10 segmente bölündüğünde, her segmente sadece 100 kişi düşer. Bu daralma, alt segmentin hata payını %9.8'e fırlatmaktadır. %10'a yaklaşan bir hata payı ile güvenilir iş kararları almak mümkün değildir.
• 4.000 Kişilik Örneklem: Genel evren hata payı %1.5'e düşmektedir. Kitle 10 segmente bölündüğünde her gruba 400 kişi düşmekte ve alt segmentin hata payı %4.9 seviyesinde kalmaktadır. Bu oran, standartlarda mikro kırılımlarda bile stratejik karar alınabilecek güvenli bir eşik olarak kabul edilmektedir.
• 10.000 Kişilik Örneklem: Genel evren hata payı %1.0'a inmektedir. Alt segmentlerde ise (grup başına 1.000 kişi ile) hata payı %3.1 olmaktadır.
Bu tablo, istatistikteki "azalan marjinal fayda" prensibini net bir şekilde özetlemektedir. Örneklemi 1.000'den 4.000'e genişletmek, alt segmentlerdeki hatayı yarı yarıya düşürerek veriyi kurtarmaktadır. Ancak, örneklemi 4.000'den 10.000'e (2,5 katına) çıkarmak, devasa bir operasyonel maliyet ve zaman kaybı yaratmasına rağmen, genel hata payında sadece %0.5'lik (binde beşlik) bir iyileşme sağlamaktadır. Dolayısıyla 4.000 sayısı, optimum maliyetle maksimum segment hassasiyetinin sağlandığı analitik bir denge noktası olarak konumlandırılmaktadır.
IV. Okyanus ve Çorba Analojisi: 85 Milyonu Ölçmek İçin Kaç Kişi Gerekir?
Veri analitiği projelerinde sıkça karşılaşılan en büyük yanılgılardan biri, "Kitlemiz çok büyük, dolayısıyla çok daha büyük bir örnekleme ihtiyacımız var" düşüncesidir. Oysa istatistik bilimi, kitle büyüklüğü belirli bir eşiği (~100.000) geçtikten sonra, gereken örneklem sayısının sabitlendiğini kanıtlamaktadır.
“Çorba ve Okyanus” Analojisi:
İyi karıştırılmış bir çorbanın tuz oranını anlamak için tencerenin tamamını içmeye gerek yoktur; bir kaşık çorba, tüm tencereyi temsil eder. Aynı şekilde, eğer rastgelelik (homojen dağılım) sağlanmışsa, bir okyanusun tuzluluk oranını ölçmek için de sadece bir kova su yeterlidir. Özetle, 1 milyon kişiyi ölçmekle 85 milyon kişiyi ölçmek matematiksel olarak neredeyse farksızdır.
Bu teoriyi %95 güven seviyesi ve %3 hata payı hedefiyle Türkiye demografisine uyarladığımızda ortaya çarpıcı bir tablo çıkar: 500 bin kişilik bir şehri ölçmek için gereken örneklem 1065 kişidir. 85 milyonluk tüm Türkiye'yi ölçmek için gereken örneklem ise sadece 1067 kişidir. Aradaki 84.5 milyonluk devasa nüfus farkına rağmen, istatistiksel gereksinimdeki fark sadece 2 kişidir.
Belirsizliği Yönetme Sanatı
Tüm bu istatistiksel mimariyi özetlemek gerekirse; dilden dile dolaşan o meşhur 30 sayısı, Merkezi Limit Teoremi'nin motorunu çalıştırmak için ihtiyaç duyulan minimum yakıttır. Ancak
1065 (alt segmentler dahil edildiğinde 4000) sayısı, o motorla gitmek istenen "hassasiyet" hedefine (düşük hata payına) ulaşmak için gereken toplam yakıttır.
Veri analistleri olarak, milyonlarca müşterinin ne istediğini tahmin etmeye çalışırken şöyle bir yol izlemeliyiz:
Belirsizliğin matematiğini kullanıp, motoru 30'la çalıştırmalı, 4000 ile segmentlere inmeli ve koca bir okyanusu doğru yerden alınmış bir kova suyla analiz etmeliyiz. Çünkü veri sadece sayılardan ibaret değildir; belirsizliği minimum maliyetle ve maksimum güvenilirlikle yönetmek, dönemimizin veri büyüklüğü ve yoğunluğu göz önüne alındığında en önemli gündemlerden biridir.
Kaynakça:
- Montgomery, D. C., & Runger, G. C. (2010). Applied Statistics and Probability for Engineers. John Wiley & Sons.
- Montgomery, D. C. (2008). Design and Analysis of Experiments. John Wiley & Sons.




