Genelde istatistikler yalan söylüyor deriz ama istatistikler yalan söylemez. Çünkü istatistik matematikten doğan enfes bir alandır. İstatistikler, çevremizdeki kalıpları anlamamıza yarar. Ancak konu bu kalıpları yorumlamaya geldiğinde sezgilerimiz bizi yarı yolda bırakır. Devamında da çeşitli istatistik hataları yaparız.
Dikkat Etmeniz Gereken İstatistik Hataları
1. Ortalamalar Arasındaki Küçük Farklılıkların Önemli Olduğunu Varsaymak
Diyelim ki elimizde iki tane karşılaştırmak istediğimiz grubumuz olsun. Bir çalışmada kadın ve erkeğin gram cinsinden günlük ekmek tüketim miktarını inceleyelim. Sorumuzu 100 kişiye sorduğumuzu ve cevapları topladığımızı düşünelim. Tüketim miktarının ortalaması kadınlar için 152 gr. erkekler içinse 150 gr. bulunsun.
Bu sonuca göre yapacağımız yorum, kadınların erkeklerden daha fazla ekmek tükettiği olacaktır. Ancak bu yorumda bir hata vardır. Sonucunda kadın ve erkek açısından ortalama değerler birbirlerine matematiksel olarak oldukça yakın. Ortalamalar arasında farklılık bu kadar küçükken, analiz sonucu anlamlı farklılık çıkmasının sebebi, veri kümesine dahil olan dış koşulların niteliğinin göz ardı edilmesidir.
Böylesi küçük farklılıkların anlamlı çıkması, bizi başka bir önemli değerin incelenmesine yönlendirmeli. İstatistiksel ifadeyle, ortalamanın standart sapmasının (varyansın karekökü olup gözlemlerin ortalama civarındaki uzaklığının ölçüsünü verir) büyüklük değerinin kontrol edilmesini düşünmemiz önemlidir. Eğer ortalamanın standart sapma değeri oldukça büyükse, toplanan veri kümesini yeniden incelemeniz ve sonuçlarınızı gözden geçirmeniz gerekir.
2. İstatistiksel anlamlılığı gerçek dünyadaki anlamlılıkla eşitleme
Kadınların daha bakımlı, erkeklerin ise fiziksel olarak daha güçlü olduğu gibi iki grubun bir şekilde nasıl farklılaştığına dair genellemeleri sıklıkla duyarız. Bu farklılıklar genellikle iki grup arasındaki insan benzerliklerini ve grup içindeki insan farklılıklarını göz ardı eder.
Rastgele iki erkek seçerseniz, fiziksel güçleri arasında büyük bir fark olması muhtemeldir. Eğer bir erkek ve bir kadın seçerseniz, yetiştirme açısından çok benzer ya da çok farklı olabilirler.
Bu nedenle genellemeler yerine gruplar arasındaki farkların “etki büyüklüğünü” sorarak bu hatayı önleyebilirsiniz. Etki büyüklüğü (effect size), bir grubun ortalamasının diğerinin ortalamasından ne kadar farklı olduğunun ölçüsünü verir. Etki büyüklüğü küçükse iki grup birbirine çok benzer demektir. Ancak etki büyüklüğü büyük olsa bile, bir grubun tüm üyeleri diğer grubun tüm üyelerinden farklı olmayacaktır.
3. Veri Kümesinde Aykırı Değer (Uç Değer) Analizi Yapmamak
Aykırı değer analizi, istatistiksel araştırmalarda oldukça önemli yer tutar. Kısaca ortalama dediğimiz aritmetik ortalama (beklenen değer), elimizdeki gözlemlerin tümünün toplanıp gözlem sayısına bölünmesiyle elde edildiğinden, verilerin büyüklük/küçüklük miktarlarına karşı aşırı duyarlıdır. Etki büyüklüğü odaklandığınız şeyin normal dağılımın (bazen çan eğrisi olarak da adlandırılır) izlediği durumlarda anlamlıdır.
Bundan dolayı gözlemlerin değerinden oldukça küçük ya da büyük değer/ler (ortalamadan 3 ya da 4 standart sapma uzakta olan/lar) istatistikte aykırı değer olarak adlandırılmaktadır. Peki, aykırı değerler neden bu kadar önemli? Çünkü bir aykırı değer, ortalamanın değerini kendi değerine doğru çekeceğinden, veri kümesinde baskın bir değer olacaktır. Dolayısıyla biz istatistikçiler, baskın değerleri, baskın oldukları için incelemeye tabi tutarız.
Hemen basit bir örnekle anlatayım. Elimizde (4, 5, 6, 7, 8) değerli olan 5 tane gözlemimiz olsun. Bu 5 gözlemin ortalaması 30/5 = 6’ dır. Şimdi de 8 değerine sahip gözlem yerine 38 değerini yazalım. Bu durumda ortalamamız 60/5 = 12 olacaktır.
Gördüğünüz gibi veri kümesinin ortalaması tam 2 katına çıktı. İşte bu 2 katı fark, istatistiksel hipotez testlerini de etkileyecektir. Ve küçük farklılıklar istatistiksel analiz sonucunu, anlamlı ya da anlamsız çıkması yönünde etki edecektir.
4. Tesadüfi İlişkilere Anlam Atfetmek
Bir kavşaktan geçen araba sayısı ile bir ağaçtan düşen yaprak sayısı arasında ya da ABD’de kişi başına düşen mozeralla peyniri tüketim miktarı ile doktoralı inşaat mühendisi arasında bir ilişki olduğunu biliyor musunuz? İnanmıyorsanız aşağıdaki grafiğe göz atabilirsiniz.
Yeterince dikkatli bakarsanız, yalnızca tesadüflerden kaynaklanan ilginç modeller ve korelasyonlar bulabilirsiniz. Ancak iki şeyin aynı anda ya da benzer şekillerde değişmesi, bunların birbiriyle ilişkili olduğu anlamına gelmez.
Sahte korelasyonlar (ilişki) istatistik okuryazarlığı açısından başlı başına öğrenilmesi gereken bir konu. İki konunun aynı anda ve benzer kalıplarda değiştiğini görmeniz, bunların birbiriyle ilişkili olduğunu düşünmeniz anlamına gelmemelidir. İlişkilendirilen değişkenlerin ne kadar güvenilir olduğunu sorgulamanız oldukça önemlidir.
5. Ters Nedensellik İlişkisi
İki konu ilişkili olduğunda – örneğin işsizlik ve ruh sağlığı sorunları gibi– ‘bariz’ bir nedensellik görmek bize cazip gelecektir. Diyelim ki hipotezimiz, akıl sağlığı sorunlarının işsizliğe yol açtığı olarak kurulsun. Ancak bazen bu nedensellik, işsizliğin zihinsel sağlık sorunlarına yol açması gibi diğer yönde de değerlendirilmesini gerektirecektir.
Bir ilişki gördüğünüzde, ters nedensellik hakkında düşünmeyi hatırlayarak bu hatayı önleyebilirsiniz. Etki diğer yöne gidebilir mi? Yoksa bir geri besleme döngüsü oluşturarak her iki yöne de gidebilir mi? Bunu sorgulamanız önemli olacaktır.
6. Dış Nedenleri Göz Önünde Bulundurmayı Unutmak
İnsanlar genellikle olası ‘üçüncü faktörleri’ veya iki konu arasında bir ilişki oluşturabilecek dış nedenleri değerlendirme şansına sahip olamayabilirler. Bazen her iki konunun aslında üçüncü faktörün sonuçları olduğunu fark edemezler.
Örneğin, restoranlarda yemek yeme ile daha iyi kardiyovasküler sağlık arasında bir ilişki bulunduğu iddia edilsin. Bu ikisi arasında nedensel bir bağlantı olduğuna inanmanız beklensin. Ancak, düzenli olarak restoranlarda yemek yemeye gücü yetenlerin, sosyo-ekonomik düzeyleri yüksektir. Dolayısıyla daha iyi sağlık hizmetini daha iyi sağlık merkezlerinden alabilirler, daha düzenli sağlık taramaları geçirirler ve bu yüzden şanslı gruptalardır.
Bu sebepledir ki, bir korelasyon gördüğünüzde üçüncü faktörleri düşünmeyi hatırlayarak bu hataya düşmeyi önleyebilirsiniz. Daha fazla bilgi için bu yazımıza da göz atabilirsiniz: Korelasyon ve Nedensellik Nedir? Korelasyon Neden Nedensellik Anlamına Gelmez?
7. Aldatıcı Grafikler – Ölçeklendirme
Bir istatistik hatası da grafikleri yorumlama esnasında olur. Oluşturulan grafiklerde dikey eksenin ölçeklendirilmesinde ve etiketlenmesinde bilinçli ya da bilinçsiz hatalar meydana gelir. Bu yüzden grafik etiketleri, baktığınız konunun tam anlamlı aralığını göstermelidir.
Hatta bazen grafik oluşturucu, küçük bir fark olduğunu vurgulamak ve ilişkilendirmeyi daha etkili göstermek için daha dar bir aralık seçmeye yönelebilir. Şöyle ki, yukarıda gördüğünüz sol tarafta yer alan grafik, 0’dan 100’e kadar ölçeklenince, iki sütun aynı yükseklikte görünmüş. Fakat aynı verileri yalnızca 52,5’dan 56,5’e kadar gösterirseniz, büyük ölçüde farklı görüneceklerdir. Eksenler boyunca grafiğin etiketlerini not etmeye özen göstererek, bu hatayı önleyebilirsiniz. Özellikle etiketlenmemiş grafiklere karşı şüpheci olmak, böylesi bir hatadan kaçınmanıza yardımcı olacaktır.
Sözün özü, istatistikler yalan söylemez, söyletmek için uğraş verilir! Gerçekler acı da olsa bilinmeyi hak eder ve er ya da geç karşımıza çıkar.
Kaynaklar ve ileri okumalar
Meet The 7 Deadly Sins of Statistical Misinterpretation – And How to Avoid Them. Yayınlanma tarihi: 28 Mart 2027. Kaynak site: Conversation. Bağlantı: The seven deadly sins of statistical misinterpretation, and how to avoid them
Matematiksel