Hafta 3 - Veri Bilimi Analiz Tipleri ve Veri

4 dakika tahmini okuma süresi

Analiz Tipleri

Bu yazıda veri biliminin uğraştığı analiz tiplerine değiniyor olacağız. Kolaydan zora gidecek şekilde şöyle listeliyor Johns Hopkins’teki hocalarımız:

  • Betimsel (Descriptive)
  • Açımlayıcı (Exploratory)
  • Çıkarımsal (Inferential)
  • Tahmini (Predictive)
  • Nedensel (Causal)
  • Mekanik (Mechanistic)

Betimsel Analiz

Amaç: Bir veri setini tanımlamak.

Genelde yapılan ilk veri analizi tipidir bu analiz. Burada herhangi bir çıkarım veya hedef gözetmeksizin verinin niteliği incelenir. En sık olarak da nüfus verisine uygulanır, işte nüfusun ne kadarı erkek, ne kadarı dişi; eğitim seviyeleri; yaş aralıkları gibi örnekler verilebilir. Unutulmaması gereken nokta, betimleme ile yorumlamanın farklı adımlar olduğudur bu noktada.

Açımlayıcı Analiz

Amaç: Buradaki amacımız bilmediğimiz bağıntıları bulmaktır.

Açımlama modelleri yeni bağlantılar bulmak için kullanılırlar ve gelecekte yapılacak çalışmaları tanımlamak için çok kullanışlıdırlar. Ancak buradaki önemli noktalar şöyle sıralanabilir:

  • Korelasyon, neden sonuç bağını otomatik olarak zorunlu kılmaz.
  • Sadece keşfi analiz ile genelleme/tahmin etme yapılmamalıdır. Bu fikir çok çekici de olsa bu aşamada bunu yapmak sizi yanlışa götürür.

Bu analizlere örnek olarak beynin çeşitli uyaranlara ne tepki verdiğini inceleyen MRI görüntüleri örnek verilebilir.

Çıkarımsal Analiz

Amaç: Küçük bir veri örneklemi kullanılarak daha büyük bir popülasyon hakkında bir şeyler söyleme amacı güdülür.

Bu analiz tipi genelde istatistiki modellerin hedefidir. Çıkarımlar önem verdiğiniz sayıyı tahmine ve bu tahmininizden ne kadar emin olduğunuza; bununla beraber örnekleme şemanıza,ve bu şemayı kullandığınız popülasyon seçimine önemli derecede bağlıdır.

Sözgelimi, ben üniversite öğrencileri arasında lüks otomobil kullanımının ne kadar yüksek olduğunu araştırıyorsam ve örneklem uzayımı özel üniversite öğrencileri arasından seçersem doğal olarak bu oranın yüksek olduğunu bulurum. Ya da rastgele seçilmiş bir popülasyon içinden sosyoekonomik seviyesi yüksek öğrencilerden bir seçilim yaparsam yine gerçeği yorlayamam. Dolayısıyla bir sosyal bilimci olarak popülasyonunuzun ve bu popülasyon içerisinden seçtiğiniz örneklemin ne kadar gerçeği yansıttığı her zaman bir muamma olarak kalacaktır.

Tahmini Analiz

Amaç: Bazı nesneler üzerindeki veriyi kullanarak, başka bir nesnenin değerlerini tahmin etme amacı güdülür.

Bu istatistiki modellerin zorlandığı analiz biçimlerinden birisidir. Burada da dikkat edilmesi gereken birkaç püf noktası bulunur hocalarımızın dediği üzere:

  • Eğer X, Y’den önce oluyorsa; otomatik olarak Y’nin sebebi X’tir diyemeyiz, dememeliyiz.
  • İstatistik içinde kullandığımızdan daha iyi (ve kötü) tahmin modelleri olsa da pek zaman basit bir modele sağlanan daha fazla veri daha çok işe yarar (bunu ben de anlamadım)
  • Doğru tahmin, doğru değişkenlerin ölçülmesine son derece bağlıdır.

Nedensel Analiz

Amaç: Buradaki amacımız bir değişkeni değiştirdiğimizde, başka bir değişkene ne olduğunu bulmaktır. (Bağımlı/bağımsız değişken)

İşte burada rastgele örneklem seçilimli çalışmalar nedenselliği bulmak için kullanılır. Nedensel ilişkiler genelde ortalama etkileri olarak bulunurlar ve dolayısıyla her bireye uymayabilirler. Nedensel modeller genelde veri analizi için “altın standardı” değerindedir.

Mekanik Analiz

Amaç: Değişkenlerdeki en ufak değişimlerin bireysel nesnelerdeki diğer değişkenleri nasıl değiştirdiğinin anlaşılmasıdır.

Hocalarımız bu araştırma tipini çok önermiyorlar. Zira “bağıntı kurması, basit durumlar haricinde, çok zordur” deniliyor en baştan. Genelde determinist eşitliğ dizileri tarafından modelleniyorlar bunlar ve verinin içindeki rastgelelik, ölçüm hatasından kaynaklıdır. Eğer eşitlikler biliniyor ama parametreler belirsizse, veri analizi ile bunlar çıkarımlanabilir diyorlar.

Kabul etmek gerekirse, bu analiz tipinden bir şey anlamadım diyebilirim. Başımıza geldiğinde, örnek üstünden anlaşılır diye umuyorum.

Veri Nedir?

Tanım

“Veri, bir dizi öğeye ait kalitatif veya kanitatif değişkenlerin değerleridir.”

“bir dizi öğe”

Bazen popülasyon olarak da isimlendirilen ve sizin ilgilendiğiniz nesne serisidir.

“değişkenler”

Bir öğenin ölçümü veya karakteristiğidir

“Kalitatif”

Doğduğu ülke, cinsiyet, tedavi tipi gibi metinsel veriler

“Kanitatif”

En, Boy, Kan basıncı gibi sayısal veriler

Burada, doğru biçimde, altını çizdikleri şöyle bir şey var arkadaşlar. Veri, elimizdeki en önemli ikinci şeydir!, elimizdeki en önemli şey sorumuzdur. Çok zaman eldeki veri soruları sınırlar veya soruyu geçerli kılar ama elinizde sadece veri varsa ama sorunuz yoksa bu sizi kurtarmaz!

Yani en başta sorumuzu soruyor, akabinde de bu soruyu yanıtlandırabilecek verinin peşinden koşmamız gerekiyor.

Deney tasarımı

Burada şöyle güzel bir akış veriliyor, ben bunu acayip beğendim o yüzden direkt çevirmeyi uygun görüyorum:

  • Veri ve kod paylaşımı için bir planınız olsun (Merhaba şeffaflık, merhaba tekrar edilebilirlik!)
    • Github (kod için)
    • Figshare (veri için)
  • Sorunuzu önceden formüle edin
    • Örnek: Web sitesindeki yazıyı değiştirmek, bağışları yükseltir mi?
    • Deney:
      • Ziyaretçilere rastgele biçimde iki versiyondan birisini göster
      • Ne kadar bağışta bulunduklarını ölç
      • Hangisinin daha iyi olduğuna karar ver
  • İstatistiki çıkarım İstatistiki çıkarım

  • Karıştırıcı öğelere dikkat etmeli Bu ilginç bir konu, burada ölçmeye çalıştığınız iki değişkenin arasında bir üçüncü veya dördüncü değişkenin olup olmadığına kafa yoruyorsunuz. Mesela ayak numarası ile eğitim seviyesi arasında bir bağıntı bulmaya çalışan bir araştırmamız olsun. İlk etapta gerçekten, ayak boyu büyüdüğünde okuryazarlık seviyesinin de arttığını görürüz; ancak arada karışan değer yaş burada. 1 yaşındaki bebeğin ayak boyu 30 yaşındaki adamla kıyasla küçüktür ve okuma yazma seviyesi düşüktür. Dolayısıyla bu araya karışan (confounding) değişkenlere dikkat ederek, bunları sınırlamaya çalışmak gerekir.
  • Rastgelelik ve Bloklama
    • Eğer bir değişkeni sabitleyebiliyorsanız (ve sabitlemek istiyorsanız) sabitleyin.
      • Ör: Websitesi daima şu metni içerir
    • Eğer bir değişkeni sabitleyemiyorsanız, katmanlandırın
      • Ör: Katılım cümlelerini test ediyorsanız ve iki farklı web site renginiz varsa, aynı cümleleri eşit biçimde iki versiyonda da kullanın
    • Eğer bir değişkeni sabitleyemiyor veya katmanlandıramıyorsanız, rastgele hale getirin.
      • Rastgelelik aradaki karıştırıcı değer etkisini olabildiğince azaltır.
    • Tahmin etmek, bağıntı kurmaktan daha zordur.

Özetle

İyi deneyler

  • tekrarlanabilir
  • değişkenliği ölçülebilir
  • araştırdığınız sorunu genelleştiren
  • şeffaf

deneylerdir.

Tahmin etmek, bağıntı kurmak demek değildir, ancak her ikisi de önemli olabilir.

Gelecek derste R Programlama Diline başlıyor olacağız.