Hafta 1 - Tanıtım

4 dakika tahmini okuma süresi

Giriş

Ya normalde size burada “Veri bilimi nedir?, Neden veri bilimi?” gibi soruların yanıtlarını vermem lazım, zira ders öyle başlıyor ama ben böyle yapmayacağım.

Size kendi hikayemi anlatmak istiyorum burada.

Bir sosyal bilimci olarak benim istatistikle çok aram olmadı öğrenciyken. Bazen bir SPSS’ten falan bahsedilirdi ama dönemimizde bu programı anlatacak bir ders yoktu henüz. Biz literatür tarayarak işlerimizi gören bir nesildik.

Daha sonra Groningen Üniversitesi’nde altı ay geçirdikten (ve sıkı bir SPSS çalışması gördükten) sonra neden bu adamların “istatistik! istatistik!” diye yırtındıklarını daha net anladım. Normalde siz bir tez yazarken veya araştırma yaparken dediğinizi kanıtlamak için elli dereden kaynak bulup getiriyorsunuz ya, eğer kanitatif biçimde çalışıyorsanız bu “destekleme” süreci acayip kolay hale geliyor. Kendi açımdan daha önce böyle olduğunu net idrak edemeyip devamında “vay anasını” tepkisini verdiğim şey de araştırmaların belli bir yapıya giriyor olması bu sayede.

Bize neredeyse döve döve Bem‘in bu konuda yazılmış makalesini okuttular. Ben de size aynı şeyi öneriyorum, bunun çıktısını alın. Her gün okuyun. Bazı noktaları artık eskimiş olduğu söylense de ben Daryl amcadan alabileceğimiz çok şey olduğunu düşünüyorum.

Basitçe adam bir tezin “kumsaati” biçiminde olduğunu söylüyor. Tezden çeviri yaparak alıntılarsam:

Açıklama Örnek
Tez girişi olabildiğince geniş başlar “Bireyler birbirlerinden duygularını ifade etme isteği ve becerisi oranında radikal biçimde ayrılırlar”
Giderek özelleşir “Hakikaten de, popüler görüş duygusal ifade yetisinin erkek ve kadın arasındaki temel farklardan birisi olduğu yönündedir… Ancak araştırmalar bu kadar net konuşmazlar.”
Daha da özelleşir “Hatta erkeklerin (…) olduğuna dair bazı kanıtlar vardır”
Ta ki siz kendi çalışmanızı kavramsal olarak ifade edebilir hale gelene kadar “Bu çalışmada biz erkek ve kadınların duygusal tepkilerini inceledik”
Metot ve sonuç kısımları en spesifik yerlerdir, kumsaatinin boğazıdır “(Metot) Üniversite öğrencisi yüz erkek ve yüz kadın alınarak iki filmden birisi gösterildi”
(Sonuç) “(Sonuçlar) Tablo 1 baba-izleyen (father-watching) durumdaki erkeklerin daha fazla ağladıklarını göstermektedir.
Tartışma kısmı, çalışmanızın ima ettiği şeylerle başlar “Bu sonuçlar duygusal ifade yetisindeki cinsiyetsel farkların iki farklı değişkenle yönetildiğini gösteriyor denebilir”.
Giderek genişler “Charles Darwin’in ilk gözlemlerinden bu yana psikoloji yeni bir şeyler…”
Ve daha da genişler “Eğer duygular karmaşıklığımızı gizleyerek bizi mahkum ediyorsa, en azından onları ifade etmek kendi özgünlüğümüzü göstererek bizi özgürleştirebilir.”

Makale çok daha geniş biçimde bu aşamalara değiniyor, örnekleri çevirirken bazen “ne ki bu” dediğim doğru olsa da makale taş gibi. Okuyun, okutun.

Kısacası empirik araştırma yapacağım diyorsanız, istatistik köyünden geçmemiz şart. İşte veri bilimi de tam da bu noktada devreye giriyor.

Neden veri bilimi?

Bu konuda dersin dediğine aynen katılıyor olacağım. Günümüzde veri biliminin bu kadar yaygınlaşmasında iki faktör anahtar rol oynamakta:

  • Veri toplama ve veri işleme araçlarının giderek ucuzlaması (hatta bedava hale gelmesi)
  • Eskiden sahip olmadığımız alanlarda (GPS, Genom vb.) veri sahibi olmamız.

Bunlara ek olarak ben şunu da söyleyebilirim, günümüzde kolumuza taktığımız akıllı saatlerden elde edilen kalp atışı, vücut sıcaklığı gibi verilerden tutun, kullandığımız araçların üretildiği fabrikalarda hafiften başlayan bir endüstri 4.0 dönüşümü ile bunları üreten makinaların verilerin olduğu bir geleceğe adım atıyoruz. Sosyal bilimler açısından bu kadar veri daha önceden elde edemediğimiz ve dolayısıyla değişken olarak alamadığımız bir çok faktörü bize sunuyor artık. Bunları değerlendirmek için big data gibi şeylerden, terabaytlarca veriden falan bahsediyor hale geliyoruz. Bunları işleyerek anlamlı bir yanıt haline getirmek de en azından sosyal bilimler dahilinde bizim payımıza düşen bir şey.

Neden istatistiki veri bilimi?

İstatistik, veriden bir şeyler öğrenme bilimidir. Veriyle alakalı bir belirsizlik olduğunda istatistik gelir ve bir rol oynar

diyor ders. Şimdi ben kendi adıma en zayıf olduğum noktanın tam da bu kısım olduğunu düşünüyorum. Eğer siz de benim gibiyseniz, ilerleyen vakitlerde zorlandığım yer olduğunda orada khan academy’den falan destek mahiyetinde dersler linkliyor olacağım. Sonuç olarak işin ağır yükünü R’a yaptırıyor olacağız - en azından ben SPSS dersi alırken bu durum böyleydi, işin “matematik” kısmını araç yapıyordu - ama gelen sonucu da anlayabilmemiz lazım.

Neden R?

Hepimiz (bunu) kullanıyoruz. En yaygın kullanılan dil, geniş bir paket ağı var ve bedava

Ya bu acayip doğru. Benim R ile tanışmam, en azından adını duymam 2009-2010’a rastlıyor. O dönem beraber Groningen’e gittiğimiz Bilkent’ten bir kız “R! R!” diye dolanıyordu ortada. O zaman felsefe/sosyoloji dönüşümünü yapmakta olan birisi olduğumdan ötürü çok önemsemeyip “herşey bilim değildir! Feyerabend! Lakatoş!” diye dolanıyordum ama hata yapmışım farkediyorum ki şimdi.

Adamların dediği gibi R her yerde. Hesapta 40 senelik dil (1970lerin ürünü) ama aynı SQL gibi endüstriye öyle hakim bir dil ki, biliyorsanız kesinlikle bir işinize yarıyor.

Veri bilimcisi kimdir?

Tematik olarak bu soruya yanıt verdiğimi düşünüyorum ama dersten yine bir kuple alalım:

Veri bilimcisi, (elindeki) veriyi analiz ederek sorulara yanıt vermeye ya da geleceği tahmin etmeye çalışan kişidir.

Bir yazılımcı olarak bu kısımdan geçtikten sonra (ki haftanın geri kalanı, uzmanlığın diğer derslerinde neler anlatacaklarını söyleyen videolardan oluşuyor. Muhakkak izleyin) en fazla şaşırdığım nokta, ilk videolarda söyledikleri şu kısım oldu:

Veri biliminde genel olarak ya elimizdeki soruya yanıt vermek için elimizde yeterli veri yoktur ve gidip onu bulmaya çalışırız; ya da elimizde çok fazla veri vardır ve elimizdeki soruya yanıt vermek için bu veri yığınındaki gereksiz bilgileri filtreleyip sorumuza odaklanmaya çalışırız.

Şimdi, elimizde yeterli veri olmamasını anlıyorum. Sözgelimi ben Türkiye’de yaşanan mevsimsel değişikliklerin şiddet olayları konusunda bir etkisi olup olmadığını araştırıyorsam elimde bu iki durumu karşılaştırabileceğim bir veri seti olmalı. Ama çok fazla veri? Buna örnek olarak Twitter Firehose veya Genom çıktıları veriliyor. Bu çok kafama yatan bir kavram değil açıkçası. Yıllar boyu SQL yazmaktan ötürü belki de ben “yapılandırılmamış” bir veri göremiyorum ama cahilliğime verin bu konudaki optimizmimi.

Sonraki ders

Bu dersin bir sonraki seansında bize ders sırasında kullanacakları araçları kurduruyor olacaklar:

  • Git
  • Github (kurulum değil, kabul ama hesap açılacak oradan)
  • R
  • RStudio
  • RTools

Ben gelecek yazıda bu araçlara değiniyor olacak olsam da, videoları izleyerek yapmaya çalışın derim. Zira kurulumlar genelde etliye sütlüye çok karışılmadan next->next->next şeklinde olacak. Kurulumların haricinde Markdown, Git ve R kullanımına da değiniyorlar ki bence esas kıymetli olan şey o olacak bizim için.

Yazılım ile uğraşmasanız bile herhangi bir metin dökümanı ile uğraşıyorsanız git’in faydasını çok göreceksiniz diye umut ediyorum bu arada.

Gelecek yazıda görüşmek üzere