Big Data Programlama Dilleri

Veri işleme dilleri big datayı edinirken, depolarken ve bilgiye ulaşırken kullandığımız en önemli teknolojilerdir. Biz onlara bazen Python, bazen R Language bazen de Julia diyoruz..

Ayrıca gelişmekte olan başka veri işleme dilleri de var.

Fakat biz bugün bu saydıklarımın en kalifiye olduklarını biliyoruz. Bunu deneyimlerken de anlamak mümkün. Python,R ve Julia gibi diller vaktiyle istatistik ölçümleri, veri görselleştirme gibi amaçlar ile var olduklarında iyi bir ekosistem oluşturdular.

Bugün bu üç dil için de çeşitli deneyimler ile ortaya çıkmış binlerce adet eklenti, döküman ve örnek kod parçacıkları var. Haliyle en büyük olmalarının sebebi büyük bir özgür geliştirici ve kullanıcı ağına sahip olmaları.

Teknolojik açıdan da benzerlik gösteren bu dillerin bir çok ortak yönü var, ancak hangi işi yapacağınıza karar verirken göz önünde bulundurulması gereken önemli farklılıkları da mevcut.

İşte bu farklılıklar ve kullanım açısından en başarılı oldukları alanlar.

R Language

R dili 25 yıl önce ilk olarak, matris hesaplamaları – satır ve sütunlarda düzenlenmiş sayısal verilere uygulanan standart aritmetik fonksiyonlar – yapmak için tasarlandı. Bu çok önemli bir gelişme ve çözüm aracıydı.

Çünkü R bu matrisler ne kadar gelişse ve değişse de optimizasyonu otomatikleştirmek mümkündü.

Bilgiyi işledikten sonra görselleştirmek de oldukça kolaydı.

Tüm bu özelliklerin bir programda sunulması, veri bilimcilerin bu araçlara yönelmesini sağlamıştı.

R language yaklaşık 25 yıldır büyük bir kullanıcı ve geliştirici kitlesine sahip. Haliyle bu kadar sürede binlerce örnek teşkil edecek projede kullanıldı ve bu sayede hazır eklenti ve paketler de paylaşılmaya başladı. R dilini bu kadar ünlü eden şey, bir çok deneyime sahip ve özgür bir dil olması.

Büyük bir deneyimden kastettiğimiz küçük yapıların zaman içerisinde çoğalması değil bunun yanında Apache Spark’a bağlanılabilmesi için yayına sunulan SparkR paketi, görselleştirmeleri profesyonel düzeyde sağlayan ggplot2  paketi ve bunlara benzer bir çok kempleks yapı da bu deneyimler arasında bulunuyor.

Fakat genel açıdan bakılacak olursa R dili istatistiksel açıdan çok başarılı bir programlama dili olsa da bazı alanlarda rakiplerinin arkasında kalabiliyor. Bu sebeple modüler ve multi yapılarla çalışarak analiz ve monitoring aşamasını üst düzeye çıkarabilirsiniz.

Python

Python, R’a göre çok daha genel amaçlıdır ve nesne yönelimli programlama dillerinin de başında gelir. Yazılımcıların çoğunun hızlı aşina olabileceği bir dildir.

Python’un veri biliminde kullanılmasıyla beraber ikinci kez şöhretinin en tepesine çıkmayı başardı. Bu alanda R kadar popüler olmasa da gerçekten hızlı büyüyen bir kullanıcı kitlesi var. Yine de istatistik alanında uzun süredir yoksanız R hala hayat kurtarıcıdır. Python ise bu alanın genç ve dinamik oyuncusu.

Aslına bakılırsa Python, makine öğrenmesi ve dil işleme tekniklerini kullanmada ve bu odakta uygulamaların geliştirilmesinde tercih edilmeye başladı. Çünkü  Scikit-learn  ve Natural Language Toolkit gibi açık kaynaklı uygulamalar , kodlayıcıların bu alanda geliştirme yapmalarını kolaylaştırıyor. R’da oldupu gibi PySpark eklentisi ile Apache Spark’a erişim sağlanabiliyor ve benzeri paketler mevcut.

Ancak daha geleneksel analitik ve istatistiksel hesaplamalar ile ilgilenenler, R dilinin bu alanda Python’dan daha eksiksiz ve entegre bir geliştirme ortamı sunduğunu görebilir.

Julia

“Dünyanın En İyisi” sloganıyla çıkan Julia ile tanışın!

R ve Python, veri ve analitik odaklı programlama dilleri söz konusu olduğunda hala hüküm süren liderler, ancak bu alanda kendinden söz ettiren, dikkat çeken başka diller de var.

Julia kesinlikle Big Data konferanslarında bolca tartışılması ve üstüne düşülmesi gereken genç bir dil. Sadece bir kaç yıldır geliştiriliyor ve onunla çalışanlar şöyle söylüyor: “daha istikrarlı ve hızlı” bir dil.

Tüm dillerin en iyi özelliklerini örnek alarak geliştirilen Julia eklenti ve paketler konusunda diğerleri kadar iyi değil. Fakat onu geliştirenler ve kullananlar kesinlikle çok hızlı bir şekilde boynuzun kulağı geçeceğini söylüyorlar. Ayrıca istatistik konusunda uzun zamandır adından söz ettiren MATLAB ile benzer bir söz dizimine sahip olması profesyonellerin ona geçişini de kolaylaştırıyor.

Büyük dillerin veritabanı denetleme ve derleme işlemlerini hızla yapıyor olması maalesef eş zamanlı depolanan ve büyük bir hıza ihtiyaç duyulan gerçek zamanlı büyük veri akışlarında pek de işe yaramıyor. Julia işte tam da burada devreye giriyor, çünkü onun hızı bu gerçek zamanlı veri akışını takip etmeye fazlasıyla yetiyor.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir