Yeni Başlayanlar için Büyük Veri Terminolojisi

Büyük Veri, birçok özel terim içerir. Veriler ile çalışmaya başlamadan önce bu dünyada nasıl konuşulduğunu öğrenmek gerekiyor.

Veri biliminden en iyi şekilde yararlanmanın ilk adımı, terminolojinin en temelini anlamaktır.

Sizin için bir giriş terminolojisi anlatımı hazırladım. Bu makalede bahsedilen teknolojiler ve terimler Big data ile çalışmaya başladığınız andan itibaren hayatınızın bir parçası olacak.

Algoritma

Verileri analiz etmek için kullanılan matematiksel formüller veya istatistiksel işlemlerdir. Hangi verinin hangi yollardan geçip, nasıl kullanılacağını mantıksal olarak belirlediğimiz ilk adım algoritma kurmaktır.

Analitik

Ham bilgiye dayanarak sonuç çıkarma sürecidir. Analiz yoluyla anlamsız veri ve sayılar yararlı bir bilgiye dönüştürülebilir. Buradaki odak nokta çıkarım üzerinedir. Hatta bu sebeple veri analistleri, hikaye anlatımı sanatında ustalaşmıştır. Verilerde üç ana analitik türü vardır ve bunlar:

Tanımlayıcı Analiz:

Veri sonuçlarını özetlemektir. Her bir sayı ve ayrıntıyı listelemek yerine, genel bir baskı ve anlatı vardır. Küçük detaylardan oluşan genel veriye dayanır.

Tahmine Dayalı Analiz:

Güncel ve geçmiş verileri inceleyen analistler artık gelecekle ilgili tahminlerde bulunabiliyorlar. Bu tabii ki 100% kesin sonuçlar vermiyor ancak daha sonra ne olacağı konusunda yaklaşık fikirler edinmemizi sağlıyor.

Kuralcı Analiz:

Son olarak, gelecek için sağlam bir öngörü bulan analistler, bir eylem planı belirleyebilirler. Bu, verileri eyleme dönüştürür ve gerçek dünyada oluşabilecek sonuçları oluşturur.

Bulut (Cloud)

Her yerden ulaşılabilinen veri alanıdır. Bulut sistem mantığı, sabit diskiniz yerine internet üzerindeki bir alana veri (programlar, dosyalar, veriler) depolamak veya bunlara erişmektir.

DaaS (Data-as-a-service)

Verileri bir ürün olarak ele alır. DaaS sağlayıcıları, müşterilerinin istedikleri verilere erişim sağlamaları için bulutu kullanır. Bu, şirketlerin hızlı bir şekilde yüksek kaliteli veri almalarını sağlar. DaaS 2015 yılında popüler bir kelime olmuştu ve günümüzde pazarlama odağında büyük bir rol oynuyor.

Veri Madenciliği

Veri madencileri, kalıpları ve iç görüleri bulmak için büyük veri setlerini araştırır. Veri madenciliği, büyük veri setlerinden faydalanmayı sağlayan analitik bir süreçtir. Bu süreç yapay zeka, makine öğrenmesi veya istatistik gibi alanlarda yer alır.

Karanlık Veri (Dark Data)

Dark data, bir işletme tarafından toplanan ve işlenen, ancak hiçbir zaman analize girmeyen bilgiler bütünüdür. Şirketler, bu verilerin çoğunun farkında olmadığı gibi, verecekleri bilgilerin de sonucu etkilememesi muhtemeldir. Bu dataları işlemenin maaliyeti arttırdığı ve emek hacmini büyüttüğü düşünülürse gerçekten de orta ölçekli şirketler için ikinci planda kalmaları mantıklıdır.

Veri tabanı (Database)

Veri yığınını organize bir şekilde tutan yapılardır. Ayrıca, verilerin izlenilmesi ve analiz edilmesini sağlayan bir çok Veritabanı Yönetim Sistemi ile entegre edilerek kullanılırlar.

Apache Hadoop

Açık kaynaklı bir yazılım kütüphansi olan Hadoop, büyük ölçüde dosyaları depolayarak ve verileri işleyerek çalışır. Aynı zamanda, çok sayıda görevin eşzamanlı olarak çalıştırılmasını kolaylaştıran büyük işlem gücüyle de ünlüdür. İşletmelerin büyük miktarda veriyi kaydetmelerini, veriye erişmelerini ve onu analiz etmelerini sağlar. Apache ayrıca Pig, Hive ve Spark gibi programlarla da bağıntılıdır.

IoT (internet of things)

Nesnelerin İnterneti.. Makinelerin veya ürünlerin birbirleri ile konuşmasını, birbirlerinden aldıkları veriler ile eyleme geçmeleri için iletişim kurmalarını sağlar. Sürücüsüz otomobiller IoT’a mükemmel bir örnektir. Sürekli ve gerçek zamanlı olarak buluttan bilgi alıyorlar ve algılayıcıları bilgiyi buluta geri aktarıyor. IoT, veri bilimi için hem önemli hem de popüler bir terimdir.

Makine Öğrenimi

İnanılmaz derecede iyi bir veri analizi yöntemi olan makine öğrenimi, analitik model inşasını otomatik hale getirir ve bir makinenin uyum sağlama yeteneğine dayanır. Her yeni veriyi işlediklerinde algoritmaları kullanarak bu veriyi işler ve aktif olarak öğrenip, iyileştirir. Bu şekilde veriyi işleme ve kullanma mantığı oluşturulurken modern bir veri analiz aracı olarak makine öğrenmesi kullanılır. Bazen tek bir makine, onlarca insanın gözden kaçıracağı detayları saniyeler içerisinde kullanarak doğru sonuca ulaşabilir. Bu yapay zekanın başlangıcıdır.

MapReduce

MapReduce, büyük veri setlerini işlemek ve üretmek için kullanılan bir programlama modelidir. Bu model aslında iki farklı işlem yapıyor. İlk olarak veriyi belirli düğümlerde bölüyor ve bu düğümlere göre elimizdeki petabyte ölçüsündeki veriyi bu düğümler altında kategorilendiriyor. İkinci aşamada ise benzer veriyi sayarak alanı kontrollü kullanmaya başlıyor.

Klasik veritabanı sistemleri ile Petabyte mertebesindeki verilerin işlenebilmesi ancak milyon dolar seviyesindeki donanım ve yazılım ile mümkün iken, MapReduce bu soruna çok ciddi bir alternatif durumundadır.

Detaylı anlatım için: http://www.kizgibikodla.com/news/mapreduce-nedir/

Neural Network (Yapay Sinir Ağı)

Yapay Sinir Ağları beynin gerçek yaşam biyolojisinden ilham alan modellerdir. Bunlar matematiksel fonksiyonları tahmin etmek ve farklı öğrenme algoritmalarını kolaylaştırmak için kullanılır. Yapay sinir ağlarının giriş kapısı derin öğrenmedir.

SQL

İlişkisel veritabanı olarak da bilinir. Verilerin yönetimi ve akış işleme için kullanılır. Veritabanı ile iletişim kurmak ve görevleri gerçekleştirmek için kullanılır. Standart komutlar “Ekle”, “Güncelle”, “Sil”, “Yarat”, ve “Bırak” tır.. Veriler, satırlar ve sütunların bulunduğu ilişkisel bir tabloda görünür.

NoSQL

İlişkisel olmayan veritabanı olarak anılır. Geleneksel veri tabanlarından farklı olarak satır ve sütun içeren ilişkisel tabloları kullanmaz. Verilerin işlenmesini yönetmek ve akış halinde kullanmak için kullanılır. NoSQL, sunucular arasında anlam ifade eden ve yatay çalışan bir dizi farklı veritabanı ve model içerir.

Petabyte

1.000.000.000.000.000 bayttır. Gizmodo bu boyutu görselleştirmek için şu ifadeyi kullanıyor: “metinlerle dolu 20 milyon 4 çekmeceli dosya dolabı”. Zamanın başlangıcından itibaren insanoğlunun yazdığı eserlerin tüm dildeki versiyonlarının toplamı yaklaşık 20 petabyte’dır.

SaaS (Software-as-a-Service)

Hizmet yazılımlarıdır.  Müşterilerin bir uygulamayı internet üzerinden kullanıma sunmasıdır. Bunlar bulut üzerinde çalışan yapılardır. SaaS sağlayıcılar bulut üzerinden kullanılır ve çoğu zaman basılı yazılım kopyaları halinde değillerdir.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir