Big Data adalah paket data yang berukuran sangat besar, bervariasi, berkembang dengan sangat cepat, serta tidak terstruktur seperti data pada umumnya. Salah satu contoh Big Data adalah data-data yang dihasilkan oleh sensor IoT. Misalnya, rekaman CCTV, audio, lalu-lintas darat, laut, udara, konten media sosial serta berbagai sumber data lainnya. Data yang dihasilkan sangat banyak dan tidak memiliki struktur yang pasti, karena berasal dari beragam perangkat berbeda. Itulah yang disebut Big Data.

Big Data juga berarti kumpulan atau integrasi data dalam jumlah sangat besar serta kompleks, sehingga sulit dikelola oleh manajemen data base biasa atau oleh aplikasi pemroses konvensional.

Pemanfaataan Big Data harus dilakukan melalui pengolahan khusus dan menggunakan teknologi inovatif, untuk menghasilkan informasi mendalam dan presisi. Misalnya, menganalisa pertumbuhan gerai ritel tertentu serta perkiraan keuntungan perusahaan dalam beberapa tahun ke depan. Data terkait dengan analisis tersebut dapat diambil dari berbagai sumber, mulai dari sumber internal maupun eksternal. Data dari sumber internal misalnya, data penjualan, mitra, jumlah pelanggan, variasi pembelian, item barang, dan supplier. Sementara daya yang berasal dari sumber eksternal misalnya, data yang terkumpul dari beragam media sosial, seperti Facebook, Twitter, Youtube, dan Linkedin. Data-data ini dipadukan agar dapat menghasilkan output yang diinginkan.

Contoh Big Data adalah data dengan kapasistas mencapai hitungan Petabytes (1,024 terrabytes) aatau Exabytes (1,024 Petabytes), yang berasal dari berbagai sumber berbeda. Data-data ini biasanya tidak terstruktur, tidak lengkap , serta sulit untuk diakses. Suatu organisasi biasanya mengelola Big Data karena aplikasi yang ada tidak dirancang untuk menganalisa kapasitas data yang sangat besar.

Sekumpulan data bisa digolongkan sebagai Big Data jika memenuhi karakteristik sebagai berikut:

1. Volume (Kapasitas dan Ukuran)

Sesuai namanya, Big Data mengolah dan menyimpan data berukuran raksasa dibandingkan dengan sistem pengolahan TI yang ada saat ini. Banyak organisasi menyimpan data dalam kapasitas superbesar, misalnya perusahaan telekomunikasi dengan miliaran data record pengguna setiap harinya. Dalam miliaran recordtersebut, data mungkin tidak terstruktur dengan baik karena terdiri dari berbagai bentuk, mulai dari suara, video, nomor ID, atau gambar. Belum lagi jika pengguna melakukan koneksi internet menggunakan smartphone mereka untuk mengakses beragam konten. Tidak semua penanganan data berkapasitas besar harus menggunakan aplikasi Big Data. Sistem data base biasa juga dapat menangani data berukuran raksasa, tapi sumber daya yang dikeluarkan, yakni biaya, tenaga, dan waktu, sangat tidak efektif. Hal itu sama saja seperti menggunakan mobil kecil untuk pindahan dan mengangkut barang barang. Apakah standar ukuran data agar dapat disebut sebagai Big Data? Banyak ahli sepakat jika volume data membuat data tersebut tidak lagi ekonomis untuk disimpan atau diolah menggunakan solusi storage konvensional, maka data tersebut sudah tergolong sebagai Big Data.

2. Velocity (Kecepatan)

Masalah lain dari Big Data adalah berapa kecepatan sebuah data dihasilkan. Hal ini dapat dikaitkan dengan volume data, karena kecepatan data biasa berbanding lurus dengan volumenya. Data dapat juga datang dalam tempo singkat atau bahkan real-time.

Banyak perusahaan harus menganalisis kualitas data pelanggan dengan ukuran yang luar biasa dalam waktu singkat. Setiap menit, jutaan hingga miliaran data record dimasukkan ke dalam aplikasi Big Data untuk dianalisis pada saat itu juga. Hasilnya langsung divisualisasikan ke dalam aplikasi kolaborasi yang digunakan oleh departemen terkait, sehingga tim sales, marketing, warehouse, accounting, atau tim lainnya dalam perusahaan dapat bertindak cepat sesuai perkembangan bisnis berdasarkan data yang ada.

3. Variety (Keberagaman)

Keberagaman data adalah salah satu ciri Big Data. Keberagaman tersebut membuat data menjadi tidak terstruktur karena data yang ada memiliki format yang berbeda-beda. Data-data tersebut dikirimkan dalam berbagai bentuk, misalnya dalam file XML, CSV, TSV, DOC, atau bahkan file kompresi dalam format GZip, Zip, dan Tar. Big Data bekerja berdasarkan konsep “store first, define structure later”. Kita bisa meletakkan file-file tadi dalam format asal, lalu mengelompokkannya berdasarkan jenis file yang sama. Saat data dibaca, barulah kita menggunakan tools untuk mengekstrak data. Data-data yang berbeda tersebut pada akhirnya akan menjadi suatu output seragam berupa analisis yang presisi.