Universitas Amikom Purwokerto, Kampus IT dan Bisnis Digital Banyumas, Jawa Tengah.
Dengan munculnya komputer dan Internet, dan hampir semua yang terperangkap di bawah sistem “Internet of Things”, sejumlah besar data terus dihasilkan. Cakrawala “data” yang terus berkembang kini tumbuh secara eksponensial. Ukuran Alam Semesta Digital diperkirakan akan berlipat ganda setiap dua tahun setelah 2020.
Pandemi Covid mungkin menyebabkan angka yang lebih tinggi. “Big data” mungkin adalah hype terbesar dalam beberapa tahun terakhir. Orang-orang ingin menganalisis data secara rinci untuk merancang strategi yang efektif dalam setiap aspek kehidupan dan gaya hidup mereka. Dalam buku Michael Lewis tahun 2003 “Moneyball” dan film lanjutannya tahun 2011, Brad Pitt membintangi dan manajer Oakland Athletics Billy Beane membuat sukses besar di Major League Baseball menggunakan data dan analisis historis. Saya telah menguraikan kisah nyata yang berisi. Meskipun anggaran ramping. Sejak itu, budaya “bola uang” telah merasuki setiap bagian dari gaya hidup kita.
Dan ini menciptakan kelas profesional baru. Ilmuwan Data adalah pekerjaan terpanas abad ke-21, menurut artikel Harvard Business Review 2012. Fenomena yang berkembang belakangan ini adalah munculnya program “data science” di berbagai universitas/laboratorium besar di seluruh dunia. Memang, India tidak terkecuali. Tetapi apakah ilmu data akan mengubah gaya hidup kita?
Dan seberapa mudahkah memanfaatkan data dalam jumlah besar itu? Kami tidak memiliki keahlian statistik untuk menangani ribuan variabel, atau algoritma komputasi yang sesuai atau peralatan untuk menangani miliaran titik data. Bahkan jika algoritme tersedia, komputer standar tidak cukup untuk menangani data dalam jumlah besar ini.
Data selalu membantu perkembangan ilmu pengetahuan dan pertumbuhan pengetahuan manusia. Sekitar dua abad yang lalu, teori seleksi alam Charles Darwin dan buku aslinya On the Origin of Species terutama merupakan bagian dari ekspedisinya dari tahun 1831 hingga 1836. Ini didasarkan pada data pengamatan yang dikumpulkan selama perjalanan keliling dunia. Turun di kapal HMS Beagle.
Sekitar 150 tahun yang lalu, dari data yang dikumpulkan dari eksperimen kacang polong, Gregor Mendel mengembangkan tiga prinsip hukum Mendel yang menjelaskan transmisi sifat genetik. Oleh karena itu, secara historis, sains telah didorong oleh data dalam banyak konteks penting. Satu-satunya perbedaan adalah bahwa gelombang data saat ini tersedia.
Memang, statistik adalah ilmu yang didorong oleh data. Namun, fokus utama statistik mungkin adalah mengembangkan teori berdasarkan wawasan data. Ambil contoh sepupu Charles Darwin, Sir Francis Galton. Pada tahun 1884, Golton mendirikan Institut Antropometri di London. Ini adalah pusat pengumpulan data tentang mereka yang secara sukarela berpartisipasi. Ia berhasil mendapatkan data untuk lebih dari 10.000 orang. Itu tentu saja data besar pada saat itu.
Pada data tersebut, terlihat pola yang jelas pada data tersebut bahwa anak dari orang tua yang berbaring di kaki sebaran cenderung berada di dekat pusat sebaran. Dia menciptakan istilah “kembali ke biasa-biasa saja” untuk fenomena ini. Hari ini kita menyebutnya regresi ke mean. Akibatnya, Galton menemukan apa yang sekarang disebut koefisien korelasi. Data tentang rasio lebar-panjang tubuh “depan” dari 1.000 sampel kepiting oleh Profesor WFR Weldon di Naples telah mendorong inovasi statistik awal Karl Pearson dan merupakan salah satu Doyen statistik yang sedang berkembang. Memiliki karir yang mapan sebagai fisikawan matematika, saya tertarik untuk mengembangkan karir sebagai ahli biometrik atau statistik.
Memang, ini adalah peristiwa luar biasa dalam sejarah statistik! Telah diketahui bahwa banyak penelitian tentang data antropometrik membantu Profesor Prasanta Chandra Mahalanobis merancang kontribusi penelitiannya yang paling menonjol, statistik D-kuadrat. Pada awal 1900-an, William Gosset, dengan nama samaran Mahasiswa, menggunakan data dari Guinness Brewery untuk mengembangkan distribusi t mahasiswa terkenal, yang masih banyak digunakan hingga hari ini.
Mari kita lihat contoh menarik dari tahun 1930-an. Seorang rekan wanita ahli statistik legendaris Inggris RA Fisher mengaku dapat mengidentifikasi apakah teh atau susu pertama kali ditambahkan ke teh. Fisher ingin memverifikasi klaimnya. Dia menyiapkan delapan cangkir teh, empat di antaranya adalah susu terlebih dahulu dan empat sisanya adalah teh terlebih dahulu. Rekannya mampu mengidentifikasi dengan benar total enam cangkir, tiga dari setiap kelompok. Fisher merancang prosedur pengujian untuk menganalisis data ini. Sekarang secara luas diperlakukan sebagai salah satu dari dua pilar pendukung untuk analisis acak data eksperimen dalam literatur statistik.
Sekitar 60 tahun yang lalu, ahli matematika dan statistik Amerika John Tukey, pemimpin korps diplomatik lain dalam statistik modern, menyerukan reformasi statistik akademik. Melalui makalah 1962 “The Future of Data Analysis” dalam jurnal The Annals of Mathematical Statistics, Tukey tertarik pada data, atau “analisis data”.
Namun, istilah “ilmu data” sebagai “ilmu yang berhubungan dengan data” digunakan sebagai pengganti ilmu komputer oleh Peter Naur pemenang Penghargaan Turing, pelopor ilmu komputer di Denmark pada tahun 1960. Ilmu data saat ini tentu saja merupakan kombinasi dari statistik, matematika, algoritme, keterampilan teknik, komunikasi, dan keterampilan manajemen. Namun, ilmu data secara luas diakui sebagai statistik oleh banyak orang. American Statistical Association telah mendefinisikan statistik sebagai “ilmu yang dipelajari dari data.”
Jadi tentu saja ada banyak ruang untuk mengacaukan ilmu data dengan statistik. CF Jeff Wu, sekarang seorang profesor di Institut Teknologi Georgia, memberikan kuliah terkenal berjudul “Statistik = Ilmu Data?”. Di Universitas Michigan pada tahun 1997 dan di Institut Statistik India pada tahun 1998. Gejolak berlanjut sampai batas tertentu.
Saya membaca komentar menarik dari Profesor Andrew Gelman dari Universitas Columbia. “Statistik adalah bagian yang paling tidak penting dari ilmu data.” Menariknya, ketergantungan dan keunggulan pada program komputer dan perangkat lunak identik dengan “analisis data”. Pada tahun 2017, David Donoho, seorang profesor statistik di Universitas Stanford, menulis makalah menarik berjudul “50 Tahun Ilmu Data” dalam Journal of Computational and Graphical Statistics.
Dimulai dengan makalah Tucky tahun 1962, ia membahas evolusi ilmu data. Di akhir disertasinya, Donoho juga ingin melihat masa depan ilmu data. Dono menulis: “Pada tahun 2065, derivasi dan pembuktian matematis tidak lebih baik daripada kesimpulan yang ditarik dari teori empiris mutakhir …. Kuantifikasi masalah yang sering terjadi, seperti yang ditunjukkan oleh tes empiris. Berdasarkan manfaat yang mungkin, teori-teori yang menciptakan metodologi baru untuk digunakan dalam analisis data atau pembelajaran mesin dianggap berharga.”
Sekitar setengah abad dari sekarang, apakah itu benar-benar mudah? Saya ragu. Bayangan ketidakpastian tetap ada. Saya telah melihat beberapa meme yang menarik di internet. Seorang ahli statistik dan seorang ilmuwan data sedang duduk bersama di sebuah konferensi pers. Namun, Mike di semua media berada di depan ilmuwan data dan ingin mendengarkannya saat ahli statistik menganggur. Tidak ada yang mencari pendapat ahli statistik. Faktanya, ini mencerminkan hype saat ini tentang ilmu data dan dalam waktu dekat.
(Penulis adalah profesor statistik di Institut Statistik India di Kolkata.)
Mahasiswa Jurusan Ilmu Komunikasi Universitas Amikom Purwokerto