Pada post kali ini saya akan membahas tentang metode sampling yang biasanya digunakan pada data mining. Yang saya tulis di bawah ini adalah salah satu tugas kuliah di semester lalu. Semoga bermanfaat 🙂
Dalam beberapa tahun terakhir, data selalu dikumpulkan dan diakumulasikan oleh berbagai organisasi dalam jumlah yang sangat besar. Data tersebut tidak akan bermanfaat jika dibiarkan begitu saja, oleh karena itu dibutuhkan suatu cara untuk mengolah data agar dapat berubah menjadi pengetahuan. Metode untuk mengolah kumpulan data menjadi suatu pengetahuan yang berguna disebut penggalian data atau data mining.
Skalabilitas dari algoritma data mining dibatasi oleh beberapa hal, salah satu batasan utama adalah ukuran data. Dengan meningkatnya ukuran data, maka waktu komputasi dari sebuah algoritma data mining juga akan semakin meningkat. Padahal suatu model yang akurat membutuhkan himpunan data yang besar guna membantu algoritma untuk menemukan struktur kompleks dan membuat estimasi parameter secara akurat. Untuk menangani batasan tersebut maka digunakan suatu metode yang disebut sampling.
Sampling adalah suatu proses untuk memilih perwakilan data (sample) yang dapat menggambarkan keseluruhan data dalam himpunan data dengan menguji suatu bagian data. Sampling dibutuhkan untuk membuat abstraksi dari suatu permasalahan yang kompleks serta untuk memperoleh sub himpunan yang merangkum himpunan data yang lebih besar. Sampling dapat diterima jika jumlah data sample dirasa cukup dan mampu menunjukkan karakteristik dari populasi yang lebih besar. Terdapat beberapa alasan mengapa sampling menjadi metode yang dapat dipilih untuk menangani batasan ukuran data, yaitu:
- Membantu untuk bekerja di sekitar konstrain tertentu.
- Lebih ekonomis.
- Sampling dapat mengurangi biaya I/O.
- Data cleansing sangat menghabiskan waktu komputasi, melakukan data cleansing pada sample akan mengurangi waktu komputasi dibandingkan dengan penggunaan keseluruhan data pada basis data.
- Time-lag yang lebih pendek karena jumlah observasi yang lebih kecil.
- Dapat mewakili keseluruhan data dengan jumlah kehilangan informasi yang lebih kecil.
- Dapat mewakili jangkauan data yang lebih luas, sampling mampu beradaptasi dan fleksibel.
Terdapat beberapa metode sampling yang banyak digunakan. Metode tersebut antara lain simple random sampling, stratified sampling, systematic sampling dan cluster sampling.
- Simple Random Sampling
Simple Random Sampling adalah dasar dari proses pemilihan dari sampling dan merupakan metode yang paling mudah dipahami. Simple Random Sampling adalah sebuah prosedur sampling yang memberikan probabilitas yang sama untuk setiap subjek dalam populasi dipilih sebagai sample. Subjek dalam populasi dipilih dengan proses acak, dapat menggunakan random number generator atau tabel bilangan acak.
Langkah utama untuk memilih simple random sample adalah sebagai berikut.
- Tentukan target populasi.
- Identifikasi sebuah kerangka sampling yang sudah ada dari target populasi atau buat kerangka yang baru.
- Evaluasi kerangka sampling, lakukan perubahan jika dibutuhkan.
- Pilih sebuah bilangan unik untuk setiap subjek pada kerangka.
- Tentukan ukuran sample.
- Pilih target sample dari populasi secara acak, dapat menggunakan random number generator atau tabel bilangan acak.