Metode Sampling pada Data Mining

2 Oct

Pada post kali ini saya akan membahas tentang metode sampling yang biasanya digunakan pada data mining. Yang saya tulis di bawah ini adalah salah satu tugas kuliah di semester lalu. Semoga bermanfaat🙂


 

Dalam beberapa tahun terakhir, data selalu dikumpulkan dan diakumulasikan oleh berbagai organisasi dalam jumlah yang sangat besar. Data tersebut tidak akan bermanfaat jika dibiarkan begitu saja, oleh karena itu dibutuhkan suatu cara untuk mengolah data agar dapat berubah menjadi pengetahuan. Metode untuk mengolah kumpulan data menjadi suatu pengetahuan yang berguna disebut penggalian data atau data mining.

Skalabilitas dari algoritma data mining dibatasi oleh beberapa hal, salah satu batasan utama adalah ukuran data. Dengan meningkatnya ukuran data, maka waktu komputasi dari sebuah algoritma data mining juga akan semakin meningkat. Padahal suatu model yang akurat membutuhkan himpunan data yang besar guna membantu algoritma untuk menemukan struktur kompleks dan membuat estimasi parameter secara akurat. Untuk menangani batasan tersebut maka digunakan suatu metode yang disebut sampling.

Sampling adalah suatu proses untuk memilih perwakilan data (sample) yang dapat menggambarkan keseluruhan data dalam himpunan data dengan menguji suatu bagian data. Sampling dibutuhkan untuk membuat abstraksi dari suatu permasalahan yang kompleks serta untuk memperoleh sub himpunan yang merangkum himpunan data yang lebih besar. Sampling dapat diterima jika jumlah data sample dirasa cukup dan mampu menunjukkan karakteristik dari populasi yang lebih besar. Terdapat beberapa alasan mengapa sampling menjadi metode yang dapat dipilih untuk menangani batasan ukuran data, yaitu:

  1. Membantu untuk bekerja di sekitar konstrain tertentu.
  2. Lebih ekonomis.
  • Sampling dapat mengurangi biaya I/O.
  • Data cleansing sangat menghabiskan waktu komputasi, melakukan data cleansing pada sample akan mengurangi waktu komputasi dibandingkan dengan penggunaan keseluruhan data pada basis data.
  • Time-lag yang lebih pendek karena jumlah observasi yang lebih kecil.
  1. Dapat mewakili keseluruhan data dengan jumlah kehilangan informasi yang lebih kecil.
  2. Dapat mewakili jangkauan data yang lebih luas, sampling mampu beradaptasi dan fleksibel.

Terdapat beberapa metode sampling yang banyak digunakan. Metode tersebut antara lain simple random sampling, stratified sampling, systematic sampling dan cluster sampling.

  1. Simple Random Sampling

Simple Random Sampling adalah dasar dari proses pemilihan dari sampling dan merupakan metode yang paling mudah dipahami. Simple Random Sampling adalah sebuah  prosedur sampling yang memberikan probabilitas yang sama untuk setiap subjek dalam populasi dipilih sebagai sample. Subjek dalam populasi dipilih dengan proses acak, dapat menggunakan random number generator atau tabel bilangan acak.

Langkah utama untuk memilih simple random sample adalah sebagai berikut.

  • Tentukan target populasi.
  • Identifikasi sebuah kerangka sampling yang sudah ada dari target populasi atau buat kerangka yang baru.
  • Evaluasi kerangka sampling, lakukan perubahan jika dibutuhkan.
  • Pilih sebuah bilangan unik untuk setiap subjek pada kerangka.
  • Tentukan ukuran sample.
  • Pilih target sample dari populasi secara acak, dapat menggunakan random number generator atau tabel bilangan acak.

Terdapat dua jenis simple random sampling, yaitu sampling dengan penggantian dan sampling tanpa penggantian. Pada sampling dengan penggantian, setelah sebuah subjek pada populasi terpilih dari kerangka sampling, maka subjek akan dikembalikan ke kerangka dan dapat dipilih lagi sabagai sample berikutnya. Sedangkan pada sampling tanpa penggantian, setelah sebuah subjek dipilih dari kerangka sampling, maka subjek akan dihapus dari populasi dan tidak akan terpilih kembali sebagai sample. sampling tanpa penggantian dinilai lebih efisien daripada sampling dengan penggantian dalam menghasilkan sample yang representatif.

Simple random sampling memiliki beberapa kelebihan salah satunya adalah tidak membutuhkan informasi tambahan mengenai subjek dalam populasi. Kelebihan lainnya setiap pemilihan sample tidak bergantung ke pemilihan lainnya sehingga setiap kombinasi memiliki probabilitas yang sama untuk dipilih. Selain itu metode ini merupakan metode yang lebih mudah digunakan, dipahami, dan dikomunikasikan. Prosedur statistik yang dibutuhkan untuk analisa data dan perhitungan error juga lebih mudah.

Namun simple random sampling juga memiliki beberapa kelemahan, di antaranya membutuhkan kerangka sampling dari subjek pada target populasi, memungkinkan memiliki error yang lebih besar dan kurang presisi, serta memungkinkan pengambilan jumlah sample yang terlalu sedikit untuk kelompok kecil sehingga lebih cocok digunakan untuk sampling pada populasi yang memiliki kelompok-kelompok yang besar.

  1. Stratified Sampling

Stratified sampling adalah suatu prosedur sampling yang dimulai dengan memisahkan target populasi ke dalam mutually exclusive, segmen homogen (strata), kemudian simple random sample dipilih dari setiap segmen (stratum). Prosedur ini dapat pula disebut sebagai quota random sampling.

Langkah-langkah yang dilakukan untuk memilih stratified random sample adalah sebagai berikut.

  • Definisikan target populasi.
  • Identifikasi variabel stratifikasi dan tentukan jumlah strata yang akan digunakan. Variabel stratifikasi yang digunakan harus berhubungan dengan tujuan pengolahan data.
  • Identifikasi kerangka sampling yang telah ada atau kembangkan kerangka sampling yang menyertakan informasi variabel stratifikasi untuk setiap objek pada target populasi. Jika kerangka sampling tidak menyertakan informasi pada variabel stratifikasi, maka tidak mungkin dilakukan stratifikasi.
  • Evaluasi kerangka sampling, lakukan perubahan jika dibutuhkan.
  • Bagi kerangka sampling ke dalam strata, kategori dari variabel stratifikasi, pembuatan kerangka sampling untuk setiap stratum. Di dalam stratum perbedaan harus minimum dan perbedaan antar strata harus maksimum. Setiap subjek dalam populasi harus terdapat hanya pada satu stratum.
  • Pilih sebuah bilangan unik untuk setiap subjek.
  • Tentukan ukuran sample untuk setiap stratum.
  • Pilih secara acak target yang dipilih sebagai sample untuk setiap stratum. Setidaknya sebuah subjek harus terpilih dari sebuah stratum untuk sebagai perwakilan, dan setidaknya dua subjek harus dipilih dari setiap stratum untuk penghitungan estimasi error.

Terdapat dua jenis stratified sampling yaitu proportionate stratified sampling dan disproportionate stratified sampling. Pada proportionate stratified sampling, jumlah subjek yang dialokasikan ke berbagai strata proporsional terhadap representasi strata pada tiap target populasi. Sehingga ukuran sample yang diambil dari setiap stratum proporsional terhadap ukuran relative dari stratum populasi target. Sedangkan pada disproportionate stratified sampling memiliki jumlah subjek dari tiap stratum yang tidak proporsional terhadap representasi populasi total. Disproportionate stratified sampling dapat dibagi lagi ke dalam tiga bagian berdasarkan tujuan dari alokasi yang diimplementasikan. Tujuan dari alokasi yaitu analisa dalam strata, analisa antar strata, dan alokasi optimum. Alokasi optimum fokus pada biaya optimasi, presisi optimasi, atau keduanya.

Dibandingkan dengan simple random sampling, stratified sampling memiliki beberapa kelebihan. Pertama, kemampuan untuk pembuatan kesimpulan dalam stratum dan perbandingan antar strata, tidak hanya untuk estimasi parameter populasi. Kedua, stratified sampling menghasilkan error yang lebih kecil dibandingkan simple random sampling untuk ukuran data yang sama, terlebih lagi jika digunakan jenis alokasi optimum. Ketiga, stratified sampling lebih representatif terhadap populasi karena menjamin setidaknya sebuah subjek dalam stratum populasi akan terpilih sebagai sample.Keempat, dapat diambil informasi tentang populasi data berdasarkan strata. Kelima, variabel stratifikasi dapat membagi populasi ke dalam area homogen, biaya koleksi data dapat lebih rendah daripada biaya pada simple random sampling. Keenam, penggunaan stratified sampling memungkinkan penggunaan prosedur yang berbeda untuk tiap strata.

Kekurangan stratified sampling antara lain stratified sampling membutuhkan lebih banyak informasi dibandingkan simple random sampling, yakni variabel stratifikasi. Pemilihan variabel stratifikasi juga cukup sulit jika jumlah variabel yang digunakan cukup banyak. Stratified sampling membutuhkan usaha yang lebih untuk persiapan sampling, desain sampling, dan analisa koleksi data. Untuk menghitung estimasi sampling, setidaknya dibutuhkan dua subjek dari setiap stratum yang harus dijasikan sample. Selain itu analisis dari koleksi data akan lebih kompleks dibandingkan analisis koleksi data menggunakan simple random sampling.

  1. Systematic Sampling

Systematic sampling atau interval random sampling adalah prosedur sampling yang menggunakan pemilihan acak untuk subjek pertama dari sample, kemudian sample berikutnya akan dipilih menggunakan interval tertentu hingga diperoleh sejumlah sample yang diinginkan.

Secara umum terdapat delapan langkah untuk melakukan systematic sampling, langkah-langkah tersebut adalah sebagai berikut.

  • Definisikan target populasi.
  • Tentukan ukuran sample yang diinginkan (n).
  • Identifikasi sebuah kerangka sampling yang sudah ada dari target populasi atau buat kerangka yang baru.
  • Evaluasi kerangka sampling, lakukan perubahan jika dibutuhkan.
  • Tentukan jumlah subjek pada kerangka sampling (N).
  • Hitung interval sampling (i) dengan membagi subjek pada kerangka sampling (N) dengan ukuran sample yang diinginkan (n).
  • Pilih sebuah bilangan secara acak, r, dari 1 hingga i.
  • Pilih sample, r, r+i, r+2i, r+3i, dan seterusnya hingga memenuhi jumlah sample yang diinginkan.

Secara teknik systematic sampling tidak membuat sample yang benar-benar acak sehingga biasa disebut dengan “pseudo random sampling”, karena hanya sample pertama saja yang dipilih secara acak.

Systematic sampling dapat diklasifikasikan ke dalam tiga jenis, yaitu linear systematic sampling, circular systematic sampling, dan repeated systematic sampling. Linear systematic sampling merupakan teknik yang telah dijelaskan dengan langkah di atas. Sedangkan circular systematic sampling menggunakan prosedur serupa, hanya saja untuk langkan ke tujuh pemilihan bilangan acak diambil dari 1 hingga N. Untuk repeated systematic sampling, pemilihan sample menggunakan beberapa sample yang dikombinasikan menjadi sebuah sample.

Kelebihan systematic sampling antara lain jika proses pemilihan dilakukan secara manual, maka systematic sampling lebih mudah, sederhana, dan membutuhkan waktu yang lebih singkat dibandingkan simple random sampling. Kelebihan lain yaitu systematic sampling dapat menjamin bahwa sample lebih menyebar di dalam populasi. Selain itu systematic sampling juga menghapus kemungkinan autokorelasi.

Kekurangan systematic sampling yaitu jika interval sampling terurut secara periodic pada kerangka sampling, maka variasi akan semakin meningkat. Kelemahan lain yaitu kombinasi subjek memiliki probabilitas yang berbeda untuk di[ilih sebagai sample. Estimasi varian juga lebih kompleks dibandingkan simple random sampling.

  1. Cluster Sampling

Biasanya pembuatan kerangka sampling akan sulit jika target populasi sangat menyebar sehingga biaya koleksi data akan relatif lebih tinggi, untuk menangani hal ini dapat digunakan cluster sampling. Cluster sampling adalah prosedur sampling dimana subjek populasi dipilih secara acak dari suatu kelompok (cluster) tertentu. Dalam konteks cluster sampling, cluster merupakan sebuah kelompok (agregat) dari subjek populasi. Pada cluster sampling, pemilihan sample dilakukan tidak dengan mengambil sebuah subjek secara individu namun dengan memilih subjek dalam agregat.

Terdapat enam langkah yang harus dilakukan untuk memilih cluster sample. Langkah-langkah tersebut adalah sebagai berikut.

  • Definisikan target populasi.
  • Tentukan ukuran sample yang diinginkan.
  • Identifikasi sebuah kerangka sampling yang sudah ada dari target populasi atau buat kerangka yang baru.
  • Evaluasi kerangka sampling, lakukan perubahan jika dibutuhkan.
  • Tentukan jumlah cluster yang akan dipilih. Hal ini dapat dilakukan dengan membagi ukuran sample dengan estimasi jumlah rata-rata subjek dalam setiap cluster.
  • Pilih secara acak jumlah target yang akan dijadikan sample dari semua cluster.

Terdapat dua jenis dari cluster sampling, pertama berdasarkan jumlah tahap pada desain sample, dan kedua berdasarkan proporsi representasi cluster dalam sample keseluruhan.

Kelebihan dari cluster sampling antara lain jika cluster didefinisikan secara geografis, maka cluster sampling membutuhkan waktu dan biaya yang lebih sedikit. Cluster sampling mengijinkan subsequent sampline karena cluster adalah kelompok dari beberapa subjek. Ketika karakter cluster diestimasi, maka karakter populasi juga secara langsung akan diestimasi.

Sedangkan kelemakah dari cluster sampling yaitu cluster sample mungkin tidak dapat mewakili populasi sebagaimana simple random sample untuk ukuran sample yang sama. Varian cluster sample akan lebih tinggi dibandingkan varian menggunakan simple random sample. Cluster sampling membutuhkan analisis yang lebih kompleks serta memungkinkan error yang cukup tinggi dibandingkan metode lain untuk ukuran sample sample yang sama.

Pemilihan metode sampling dari empat jenis metode yang telah dijelaskan dapat didasarkan dari kebutuhan sampling. Jika sampling ingin dilakukan secara sederhana dan jumlah data relatif sedikit, maka dapat digunakan simple random sampling. Ketika membutuhkan strata untuk memudahkan pengambilan sample yang lebih meluas, maka dapat digunakan stratified sampling. Untuk memperoleh sample dari data yang memiliki hubungan satu sama lain, systematic sampling dapat digunakan sebagai metode pilihan. Sedangkan jika data menyebar luas, maka lebih baik menggunakan pengelompokan data dalam pengambilan sample menggunakan clustering sampling.

Merode-metode sampling yang telah dijelaskan dapat menjadi pilihan untuk melakukan penggalian data dengan ukuran yang besar tanpa harus menggunakan semua data. Sehingga biaya dan waktu komputasi akan berkurang dengan kemungkinan kehilangan informasi yang kecil.

  

Daftar Pustaka

Punam V. Khandar et al., “Knowledge Discovery and Sampling Techniques with Data Mining for Identifying Trends in Data Sets”, International Journal on Computer Science and Engineering (IJCSE), NCICT 2010 Special Issue, pp. 7-11, 2010.

Johnnie Daniel, “Choosing the type of probability sampling”, Sampling Essentials Practical Guidelines for Making Sampling Choices. Chicago:SAGE Publications, Inc , 2012.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: