Data mining didefinisikan
sebagai satu set teknik yang digunakan secara otomatis untuk
mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi
yang kompleks pada set data yang sangat besar.
Data mining dapat
juga didefinisikan sebagai “pemodelan dan penemuan polapola yang
tersembunyi dengan memanfaatkan data dalam volume yang besar. Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-matching) dan algoritmaalgoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi.
Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan. Ruang Lingkup Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai
pencarian
informasi bisnis yang berharga dari basis data yang sangat besar. Usaha
pencarian yang dilakukan dapat dianalogikan dengan penambangan logam
mulia dari lahan sumbernya. Dengan tersedianya basis data dalam kualitas
dan ukuran yang memadai.
B. Fungsi dan Tujuan
Data
Mining mengidentifikasi fakta- fakta atau kesimpulan-kesimpulan yang di
sarankan berdasarkan penyaringan melalui data untuk menjelajahi
pola-pola atau anomali-anomali data. Data Mining mempunyai 5 fungsi:
a. Classification
Classification,
yaitu menyimpulkan definisi-definisi karakteristik sebuah grup. Contoh:
pelanggan-pelanggan perusahaan yang telah berpindah kesaingan
perusahaan yang lain.
b. Clustering
Clustering,
yaitu mengindentifikasikan kelompok-kelompok dari barang-barang atau
produk-produk yang mempunyai karakteristik khusus(clustering berbeda
dengan classification, dimana pada clustering tidak terdapat
definisi-definisi karakteristik awak yang di berikan pada waktu
classification.)
c. Association
Association,
yaitu mengidentifikasikan hubungan antara kejadian-kejadian yang
terjadi pada suatu waktu, seperti isi-isi dari keranjang belanja.
d. Sequencing
Hampir
sama dengan association, sequencing mengidentifikasikan
hubungan-hubungan yang berbeda pada suatu periode waktu tertentu,
seperti pelanggan-pelanggan yang mengunjungi supermarket secara
berulang-ulang.
e. Forecasting
Forecasting
memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola
dengan sekumpulan data yang besar, seperti peramalan permintaan pasar.
Tujuan data mining antara lain:
a. Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick up meningkat di colorado.
b. Confirmatory
Untuk
mempertegas hipotesis, seperti halnya 2 kali pendapatan keluarga lebih
suka di pakai untuk membeli peralatan keluarga, di bandingkan dengan
satu kali pendapatan keluarga.
c. Exploratory
Menganalisis
data untuk hubungan yang baru yang tidak di harapkan, seperti halnya
pola apa yang cocok untuk kasus penggelapan kartu kredit.
C. Proses Data Mining
Sebagai
suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap
yang diilustrasikan pada Gambar 2 di atas. Tahap-tahap tersebut bersifat
interaktif di mana pemakai terlibat langsung atau dengan perantaraan
knowledge base. Tahapan-tahapan tersebut, diantaranya :
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
Pada umumnya
data yang diperoleh, baik dari database suatu perusahaan maupun hasil
eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang
hilang, data yang tidak valid atau juga hanya sekedar salah ketik.
Selain itu, ada juga atribut-atribut data yang tidak relevan dengan
hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu
juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau
akurasi dari hasil data mining nantinya. Garbage in garbage out (hanya
sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan
istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan
data juga akan mempengaruhi performasi dari sistem data mining karena
data yang ditangani akan berkurang jumlah dan kompleksitasnya.
2. Integrasi data (penggabungan data dari beberapa sumber)
Tidak jarang
data yang diperlukan untuk data mining tidak hanya berasal dari satu
database tetapi juga berasal dari beberapa database atau file teks.
Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan
entitas-entitas yang unik seperti atribut nama, jenis produk, nomor
pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena
kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang
dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila
integrasi data berdasarkan jenis produk ternyata menggabungkan produk
dari kategori yang berbeda maka akan didapatkan korelasi antar produk
yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan
transformasi dan pembersihan data karena seringkali data dari dua
database berbeda tidak sama cara penulisannya atau bahkan data yang ada
di satu database ternyata tidak ada di database lainnya.
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
Beberapa
teknik data mining membutuhkan format data yang khusus sebelum bisa
diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis
asosiasi dan klastering hanya bisa menerima input data kategorikal.
Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi
menjadi beberapa interval. Proses ini sering disebut binning. Disini
juga dilakukan pemilihan data yang diperlukan oleh teknik data mining
yang dipakai. Transformasi dan pemilihan data ini juga menentukan
kualitas dari hasil data mining nantinya karena ada beberapa
karakteristik dari teknik-teknik data mining tertentu yang tergantung
pada tahapan ini.
4. Aplikasi teknik data mining
Aplikasi
teknik data mining sendiri hanya merupakan salah satu bagian dari proses
data mining. Ada beberapa teknik data mining yang sudah umum dipakai.
Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi
berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data
mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan
data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh
akhir-akhir ini dikembangkan berbagai teknik data mining baru untuk
penerapan di bidang bioinformatika seperti analisa hasil microarray
untuk mengidentifikasi DNA dan fungsi-fungsinya.
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
Dalam
tahap ini hasil dari teknik data mining berupa pola-pola yang khas
maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada
memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai
hipotesa ada beberapa alternatif yang dapat diambil seperti :
menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba
teknik data mining lain yang lebih sesuai, atau menerima hasil ini
sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. Ada
beberapa teknik data mining yang menghasilkan hasil analisa berjumlah
besar seperti analisis asosiasi. Visualisasi hasil analisa akan sangat
membantu untuk memudahkan pemahaman dari hasil data mining.
6. Presentasi pola yang ditemukan untuk menghasilkan aksi
Tahap
terakhir dari proses data mining adalah bagaimana memformulasikan
keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini
harus melibatkan orang-orang yang tidak memahami data mining. Karenanya
presentasi hasil data mining dalam bentuk pengetahuan yang bisa
dipahami semua orang adalah satu tahapan yang diperlukan dalam proses
data mining. Dalam presentasi ini, visualisasi juga bisa membantu
mengkomunikasikan hasil data mini.
D. Implementasi Data Mining
Contoh nya :
Telekomunikasi : Sebuah
perusahaan telekomunikasi menerapkan data mining untuk melihatdari
jutaan transaksi yang masuk, transaksi mana sajakah yang masih
harusditangani secara manual (dilayani oleh orang). Tujuannya tidak lain
adalah untuk menambah layanan otomatis khusus untuk transaksi-transaksi
yangmasih dilayani secara manual. Dengan demikian jumlah operator
penerimatransaksi manual tetap bisa ditekan minimal.
Source :
http://spreadthedust.blogspot.co.id/2016/12/data-mining.html
No comments:
Post a Comment