
Daftar Isi
Apa itu Data Mining?
Umumnya, Mining/penambangan berarti mengekstrak materi bernilai dari sumber daya alam misal penambangan berlian, batu bara, dll. Sedangkan pada istilah Ilmu Komputer/ Computer Science, Data Mining dapat dipahami sebagai proses untuk mengekstrak atau mendapatkan informasi berguna dalam kumpulan data atau gudang data. Menemukan pola tersembunyi, guna mendapatkan informasi untuk menambah pengetahuan kita. Oleh karena itu Data Mining, juga dikenal sebagai Knowledge Extraction atau Knowledge Discovery.
Dalam pencarian informasi atau pengetahuan dalam kumpulan data, diperlukan langkah-langkah umum untuk mendapatkannya. Secara garis besar diawali dengan fase data preparation/ data preprocessing, fase data mining, evaluasi pola, dan representasi pengetahuan. Secara lebih rinci sebagai meliputi :
1. Data Cleaning
Tahap bagaimana kita menghadaipi noise data atau ketidak konsistenan data. Misal : tidak adanya nilai/nilai yang hilang (missing value), nilai pencilan (outlier).
2. Data Integration
Proses dimana mengintegrasikan sumber data yang berbeda lokasi, dimana dapat juga dijumpai terjadi perbedaan format.
3. Data Selection
Melakukan pemilahan data yang relavan untuk analisis yang akan dihasilkan/diharapkan.
4. Data Transformation
Dimana kita mentransformasi dan mengkonsolidasi data yang berasal dari format berbeda agar siap di mining. Dapat berupa normalisasi, agregasi, dan generalisasi data. Misal : mentransformasikan rentang data mentah ke dalam suatu range tertentu.
5. Data Mining
Proses dimana mengaplikasikan metode data mining untuk mendapat pola/pattern dari data. Untuk contoh metode data mining dapat dibaca uraian dibawah.
6. Pattern Evaluation
Tahap mengidentifikasi kebenaran pola apakah sudah merepresentasikan pengetahuan berdasarkan pengukurannya. Lebih jauh, dapat dipahami mengevaluasi beberapa hipotesis/ mengkonfirmasi data dengan derajat pengukuran tertentu sesuai dengan metode data mining yang digunakan. Misal : pengukuran besar error prediksi, model matematis yang dihasilkan apakah overfitting atau underfitting.
7. Knowledge Representasion
Tahap merepresentasikan data, visualisasi data untuk mendapatkan pengetahuan bagi pengguna.
Beberapa metode Data Mining :
- Estimasi (Estimation)
- Neural Network
- Multiple Linear Regression
- Prediksi (Prediction)
- Neural Network
- Multiple Linear Regression
- Support Vector Machien (SVM)
- Klasifikasi (Classification)
- CART
- K-NN
- C4.5
- Pengelompokan (Clustering)
- K-Means
- Fuzzy C-Means
- K-Medoids
- Asosiasi (Association)
- Apriori
- Fp-Growth
Penjelasan diatas merupakan gambaran dari Data Mining, Untuk pembahasan yang lebih dalam akan diurai dalam post selanjutnya.
Leave a Reply