S. Data Mining

 https://www.guru99.com/data-mining-tutorial.html

  Tutorial Penggalian Data: Proses, Teknik, Alat, CONTOH


Apa itu Penambangan Data?
Penambangan data mencari pola yang tersembunyi, valid, dan berpotensi bermanfaat dalam kumpulan data besar. Data Mining adalah tentang menemukan hubungan yang tidak terduga / sebelumnya tidak diketahui di antara data.

Ini adalah keterampilan multi-disiplin yang menggunakan pembelajaran mesin, statistik, AI dan teknologi basis data.

Wawasan yang diperoleh melalui Penambangan Data dapat digunakan untuk pemasaran, deteksi penipuan, dan penemuan ilmiah, dll.

Penambangan data juga disebut sebagai penemuan pengetahuan, ekstraksi pengetahuan, analisis data / pola, pemanenan informasi, dll.

Jenis Data
Penambangan data dapat dilakukan pada tipe data berikut

Database relasional
Gudang data
DB tingkat lanjut dan repositori informasi
Database berorientasi objek dan objek-relasional
Database transaksional dan spasial
Database heterogen dan lawas
Multimedia dan streaming database
Database teks
Penambangan teks dan penambangan Web

Data Mining Implementation Process

Mari kita pelajari proses implementasi Data Mining secara terperinci

Business understanding:

Dalam fase ini, tujuan bisnis dan penambangan data ditetapkan.

Pertama, Anda perlu memahami tujuan bisnis dan klien. Anda perlu menentukan apa yang diinginkan klien Anda (yang berkali-kali bahkan mereka sendiri tidak tahu)
Catat skenario penambangan data saat ini. Faktor dalam sumber daya, asumsi, kendala, dan faktor penting lainnya ke dalam penilaian Anda.
Menggunakan tujuan bisnis dan skenario saat ini, tentukan tujuan penambangan data Anda.
Rencana penambangan data yang baik sangat terperinci dan harus dikembangkan untuk mencapai tujuan bisnis dan penambangan data.

Data understanding:

Dalam fase ini, pemeriksaan kewarasan pada data dilakukan untuk memeriksa apakah sesuai untuk tujuan penambangan data.

Pertama, data dikumpulkan dari berbagai sumber data yang tersedia di organisasi.
Sumber data ini dapat mencakup banyak basis data, flat filer atau data cubes. Ada masalah seperti pencocokan objek dan integrasi skema yang dapat muncul selama proses Integrasi Data. Ini adalah proses yang cukup rumit dan rumit karena data dari berbagai sumber tidak cocok dengan mudah. Misalnya, tabel A berisi entitas bernama cust_no sedangkan tabel B lainnya berisi entitas bernama cust-id.
Oleh karena itu, cukup sulit untuk memastikan bahwa kedua objek yang diberikan ini merujuk pada nilai yang sama atau tidak. Di sini, Metadata harus digunakan untuk mengurangi kesalahan dalam proses integrasi data.
Selanjutnya, langkahnya adalah mencari properti dari data yang diperoleh. Cara yang baik untuk mengeksplorasi data adalah menjawab pertanyaan penambangan data (diputuskan dalam fase bisnis) menggunakan alat kueri, pelaporan, dan visualisasi.
Berdasarkan hasil query, kualitas data harus dipastikan. Data tidak ada jika ada yang harus diperoleh.

Data preparation:

Pada fase ini, data dibuat produksi siap.

Proses persiapan data menghabiskan sekitar 90% dari waktu proyek.

Data dari berbagai sumber harus dipilih, dibersihkan, diubah, diformat, dianonimkan, dan dikonstruksi (jika diperlukan).

Pembersihan data adalah proses untuk "membersihkan" data dengan menghaluskan data yang berisik dan mengisi nilai yang hilang.

Misalnya, untuk profil demografi pelanggan, data usia tidak ada. Data tidak lengkap dan harus diisi. Dalam beberapa kasus, mungkin ada pencilan data. Misalnya, usia memiliki nilai 300. Data bisa tidak konsisten. Misalnya, nama pelanggan berbeda di tabel yang berbeda.

Operasi transformasi data mengubah data untuk menjadikannya berguna dalam penambangan data. Transformasi berikut dapat diterapkan

Data transformation:

Operasi transformasi data akan berkontribusi terhadap keberhasilan proses penambangan.

Smoothing: Membantu menghilangkan noise dari data.

Agregasi: Operasi ringkasan atau agregasi diterapkan pada data. Yaitu, data penjualan mingguan dikumpulkan untuk menghitung total bulanan dan tahunan.

Generalisasi: Pada langkah ini, data tingkat rendah digantikan oleh konsep tingkat yang lebih tinggi dengan bantuan hierarki konsep. Misalnya, kota digantikan oleh county.



Sistem Informasi UNIDHA: http://si.unidha.ac.id
Dosen PTI, Faradika, M.Kom: http://faradika.id

Komentar