PENGERTIAN DATA MINING
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar. Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja. Latar Belakang Terbentuknya Data Mining1. Melimpahnya data (overload data) yang dialami oleh berbagai institusi, perusahaan atau organisasi.
2.
Merlimpahnya data ini merupakan akumulasi data transaksi yang
terekam bertahun-tahun..
3.
Data–data tersebut merupakan data transaksi yang umumnya
diproses menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On Line
Transaction Processing).
Fungsi - Fungsi Umum Data Mining1.
Assosiation, adalah proses untuk menemukan aturan assosiatif
antara suatu kombinasi item dalam suatu waktu
2.
Sequence, proses untuk menemukan aturan assosiatif antara suatu
kombinasi item dalam suatu waktu dan diterapkan lebih dari satu periode
3.
Clustering, adalah proses pengelompokan seumlah data/obyek ke
dalam kelompok data sehingga setiap kelompok berisi data yang mirip
4.
Classification, proses penemuan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
5.
Regretion, adalah proses pemetaan data dalam suatu nilai
prediksi
6.
Forecasting, adalah proses pengestimasian nilai prediksi
berdasarkan pola-pola di dalam sekumpulan data.
7.
Solution, adalah proses penemuan akar masalah dan problem
solving dari persoalan bisnis yang dihadapkai atau paling tidak sebagai
informasi dalam pengambilan keputusan.
PROSES DATA MINNING1. Pembersihan data
dan integritas data (Cleaning & Integration) Proses ini digunakan untuk membuang
data yang tidak konsisten dan bersifat noise dari data yang terdapat di
berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian
dinintegrasikan dalam satu database datawarehouse. 2. Seleksi dan
transformasi data (selection and transformation) Data yang ada dalam database datawarehouse
kemudian direduksi untuk mendapatkan hasil yang akurat. Beberapa cara seleksi,
antara lain Metode seleksi pada data Mining·
Sampling, adalah seleksi subset representatif dari populasi data
yang besar.
·
Denoising, adalah proses menghilangkan noise dari data yang akan
ditransformasikan
·
Feature extraction, adalah proses membuka spesifikasi data yang
signifikan dalam konteks tertentu
Metode transformasi
pada Data Mining·
Centering, mengurangi setiap data dengan rata-rata dari setiap
atribut yang ada.
·
Normalisation, membagi setiap data yang dicentering dengan
standar deviasi dari
atribut bersangkutan.·
Scaling, mengubah data sehingga berada dalam skala tertentu.
3. Penambangan data
(data miningData yang telah
ditransformasi, kemudian ditambang dengan berbagai teknik. Proses data mining
adalah proses mencari pola atau informasi menarik dalam data terpilih dengan
menggunkan fungsi-fungsi tertentu. Fungsi atau algoritma dalam data mining
sangat bervariasi, dimana pemilihannya bergantung pada tujuan dan proses
pencarian pengetahuan secara menyeluruh. 4. Evaluasi pola dan
presentasi pengetahuanTahap ini merupakan
bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola
atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada
sebelumnya. Langkah terakhir KDD adalah mempresentasikan pengetahuan dalam
bentuk yang mudah dipahami pengguna. Manfaat Data MiningDari sudut pandang komersialPemanfaatan data
mining dapat digunakan dalam menangani meledaknya volume data. Bagaimana mana
menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi
dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang
dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data
mining tidak hanya digunakan untuk menangani persoalan menumpuknya
data/informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang
penting (warehousing). Data mining juga diperlukan untuk menyelesaikan
permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya : 1. Bagaimana mengetahui
hilangnya pelanggan karena pesaing
2. Bagaimana mengetahui
item produk atau konsumen yang memiliki kesamaan karakteristik
3. Bagaimana
mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain
4. Bagaimana
memprediski tingkat penjualan5. Bagaimana menilai tingkat
resiko dalam menentukan jumlah produksi suatu item.6. Bagaimana
memprediksi prilaku bisnis di masa yang akan datang Dari sudut pandang keilmuan
Data mining dapat digunakan untuk mengcapture,
menganlisis serta menyimpan data yang bersifat real-time dan sangat besar,
misal :1. Remote
sensor yang ditempatkan pada suatu satelit.2. Teleskop
yang digunakan untuk memindai langit.3. Simulasi
saintifik yang membangkitkan data dalam ukuranterabytes. PENGERTIAN TEXT MININGText mining memiliki
definisi menambang data yang berupa teks dimana sumber data biasanya di
dapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat
mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan
antardokumen. Sedangkan menurut situs wikipedia,
Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola
berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data
teks, seperti dokumen Word, PDF, kutipanteks, dll. Jenis masukan untuk
penambangan teksini disebut data takter struktur dan merupakan pembeda utama
dengan penambangan data yang menggunakan data terstruktur atau basis data
sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang
diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan
dengan ekstraksi informasi dan pengetahuan yang relevandari data teks
terstrukturini dengan menggunakan teknik dan alat yang sama dengan penambangan
data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah
perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll. Tujuan dari text
mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen.
Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang
memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun
tugas khusus dari text mining antara lain yaitu pengkategorisasian teks (text
categorization) dan pengelompokan teks text clustering). Text Mining Text
mining merupakan penerapan konsep dan teknik data mining untuk mencari pola
dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat
untuk tujuan tertentu. Berdasarkan ketidakteraturan struktur data teks, maka
proses text mining memerlukan beberapa tahap awal yang pada intinya adalah
mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. PENGERTIAN WEB MININGWeb
mining adalah ekstraksi pola-pola penting
dan bermanfaat namun tersimpan secara implisit pada kumpulan data yang relatif
besar pada layananworld wide web. Web mining teridiri
atas tiga bagian yaitu: web content mining,web structure mining,
dan web usage mining. Web content mining adalah
suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau
data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada
dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video,
metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung
melakukan mining terhadap data, dan kedua melakukan pencarian
serta mengimprove hasil pencarian seperti layaknya search
engine. Web struncture mining dikenal
juga sebagai web log mining adalah teknik yang digunakan
untuk menemukan struktur link dari hyperlink dan membangun rangkuman website
dan halaman web. Salah satu manfaatnya adlah untuk menentukan pagerank pada
suatu halaman web.
Web
usage mining adalah teknik untuk mengenali
perilaku pelanggan dan struktur web melalui informasi yang diperoleh dari log,
click stream, cookies, dan query. Berbagai tool yang sudah ada antara lain
WebLogMiner yang melakukan mining terhadap data log. Teknik yang lebih canggih
digunakan untuk melakukan OLAP. Manfaat web usage mining adalah
untuk kustomosasi halaman berdasarkan profil pengguna, menentukan ketertarikan
pelanggan terhadap produk tertentu, dan menentukan target market yang
sesuai.
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar. Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja. Latar Belakang Terbentuknya Data Mining1. Melimpahnya data (overload data) yang dialami oleh berbagai institusi, perusahaan atau organisasi.
No comments:
Post a Comment