Apa saja proses yang dilakukan ketika preprocessing data?

Data cleaning

Data cleaning mengacu pada teknik untuk ‘membersihkan’ data dengan menghapus data asing atau yang data yang tidak berguna, mengganti nilai yang hilang, menghaluskan data yang noisy, dan memperbaiki data yang tidak konsisten. Banyak teknik yang digunakan untuk melakukan masing-masing tugas ini, di mana masing-masing teknik khusus untuk preferensi pengguna atau set masalah.

Data integration

Karena data dikumpulkan dari berbagai sumber, data integration telah menjadi bagian penting dari proses. Hal ini dapat menyebabkan data yang berlebihan dan tidak konsisten, yang dapat mengakibatkan akurasi dan kecepatan model data yang buruk. Untuk menangani masalah ini dan menjaga integritas data, pendekatan seperti deteksi duplikasi tuple dan deteksi konflik data dicari.

Data reduction

Tujuan dari data reduction adalah untuk memiliki representasi yang kental dari kumpulan data yang lebih kecil volumenya, sambil mempertahankan integritas asli. Ini menghasilkan hasil yang efisien namun serupa.

Data transformation

Langkah terakhir dari preprocessing data adalah mentransformasikan data menjadi bentuk yang sesuai untuk Pemodelan Data. Meskipun memiliki beberapa pendekatan untuk memproses data, ini masih merupakan bidang yang diteliti secara aktif karena jumlah data yang tidak jelas dihasilkan setiap hari.

Leave a comment

Design a site like this with WordPress.com
Get started