Mengapa kualitas data itu penting untuk diperhatikan?

Probabilitas data anomali telah meningkat dalam data saat ini karena ukurannya yang besar dan asalnya untuk sumber yang heterogen. Mempertimbangkan fakta bahwa data berkualitas tinggi mengarah pada model dan prediksi yang lebih baik, pemrosesan data telah menjadi vital – dan langkah mendasar dalam ilmu data / pembelajaran mesin / pipa AI. Dalam artikel ini, kita akan berbicara tentang perlunya memproses data dan mendiskusikan berbagai pendekatan untuk setiap langkah dalam proses.

Saat mengumpulkan data, orang mungkin menemukan tiga faktor utama yang akan berkontribusi pada kualitas data:

Akurasi : Nilai-nilai keliru yang menyimpang dari yang diharapkan. Penyebab data yang tidak akurat dapat beragam, yang meliputi:

  • Kesalahan manusia / komputer selama pemasukan dan pengiriman data
  • Pengguna dengan sengaja mengirimkan nilai yang salah (disebut data hilang yang disamarkan)
  • Format untuk bidang input salah
  • Duplikasi contoh pelatihan

Kelengkapan : Kurangnya nilai atribut / fitur atau nilai yang menarik. Dataset mungkin tidak lengkap karena:

  • Ketidaktersediaan data
  • Penghapusan data yang tidak konsisten
  • Penghapusan data dianggap tidak relevan pada awalnya

Konsistensi : Agregasi data tidak konsisten.

Beberapa fitur lain yang juga mempengaruhi kualitas data termasuk ketepatan waktu (data tidak lengkap sampai semua informasi yang relevan disampaikan setelah periode waktu tertentu), kepercayaan (seberapa banyak data dipercaya oleh pengguna) dan interpretabilitas (seberapa mudah data dipahami oleh semua pemangku kepentingan).

Untuk memastikan data berkualitas tinggi, sangat penting untuk memprosesnya terlebih dahulu. Untuk membuat proses lebih mudah, preprocessing data dibagi menjadi empat tahap: pembersihan data, integrasi data, reduksi data, dan transformasi data.

Leave a comment

Design a site like this with WordPress.com
Get started