Skip to content Skip to sidebar Skip to footer

Widget HTML #1

Data Cleaning dalam Machine Learning

Data Cleaning dalam Machine Learning - Hallo sahabat Ochimz Library, Pada Artikel yang anda baca kali ini dengan judul Data Cleaning dalam Machine Learning, kami telah mempersiapkan artikel ini dengan baik untuk anda baca dan ambil informasi didalamnya. mudah-mudahan isi postingan Artikel DUNIA TEKNOLOGI, yang kami tulis ini dapat anda pahami. baiklah, selamat membaca.

Judul : Data Cleaning dalam Machine Learning
link : Data Cleaning dalam Machine Learning

Baca juga


Data Cleaning dalam Machine Learning

Data Cleaning

Sebuah model Machine Learning tidak mampu untuk langsung / seketika mengolah data yang kita temukan dari berbagai sumber. Ada istilah Garbage In - Garbage Out yang berarti hasil dari machine learning akan buruk jika input yang Anda masukkan juga buruk. 

Tidak seluruh data yang kita dapat dari berbagai sumber siap untuk langsung diberikan ke sebuah model machine learning. Perolehan data memiliki  banyak kekurangan, sehingga perlu Anda olah terlebih dahulu.
Berikut adalah beberapa hal yang umum yang harus diperhatikan dalam proses data cleaning:
  1. Konsistensi Format
    Sebuah variabel mungkin tidak memiliki format yang konsisten seperti penulisan tanggal 10-Okt-2020 versus 10/10/20. Format jam yang berbeda seperti 17.10  versus 5.10 pm. Penulisan uang seperti 17000 versus Rp 17.000. Data dengan format berbeda tidak akan bisa diolah oleh model machine learning. Solusinya, format data harus konsisten.
  2. Skala Data
    Jika sebuah variabel memiliki jangka dari 1 sampai 100, pastikan tidak ada data yang lebih dari 100. Untuk data numerik, jika sebuah variabel merupakan bilangan positif, maka pastikan tidak ada bilangan negatif.
  3. Duplikasi dataData yang memiliki duplikat akan mempengaruhi model machine learning, apalagi data yang duplikat memiliki jumlah yang besar. Untuk itu kita harus memastikan tidak ada data yang terduplikasi.
  4. Missing ValueMissing value terjadi ketika data dari sebuah record tidak lengkap. Missing value sangat mempengaruhi performa model machine learning. Ada dua opsi untuk mengatasi missing value, yaitu menghilangkan data missing value atau mengganti nilai yang hilang dengan nilai lain, seperti rata-rata dari kolom tersebut atau nilai yang paling sering muncul.
    20200430152700a89904a3a7c8123a372a012a25868dfe.jpeg 
  5. Skewness
    Skewness adalah kondisi di mana dataset cenderung memiliki distribusi data yang tidak seimbang. Skewness akan mempengaruhi data dengan menciptakan bias terhadap model. Apa itu bias? Sebuah model cenderung memprediksi sesuatu karena ia lebih sering mempelajari hal tersebut. Misalkan ada sebuah model untuk pengenalan buah di mana jumlah jeruk 92 buah dan apel 8 buah. Distribusi yang tidak imbang ini akan mengakibatkan model lebih cenderung memprediksi jeruk daripada apel.
    202004301529027bf34754d677ed564156610c176ed894.jpeg
    Cara paling simpel untuk mengatasi skewness adalah dengan menyamakan proporsi kelas mayoritas dengan kelas minoritas. Untuk teknik lebih lanjut dalam mengatasi skewness atau imbalance data, Anda bisa membacanya di tautan ini


Demikianlah Artikel Data Cleaning dalam Machine Learning

Sekianlah artikel Data Cleaning dalam Machine Learning kali ini, mudah-mudahan bisa memberi manfaat untuk anda semua. baiklah, sampai jumpa di postingan artikel lainnya.

Anda sekarang membaca artikel Data Cleaning dalam Machine Learning dengan alamat link https://www.theochimz.eu.org/2022/06/data-cleaning-dalam-machine-learning.html