maaf pak data tidak terjadi missing value tetapi ketika mengimplementasikan misal dg menggunakan algo. naive bayes 2 label mendapatkan hasil 0 semua. solusinya bagaimana ya pak
Jika hasil prediksi menggunakan algoritma Naive Bayes mendapatkan nilai 0 semua, bisa jadi terdapat masalah pada pembagian data training dan testing. Salah satu solusinya adalah dengan memastikan bahwa data yang digunakan untuk training dan testing telah terdistribusi dengan baik dan mewakili semua kemungkinan nilai pada setiap fitur. Selain itu, dapat juga dilakukan pengecekan terhadap model Naive Bayes yang digunakan. Mungkin model yang digunakan tidak cocok dengan data yang digunakan, sehingga perlu memilih model yang lebih sesuai dengan data. Selain itu, bisa juga dicoba menggunakan algoritma klasifikasi lain yang lebih cocok dengan data yang dimiliki, seperti Decision Tree, Random Forest, atau Support Vector Machine (SVM). Jika hal tersebut tidak memperbaiki hasil prediksi, maka bisa jadi data tidak memiliki korelasi dengan variabel target sehingga tidak bisa digunakan untuk memprediksi variabel target dengan model tertentu. Dalam hal ini, perlu dilakukan analisis lebih lanjut untuk mencari tahu apakah memang ada korelasi antara variabel prediktor dan variabel target.
Mau tanya pak, kalo mau mentranformasi nilai di atribut yang ada di xtrain nya lebih dari satu kolom gimana pak.? Misal untuk kolom jenis kelamin, status pernikahan, dan agama di transformasi sekaligus
Terima kasih pak atas ilmunya. Izin bertanya kalo boleh tau tujuan dr training and test apa ya, apakah training and test adalah prosedur wajib preprocessing? Dan untuk scaling, apakah dgn melakukan scaling masih cukup signifikan untuk mempresentasikan modelnya? Terima kasih pak
Biasanya menurut beberapa artikel bisa menggunakan aturan 70/30 dmana 70% utk training dan 30% utk testing. Tetapi boleh juga menggunakan aturan 80/20 karna ada beberapa artikel yg menggunakannya mb. Jadi bisa menggunakan aturan yg 70/30 atau 80/20.
Memakai modus sebagai imputasi (pengisian) data yang hilang pada variabel kategorikal bisa jadi pilihan yang tepat, namun tergantung pada karakteristik data tersebut. Namun, perlu diperhatikan bahwa penggunaan modus hanya cocok untuk data kategorikal yang memiliki distribusi frekuensi yang seimbang, yaitu setiap nilai muncul dengan frekuensi yang relatif sama. Jika distribusi frekuensi tidak seimbang, maka penggunaan modus dapat menghasilkan bias pada data. Selain penggunaan modus, terdapat beberapa metode lain yang dapat digunakan untuk mengisi missing value pada data kategorikal, seperti metode hot-deck dan cold-deck, serta teknik regresi. Pilihan metode yang digunakan harus disesuaikan dengan karakteristik data yang dimiliki dan tujuan analisis yang ingin dicapai.
Nanya pak, saya memakai VS code untuk editor nya, pas saat import library nya kok malah eror ya pak , sy juga udah instal python versi terbaru di websitenya🙏..
Perlu diinstal dl librarynya mas yg sdh dipanggil. Misal kalau numpy, diinstal dl dr command prompt => pip install numpy, dst sesuai dengan library yg dipanggil.
Ada 2 cara untuk install library di python mas: bisa menggunakan PIP di command prompt atau bisa menggunakan CONDA. Kalau saya biasanya menggunakan PIP caranya: buka Command Prompt dan pastikan sudah terinstall python. Kemudian ketikkan : *pip install * => misal untuk install numpy => *pip install numpy*; untuk install pandas => *pip install pandas* dst
bisa dilakukan sebelum atau sesudah nya mas, kalau dalam hal ini saya lebih mudah kalau sudah saya bagi terlebih dahulu dalam data training dan data testing sehingga kita bisa membedakan antara data sebelum dinormalisasi dan sesudah dinormalisasi (bisa membandingkan antara x, x_train dan x_test). Tergantung dari kebutuhan analisa yang ingin dilakukan mas.
saya mau tanya pak, pas saya cek dengan print(x), malah hasil nya ndak nampak pak kosongan gitu cuma muncul [ ], kalau pakai print(y) baru muncul data nya pak?, yang salah apa itu pak??
ua-cam.com/video/3tDOYGDv8Ao/v-deo.html Coba mas dicek kembali apakah sudah benar atau sesuai untuk penulisan kodingnya ( x = dataset.iloc[:, :-1].values ). Atau mungkin salah di data.csv nya. Download data yang digunakan: drive.google.com/file/d/1AV5VsLiqurXMfT5zMuqPiMcOhKZmyJSZ/view?usp=sharing
assalumualaikum.., pak junta., lihat konten dan materi nya., langsung tahu ini sahabat seperdjoengan., salam satu perguruan RSW...
wa'alaikumsalam, salam seperdjoengan mas Solihkhin
Terimakasih pak
maaf pak data tidak terjadi missing value tetapi ketika mengimplementasikan misal dg menggunakan algo. naive bayes 2 label mendapatkan hasil 0 semua. solusinya bagaimana ya pak
Jika hasil prediksi menggunakan algoritma Naive Bayes mendapatkan nilai 0 semua, bisa jadi terdapat masalah pada pembagian data training dan testing. Salah satu solusinya adalah dengan memastikan bahwa data yang digunakan untuk training dan testing telah terdistribusi dengan baik dan mewakili semua kemungkinan nilai pada setiap fitur.
Selain itu, dapat juga dilakukan pengecekan terhadap model Naive Bayes yang digunakan. Mungkin model yang digunakan tidak cocok dengan data yang digunakan, sehingga perlu memilih model yang lebih sesuai dengan data.
Selain itu, bisa juga dicoba menggunakan algoritma klasifikasi lain yang lebih cocok dengan data yang dimiliki, seperti Decision Tree, Random Forest, atau Support Vector Machine (SVM).
Jika hal tersebut tidak memperbaiki hasil prediksi, maka bisa jadi data tidak memiliki korelasi dengan variabel target sehingga tidak bisa digunakan untuk memprediksi variabel target dengan model tertentu. Dalam hal ini, perlu dilakukan analisis lebih lanjut untuk mencari tahu apakah memang ada korelasi antara variabel prediktor dan variabel target.
Mau tanya pak, apakah bisa preprocessing data ini di buatkan dalam bentujk aplikasi? Contoh ke dalam streamlit
bisa mas
pak caranya menyimpan hasil normalisasinya ke dalam file csv bagaimana ? data x_test dan x_train ke dalam file csv
Mau tanya pak, kalo mau mentranformasi nilai di atribut yang ada di xtrain nya lebih dari satu kolom gimana pak.? Misal untuk kolom jenis kelamin, status pernikahan, dan agama di transformasi sekaligus
bisa dibuatkan list atau fungsi tersendiri
Saya mau tanya Pak, kalau untuk menghapus record yang ada missing value (nan tadi di python) itu untuk codenya bagaimana ya Pak? terimakasih
bisa menggunakan perintah => df.dropna()
df => dataframe
Secara default perintah dropna() akan menghapus semua baris yang mengandung nilai NaN.
Terima kasih pak atas ilmunya. Izin bertanya kalo boleh tau tujuan dr training and test apa ya, apakah training and test adalah prosedur wajib preprocessing? Dan untuk scaling, apakah dgn melakukan scaling masih cukup signifikan untuk mempresentasikan modelnya? Terima kasih pak
tidak wajib, disesuaikan dengan data yang digunakan, scaling digunakan dan cuku[ signifikan jika dirasa jarak range terlalu besar diantara datanya.
@@juntazen maksudnya scaling itu apa kah outlier pak?
ingin bertanya pak, menurut bapak dataset split yg ideal itu bagaimana?
Biasanya menurut beberapa artikel bisa menggunakan aturan 70/30 dmana 70% utk training dan 30% utk testing. Tetapi boleh juga menggunakan aturan 80/20 karna ada beberapa artikel yg menggunakannya mb. Jadi bisa menggunakan aturan yg 70/30 atau 80/20.
Ijin bertanya pak, untuk data kategorikal yg missing valuesnya mencapai ribuan itu bisa pakai modus juga?
Memakai modus sebagai imputasi (pengisian) data yang hilang pada variabel kategorikal bisa jadi pilihan yang tepat, namun tergantung pada karakteristik data tersebut.
Namun, perlu diperhatikan bahwa penggunaan modus hanya cocok untuk data kategorikal yang memiliki distribusi frekuensi yang seimbang, yaitu setiap nilai muncul dengan frekuensi yang relatif sama. Jika distribusi frekuensi tidak seimbang, maka penggunaan modus dapat menghasilkan bias pada data.
Selain penggunaan modus, terdapat beberapa metode lain yang dapat digunakan untuk mengisi missing value pada data kategorikal, seperti metode hot-deck dan cold-deck, serta teknik regresi. Pilihan metode yang digunakan harus disesuaikan dengan karakteristik data yang dimiliki dan tujuan analisis yang ingin dicapai.
Nanya pak, saya memakai VS code untuk editor nya, pas saat import library nya kok malah eror ya pak , sy juga udah instal python versi terbaru di websitenya🙏..
Perlu diinstal dl librarynya mas yg sdh dipanggil. Misal kalau numpy, diinstal dl dr command prompt => pip install numpy, dst sesuai dengan library yg dipanggil.
Untuk itu caranya bagaimana pak, tolong jelaskan🙏🏻
Ada 2 cara untuk install library di python mas: bisa menggunakan PIP di command prompt atau bisa menggunakan CONDA. Kalau saya biasanya menggunakan PIP caranya: buka Command Prompt dan pastikan sudah terinstall python. Kemudian ketikkan : *pip install * => misal untuk install numpy => *pip install numpy*; untuk install pandas => *pip install pandas* dst
pak minta ppt pertemuan 1 sampai akhir dong pak
Kenapa normalisasinya di akhir setelah train test split?
bisa dilakukan sebelum atau sesudah nya mas, kalau dalam hal ini saya lebih mudah kalau sudah saya bagi terlebih dahulu dalam data training dan data testing sehingga kita bisa membedakan antara data sebelum dinormalisasi dan sesudah dinormalisasi (bisa membandingkan antara x, x_train dan x_test). Tergantung dari kebutuhan analisa yang ingin dilakukan mas.
saya mau tanya pak, pas saya cek dengan print(x), malah hasil nya ndak nampak pak kosongan gitu cuma muncul [ ], kalau pakai print(y) baru muncul data nya pak?, yang salah apa itu pak??
ua-cam.com/video/3tDOYGDv8Ao/v-deo.html
Coba mas dicek kembali apakah sudah benar atau sesuai untuk penulisan kodingnya ( x = dataset.iloc[:, :-1].values ). Atau mungkin salah di data.csv nya.
Download data yang digunakan:
drive.google.com/file/d/1AV5VsLiqurXMfT5zMuqPiMcOhKZmyJSZ/view?usp=sharing
bang minta kodenya
bisa dicek disini kak => colab.research.google.com/drive/10XFU5-FJT5ARFwZX_M80VTHOIWUK3G5G?usp=sharing