Pertemuan 3 - Preprocessing Data dengan Python | Kuliah Online Data Mining 2021 | Python Data Mining

Поділитися
Вставка
  • Опубліковано 20 гру 2024

КОМЕНТАРІ •

  • @solihkhinmustofa8381
    @solihkhinmustofa8381 Рік тому +1

    assalumualaikum.., pak junta., lihat konten dan materi nya., langsung tahu ini sahabat seperdjoengan., salam satu perguruan RSW...

    • @juntazen
      @juntazen  Рік тому

      wa'alaikumsalam, salam seperdjoengan mas Solihkhin

  • @vikiwahyudi2860
    @vikiwahyudi2860 2 роки тому

    Terimakasih pak

  • @unknown-xp5qw
    @unknown-xp5qw Рік тому +2

    maaf pak data tidak terjadi missing value tetapi ketika mengimplementasikan misal dg menggunakan algo. naive bayes 2 label mendapatkan hasil 0 semua. solusinya bagaimana ya pak

    • @juntazen
      @juntazen  Рік тому

      Jika hasil prediksi menggunakan algoritma Naive Bayes mendapatkan nilai 0 semua, bisa jadi terdapat masalah pada pembagian data training dan testing. Salah satu solusinya adalah dengan memastikan bahwa data yang digunakan untuk training dan testing telah terdistribusi dengan baik dan mewakili semua kemungkinan nilai pada setiap fitur.
      Selain itu, dapat juga dilakukan pengecekan terhadap model Naive Bayes yang digunakan. Mungkin model yang digunakan tidak cocok dengan data yang digunakan, sehingga perlu memilih model yang lebih sesuai dengan data.
      Selain itu, bisa juga dicoba menggunakan algoritma klasifikasi lain yang lebih cocok dengan data yang dimiliki, seperti Decision Tree, Random Forest, atau Support Vector Machine (SVM).
      Jika hal tersebut tidak memperbaiki hasil prediksi, maka bisa jadi data tidak memiliki korelasi dengan variabel target sehingga tidak bisa digunakan untuk memprediksi variabel target dengan model tertentu. Dalam hal ini, perlu dilakukan analisis lebih lanjut untuk mencari tahu apakah memang ada korelasi antara variabel prediktor dan variabel target.

  • @dcb5911
    @dcb5911 2 роки тому +1

    Mau tanya pak, apakah bisa preprocessing data ini di buatkan dalam bentujk aplikasi? Contoh ke dalam streamlit

  • @Edogawa271
    @Edogawa271 2 роки тому

    pak caranya menyimpan hasil normalisasinya ke dalam file csv bagaimana ? data x_test dan x_train ke dalam file csv

  • @angganugraha8631
    @angganugraha8631 2 роки тому

    Mau tanya pak, kalo mau mentranformasi nilai di atribut yang ada di xtrain nya lebih dari satu kolom gimana pak.? Misal untuk kolom jenis kelamin, status pernikahan, dan agama di transformasi sekaligus

    • @juntazen
      @juntazen  2 роки тому

      bisa dibuatkan list atau fungsi tersendiri

  • @damarjatisuryakusuma6572
    @damarjatisuryakusuma6572 2 роки тому

    Saya mau tanya Pak, kalau untuk menghapus record yang ada missing value (nan tadi di python) itu untuk codenya bagaimana ya Pak? terimakasih

    • @juntazen
      @juntazen  2 роки тому

      bisa menggunakan perintah => df.dropna()
      df => dataframe
      Secara default perintah dropna() akan menghapus semua baris yang mengandung nilai NaN.

  • @bassss780
    @bassss780 2 роки тому

    Terima kasih pak atas ilmunya. Izin bertanya kalo boleh tau tujuan dr training and test apa ya, apakah training and test adalah prosedur wajib preprocessing? Dan untuk scaling, apakah dgn melakukan scaling masih cukup signifikan untuk mempresentasikan modelnya? Terima kasih pak

    • @juntazen
      @juntazen  2 роки тому

      tidak wajib, disesuaikan dengan data yang digunakan, scaling digunakan dan cuku[ signifikan jika dirasa jarak range terlalu besar diantara datanya.

    • @latifahiriani817
      @latifahiriani817 2 роки тому

      @@juntazen maksudnya scaling itu apa kah outlier pak?

  • @riskadwiayulestari9883
    @riskadwiayulestari9883 3 роки тому

    ingin bertanya pak, menurut bapak dataset split yg ideal itu bagaimana?

    • @juntazen
      @juntazen  3 роки тому

      Biasanya menurut beberapa artikel bisa menggunakan aturan 70/30 dmana 70% utk training dan 30% utk testing. Tetapi boleh juga menggunakan aturan 80/20 karna ada beberapa artikel yg menggunakannya mb. Jadi bisa menggunakan aturan yg 70/30 atau 80/20.

  • @nikomangrustini7553
    @nikomangrustini7553 Рік тому

    Ijin bertanya pak, untuk data kategorikal yg missing valuesnya mencapai ribuan itu bisa pakai modus juga?

    • @juntazen
      @juntazen  Рік тому

      Memakai modus sebagai imputasi (pengisian) data yang hilang pada variabel kategorikal bisa jadi pilihan yang tepat, namun tergantung pada karakteristik data tersebut.
      Namun, perlu diperhatikan bahwa penggunaan modus hanya cocok untuk data kategorikal yang memiliki distribusi frekuensi yang seimbang, yaitu setiap nilai muncul dengan frekuensi yang relatif sama. Jika distribusi frekuensi tidak seimbang, maka penggunaan modus dapat menghasilkan bias pada data.
      Selain penggunaan modus, terdapat beberapa metode lain yang dapat digunakan untuk mengisi missing value pada data kategorikal, seperti metode hot-deck dan cold-deck, serta teknik regresi. Pilihan metode yang digunakan harus disesuaikan dengan karakteristik data yang dimiliki dan tujuan analisis yang ingin dicapai.

  • @bagaskurniarahman4307
    @bagaskurniarahman4307 3 роки тому

    Nanya pak, saya memakai VS code untuk editor nya, pas saat import library nya kok malah eror ya pak , sy juga udah instal python versi terbaru di websitenya🙏..

    • @juntazen
      @juntazen  3 роки тому

      Perlu diinstal dl librarynya mas yg sdh dipanggil. Misal kalau numpy, diinstal dl dr command prompt => pip install numpy, dst sesuai dengan library yg dipanggil.

    • @ammaramjad1180
      @ammaramjad1180 3 роки тому

      Untuk itu caranya bagaimana pak, tolong jelaskan🙏🏻

    • @juntazen
      @juntazen  3 роки тому +1

      Ada 2 cara untuk install library di python mas: bisa menggunakan PIP di command prompt atau bisa menggunakan CONDA. Kalau saya biasanya menggunakan PIP caranya: buka Command Prompt dan pastikan sudah terinstall python. Kemudian ketikkan : *pip install * => misal untuk install numpy => *pip install numpy*; untuk install pandas => *pip install pandas* dst

  • @jefrijaya1960
    @jefrijaya1960 Рік тому

    pak minta ppt pertemuan 1 sampai akhir dong pak

  • @choirudinemcha
    @choirudinemcha 3 роки тому

    Kenapa normalisasinya di akhir setelah train test split?

    • @juntazen
      @juntazen  3 роки тому

      bisa dilakukan sebelum atau sesudah nya mas, kalau dalam hal ini saya lebih mudah kalau sudah saya bagi terlebih dahulu dalam data training dan data testing sehingga kita bisa membedakan antara data sebelum dinormalisasi dan sesudah dinormalisasi (bisa membandingkan antara x, x_train dan x_test). Tergantung dari kebutuhan analisa yang ingin dilakukan mas.

  • @hadikustiyawan4949
    @hadikustiyawan4949 3 роки тому

    saya mau tanya pak, pas saya cek dengan print(x), malah hasil nya ndak nampak pak kosongan gitu cuma muncul [ ], kalau pakai print(y) baru muncul data nya pak?, yang salah apa itu pak??

    • @juntazen
      @juntazen  3 роки тому

      ua-cam.com/video/3tDOYGDv8Ao/v-deo.html
      Coba mas dicek kembali apakah sudah benar atau sesuai untuk penulisan kodingnya ( x = dataset.iloc[:, :-1].values ). Atau mungkin salah di data.csv nya.
      Download data yang digunakan:
      drive.google.com/file/d/1AV5VsLiqurXMfT5zMuqPiMcOhKZmyJSZ/view?usp=sharing

  • @faridwahyu9073
    @faridwahyu9073 2 роки тому

    bang minta kodenya

    • @juntazen
      @juntazen  2 роки тому +2

      bisa dicek disini kak => colab.research.google.com/drive/10XFU5-FJT5ARFwZX_M80VTHOIWUK3G5G?usp=sharing