원핫 인코딩 라벨 인코딩 언제 어떻게 쓰는지 정리해 드릴게요!

Поділитися
Вставка
  • Опубліковано 20 сер 2024
  • #분류 모델 (SVM)
    import pandas as pd
    df = pd.read_csv('raw.githubuser...)
    #print(df.info())
    #display(df.head()) #결측값 : Age, Cabin, Embarked / 데이터 변환 : Name, Sex, Ticket, Cabin, Embarked
    df = df.drop(columns=['Ticket','Name','PassengerId','Cabin'])
    #print(df.info())
    #결측값 처리
    df['Age'].fillna(df['Age'].mode()[0], inplace=True)
    df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)
    #print(df.info())
    #데이터 변환(원-핫 인코딩)
    one_hot_df = pd.get_dummies(df[['Sex','Embarked']])
    df = pd.concat([df, one_hot_df], axis=1)
    df = df.drop(columns=['Sex','Embarked'])
    #print(df.info())
    #print(df.head())
    train = df.sample(800)
    #학습, 테스트 데이터 분할
    from sklearn.model_selection import train_test_split
    X=train.drop(columns='Survived')
    y=train['Survived']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)
    #모델 로드
    from sklearn.svm import SVC
    svc = SVC(kernel = 'rbf')
    svc.fit(X_train, y_train)
    pred = svc.predict(X_test)
    #모델 성능 평가 (0:사망, 1:생존)
    from sklearn.metrics import accuracy_score
    acc = accuracy_score(y_test, pred)
    print('acc:', acc) #acc: 0.65625
    ------------------------------------------------------------------------------------------------------------------------------
    #분류 모델 (랜덤포레스트)
    import pandas as pd
    df = pd.read_csv('raw.githubuser...)
    #print(df.info())
    #display(df.head()) #결측값 : Age, Cabin, Embarked / 데이터 변환 : Name, Sex, Ticket, Cabin, Embarked
    df = df.drop(columns=['Ticket','Name','PassengerId','Cabin'])
    #print(df.info())
    #결측값 처리
    df['Age'].fillna(df['Age'].mode()[0], inplace=True)
    df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)
    #print(df.info())
    #데이터 변환 (라벨인코딩)
    from sklearn.preprocessing import LabelEncoder
    le = LabelEncoder()
    df['Sex'] = le.fit_transform(df['Sex'])
    df['Embarked'] = le.fit_transform(df['Embarked'])
    #print(df.info())
    #print(df.head())
    #학습, 테스트 데이터 분할
    from sklearn.model_selection import train_test_split
    X=train.drop(columns='Survived')
    y=train['Survived']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)
    #모델 로드
    from sklearn.ensemble import RandomForestClassifier
    rfc=RandomForestClassifier(n_estimators=150, max_depth=20, random_state=10)
    rfc.fit(X_train, y_train)
    pred1=rfc.predict(X_test)
    #모델 성능평가
    from sklearn.metrics import accuracy_score
    acc1 = accuracy_score(y_test, pred1)
    print('acc:', acc1) #acc: 0.76875

КОМЕНТАРІ • 7

  • @LEE0616
    @LEE0616 Місяць тому

    교수님 항상 유익한 강의 감사합니다

  • @yuyuyu-ci4sb
    @yuyuyu-ci4sb Місяць тому

    헐 정말 궁금했던건데 감사합니다!

  • @user-bf1jz3zc2z
    @user-bf1jz3zc2z Місяць тому

    어제 사전합격이긴하지만 감사함에 글 남기고 갑니다. 유튜브 1,2,3유형 올려주신거보고 달달 외워서 갔습니다. 이해도 잘 되었고 목소리 톤도 귀에 잘 들어와서 도움이 많이 되었습니다.

    • @aiaiyouknow1063
      @aiaiyouknow1063  Місяць тому

      좋은 결과 얻으셨다니 저도 너무 기쁩니다! 합격을 진심으로 축하드립니다! 😃

  • @user-sv7ns7yt6h
    @user-sv7ns7yt6h Місяць тому

    빅분기 시험이틀남겨두고 선생님 강의를 접했습니다.
    그때 보면서 느낀점이 다른 강의들과 다르게 시험에 정말 꼭필요한 요점과 코드만 올려서 정리해주셔서(특히2유형)
    정말 막막한 상황에서 빠르게 템플릿만들고 공부방향도 정하면서 실기시험 내내 포기하지않고 시험 치를수있었습니다.
    덕분에 좋은점수로 합격했습니다. 감사합니다

    • @aiaiyouknow1063
      @aiaiyouknow1063  Місяць тому

      좋은소식 전해주셔서 감사합니다! ^^ 합격을 축하드립니다! 고생 많으셨어요!!

    • @user-sv7ns7yt6h
      @user-sv7ns7yt6h Місяць тому

      @@aiaiyouknow1063 넵! 정말 감사합니다!