Pythonで自然言語処理(テキスト処理)を勉強するならまずこの動画で超特訓

Поділитися
Вставка
  • Опубліковано 15 чер 2024
  • ■ 講義内使用コード
    colab.research.google.com/dri...
    ■ 言語処理100本ノック
    nlp100.github.io/ja/
    00:00 イントロ
    01:16 事前準備
    03:49 01. テキストファイルの書き出し
    05:29 02. テキストファイルの読み込み
    07:16 03. 形態素解析1(MeCab形式)
    09:12 04. 形態素解析2(ChaSen形式)
    10:34 05. 形態素解析3(わかち書き)
    11:43 06. 形態素解析4(カタカナ変換)
    13:18 07. 品詞ごとの分類
    24:53 08. 動詞の抽出
    29:09 09. 単語の出現頻度の算出
    32:46 10. 頻出順に並べ替え
    40:54 11. ヒストグラムで可視化
    43:08 12. N-gram(文字単位)
    46:42 13. N-gram(単語単位)
    50:56 14. N-gramの関数化
    56:30 15. 単語ベクトルの読み込み
    01:00:23 16. Cos類似度
    01:03:03 17. 類似度ランキング
    01:04:35 18. 単語ベクトルの演算
    01:07:36 19. k-meansでクラスタリング
    01:18:25 20. t-SNEで可視化
    #Pythonで自然言語処理 #自然言語処理20本ノック #自然言語

КОМЕНТАРІ • 39

  • @michaelbrantley5946
    @michaelbrantley5946 Рік тому +1

    この動画を作ってありがとうございます。期末試験のために形態素解析プロジェクトを作ります。テクニックの説明はわかりやすかった。本当に勉強になりました!

  • @user-eu5qr7oj3d
    @user-eu5qr7oj3d 2 роки тому +2

    楽しく勉強しています。このような素晴らしい動画が無料で見れる時代に生まれてよかった!

  • @user-uv5tp4bk3g
    @user-uv5tp4bk3g 3 роки тому +3

    ノック形式!!
    楽しみにしてました
    ありがとうございます!

  • @-04-1activeelement2
    @-04-1activeelement2 3 роки тому +2

    ノック形式、すべて見させていただきました。
    全然 知識のないわたしでも、ある程度 何を説明しているのかがわかります。
    本当にわかりやすいです!
    ありがとうございます!!
    これからもノック形式や他の動画、よろしくお願いいたします。

    • @imanyu_programming
      @imanyu_programming  3 роки тому +1

      コメントありがとうございます😊
      そのようにおっしゃっていただき非常に嬉しいです!!!

  • @TY-ry6wt
    @TY-ry6wt Рік тому +2

    いつもいい動画をありがとうございます。要領よいテンポの良いご解説、心地よく頭に入ってきて助かります。高校授業などこれまで以上にPYTHONを学ぶ人々が増えるような話も聞きますので、いまにゅ先生のような方のご活躍の場も更に広がっていくのではと、、応援しております。

  • @geytaro
    @geytaro 3 роки тому +5

    自然言語処理を学習している者です。
    いまにゅ先生の教え方はもちろんのことですが、とても頼もしくお人柄も良いので、ますますファンになりました!
    自然言語処理でまた何か特集やってくださることを期待しています!

    • @imanyu_programming
      @imanyu_programming  3 роки тому +1

      ありがとうございます!!!!
      そのようにおっしゃっていただき嬉しいです!

  • @gaohihi
    @gaohihi 3 роки тому +1

    とても参考になりました!

    • @imanyu_programming
      @imanyu_programming  3 роки тому +1

      参考になったようで良かったです!!
      こちらこそご視聴いただきありがとうございます!!!!!!

  • @kenkenmath
    @kenkenmath 3 роки тому +3

    すごい筋肉だ💪

  • @currysita
    @currysita 3 роки тому +2

    この動画がきっかけでチャンネル登録しました。友人にも勧めます。

  • @ouka471
    @ouka471 3 роки тому +1

    勉強になる~!

    • @imanyu_programming
      @imanyu_programming  3 роки тому +1

      いつもコメントありがとうございます!!
      勉強になったようで良かったです!!!

  • @user-fd8nc8dd1h
    @user-fd8nc8dd1h 3 роки тому +3

    現在大学で自然言語処理に関しての研究を行っていて、この動画を参考にさせていただいています。とてもわかりやすく助けになっております。ありがとうございます!
    やっている中で、わからない所があるので質問させていただました。
    単語ベクトルの読み込みのmodel = のコードのところでOSerrorが出てしまうんですが、解決方法などわかったりしますでしょうか??

  • @itsuki_death
    @itsuki_death Рік тому

    単語ベクトルのとこでもうワクワクが止まりませんでした。

  • @djphonon
    @djphonon 2 роки тому +2

    いまにゅさんこんにちわ。とてもわかりやすく参考になります。
    現在15 単語ベクトルの読み込みまで実践しているのですが、model = KeyedVectors.load_word2vec_formatのところで
    ValueError: not enough values to unpack (expected 2, got 0)
    となってしまいます。概要欄の使用したコードでも実行してみたのですが、同様のエラーが発生したのですが
    解決策を教えて欲しいです。

  • @ya7855
    @ya7855 3 роки тому +1

    MeCabよりginzaがトレンドという記事を見かけたのですが、実際のところどうなんでしょう?
    いまのところ、ginza推しの記事はだいたいMeCabより良いでゴンスって書いてる気がします。
    ヒャダルコとベギラマのような、時と場合に応じて使い分けるものなのか、メラミとベギラゴンのような、だいたい後者が良いけど燃費を考えると前者が輝くときもある、みたいな感じなのか。

    • @imanyu_programming
      @imanyu_programming  3 роки тому +1

      ginzaというのを使用したことがないのですが、どちらでも問題ないとは思います!
      少し前までのデファクトスタンダードはMeCabだったとおもうので、記事数等を考えるとMeCabを使用したほうが諸々すすめやすいかもしれませんが!

  • @user-kait1634
    @user-kait1634 3 роки тому +2

    とてもわかりやすく、考えるべきポイントもしっかり抑えられているので勉強になります!
    動画が長い&喋るのが早いので見逃してしまった部分を探すのが面倒、、、。
    そこで、再生スピードを0.75にしています。
    巻き戻すのもすこし楽になった気がします!

    • @imanyu_programming
      @imanyu_programming  3 роки тому

      コメントありがとうございます!!
      しゃべるの早くてすいません、、、
      動画時間を少しでも短くしようと若干早めに話してます。。。!!

  • @rob7980
    @rob7980 Рік тому +1

    model = のコードのところでOSerrorが出る件ですが、tmpの下に空のcookies.txtを置くと解消されました。理由はわかりません。

  • @user-xh4bj1xw3q
    @user-xh4bj1xw3q 2 роки тому +1

    MecabはC#で使ったことがあるのですが、単語ベクトルについては知らなかったのでやってみました。英語ではなく日本語でもできるだろうと思ってやっていたところ、メモリーが足りなくなったのか落ちました。英語だとそんなに負荷はかからないようですが、日本語だと厳しそうです。

  • @_hasune7587
    @_hasune7587 3 роки тому +1

    自然言語処理を学習中です。
    2020年自然言語処理のngramにおいて「return list(zip(*[lst[i:] for i in range(n)]))」という回答をされている方がいらっしゃいました。
    いろいろ調べてみたのですが、「zip(*...)」の理解が及びません。
    すとんと落ちるようなご説明があればとても助かります!
    何卒よろしくお願いいたします。

  • @shigeruendo
    @shigeruendo 3 роки тому +2

    lambdaやってください

  • @teghenn1
    @teghenn1 3 роки тому +4

    N-gram 関数化間違ってますよ笑
    -n-1 じゃなくて-(n-1)です

    • @imanyu_programming
      @imanyu_programming  3 роки тому

      あれ、すいません、間違ってましたね、、、
      ご指摘ありがとうございます!!

  • @user-qd8un6su3c
    @user-qd8un6su3c 6 місяців тому

    全くわかりません。

  • @yutateenu
    @yutateenu 10 місяців тому +1

    2023年7月28日時点にて、私のAnacondaにインストールされたgensimのバージョンが4.3.0であることから、同様に上手くいかない方のために、調べてみました。
    なお、20については、bhtsneインストールができないので諦めました。
    19. k-meansでクラスタリング
    vocab = list(model.wv.vocab.keys())[:max_vocab] → vocab = list(model.key_to_index)[:max_vocab]
    ※gensimの4.3.0では既にwv.vocabというメソッドが廃止されたらしく、key_to_indexを使え、とありました
    kmeans_model = KMeans(n_clusters=n_clusters, verbose=1, random_state=42, n_jobs=-1) →kmeans_model = KMeans(n_clusters=n_clusters, verbose=1, random_state=42)
    ※n_jobsというオプションも廃止されたようなので、削除しました
    これで19はうまく表示されました。

  • @user-vb6mh9kb5l
    @user-vb6mh9kb5l 2 роки тому

    WindowsにおけるMeCab使用時のErrorについて: github.com/SamuraiT/mecab-python3/issues/54

  • @muzoid30825
    @muzoid30825 2 роки тому

    自然言語処理でアンケートの分類をしてくれと頼まれたので、 急いで勉強中。 めっちゃありがたい・・
    全然どうでもいいけど、 japanize_matplotlib って ジャパナイズ(日本語にする 的な意味)だと思ってる。