台大資訊 深度學習之應用 | ADL 5.1: BPE (Byte-Pair Encoding) Tokenization 如何將字詞切成小單元

Поділитися
Вставка
  • Опубліковано 23 жов 2024
  • 2023/10/12 Applied Deep Learning
    Lectured by Yun-Nung Vivian Chen 陳縕儂 @ NTU CSIE

КОМЕНТАРІ • 3

  • @shuaishao6114
    @shuaishao6114 2 місяці тому

    感谢老师的分享,great talk!

  • @wangjohn9224
    @wangjohn9224 Місяць тому

    您說的問題確實存在,一方面開源的大模型在做多語言,但是除了英語之外的其他語言的語料佔比非常少,所以在其他語言上面的無論是tokenizer 還是模型推理,性能都不好,另一個方面 我們是否可以在model的輸入端和輸出端加入制定語言的翻譯model呢? 當然時延會上升,語言翻譯也會丟失原生語言的一些含義。 如果直接在繁體中文上面 做tokenizer,之後在做model訓練,但是擔心的是繁體中文的語料規模小於英文, 所以模型訓練的語料是不是應該使用 中文加英文的方式呢? 或者是使用在英文語料庫爲主的開源模型上面 微調,呢? 我想問一下 微調的時候,我們增加新的token到 tokenizer裡面, 這樣好點嗎?

  • @lollipop030-pv2kw
    @lollipop030-pv2kw Місяць тому

    gpt 4o 的tokenizer可以處理中文了 "工作"會是同一個token