Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
感谢老师的分享,great talk!
您說的問題確實存在,一方面開源的大模型在做多語言,但是除了英語之外的其他語言的語料佔比非常少,所以在其他語言上面的無論是tokenizer 還是模型推理,性能都不好,另一個方面 我們是否可以在model的輸入端和輸出端加入制定語言的翻譯model呢? 當然時延會上升,語言翻譯也會丟失原生語言的一些含義。 如果直接在繁體中文上面 做tokenizer,之後在做model訓練,但是擔心的是繁體中文的語料規模小於英文, 所以模型訓練的語料是不是應該使用 中文加英文的方式呢? 或者是使用在英文語料庫爲主的開源模型上面 微調,呢? 我想問一下 微調的時候,我們增加新的token到 tokenizer裡面, 這樣好點嗎?
gpt 4o 的tokenizer可以處理中文了 "工作"會是同一個token
感谢老师的分享,great talk!
您說的問題確實存在,一方面開源的大模型在做多語言,但是除了英語之外的其他語言的語料佔比非常少,所以在其他語言上面的無論是tokenizer 還是模型推理,性能都不好,另一個方面 我們是否可以在model的輸入端和輸出端加入制定語言的翻譯model呢? 當然時延會上升,語言翻譯也會丟失原生語言的一些含義。 如果直接在繁體中文上面 做tokenizer,之後在做model訓練,但是擔心的是繁體中文的語料規模小於英文, 所以模型訓練的語料是不是應該使用 中文加英文的方式呢? 或者是使用在英文語料庫爲主的開源模型上面 微調,呢? 我想問一下 微調的時候,我們增加新的token到 tokenizer裡面, 這樣好點嗎?
gpt 4o 的tokenizer可以處理中文了 "工作"會是同一個token