免費線上快速完成第一個客製化LLM模型 | 教你微調 Llama3 | 自創模型如何匯入Ollama

Longlong AI and Programming Practical

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 19 гру 2024

КОМЕНТАРІ •

@conglife 6 місяців тому ⁺¹
太棒了太棒了，特别是怎么转成dataset这个步骤真的很详细，感谢！
@changlunglung 6 місяців тому
感謝您的支持，謝謝。
@jason77nhri 7 місяців тому ⁺²
最後要匯入的部分，既然已經生成GGUF檔了，是否用GPT4all、LMstudio、Jan....可能會簡單一點? Ollama 安裝苦手，而且還要另外裝web ui
@changlunglung 7 місяців тому ⁺¹
是可以的喔，會這麼做，主要是日後如果系統要串接，可以有比較高的客製化彈性。
@fuchitsai9040 6 місяців тому ⁺¹
unslothai Start on Colab 是否可以將fine-tune 放到自己GPU Server 上進行finetune , 所以要先起一個docker+python 嗎?
@changlunglung 6 місяців тому
這個我還沒有時間進行，目前我無法回答，請見諒。
@蘇柏廷 2 місяці тому ⁺¹
您好想請問一下unsloth可以在windows本地部屬嗎?
@changlunglung 2 місяці тому ⁺¹
這邊我有找到教學，我自已裝了幾次，都失敗，目前還有許多事要做，這個可能先不花時間再試，抱歉。
www.mejump.cn/?p=610
@蘇柏廷 2 місяці тому
@@changlunglung 好的謝謝您
@蘇柏廷 2 місяці тому ⁺¹
@@changlunglung 您我我剛剛經過一番努力終於建置好了也成功訓練了
@changlunglung 2 місяці тому ⁺¹
太棒了，恭喜您，踏出了一大步。
@chieh5362 Місяць тому
@@changlunglung 您好, 這個網址我連不上去, 是否可以再提供一次?
@jason77nhri 7 місяців тому ⁺¹
為何訓練JSON資料有instruction沒有input啊? input、instruction怎麼定義?
@changlunglung 7 місяців тому ⁺¹
hi, 因為我偷懶，懶的找例子啦。
原始官方預訓練的JSON裡面，其實也是有，帶INPUT的例子，以下是二個，我轉成中文後的，給你參考，看例實，應該就比較明白該怎麼放內容了。
{
"instruction": "解釋為什麼下面的分數等於 1/4",
“輸入”：“4/16”，
"output": "分數 4/16 等於 1/4，因為兩個分數代表相同的值。可以將分子和分母除以一個公因數來簡化分數。在這種情況下，4 是一個公因數4 /16 的分子和分母的因數當我們除以4 時，我們得到4/4 = 1 和16/4 = 4，所以簡化分數是1/4。乘以4，我們會得到(1x4)/(4x4)，或4/16，因為兩個分數都可以透過乘法導出。
},
{
"instruction": "評估這個句子是否有拼字和文法錯誤",
"input": "他吃完飯離開餐廳",
"output": "句子中有兩個拼字錯誤。更正後的句子應該是：\"他吃完了飯，離開了餐廳。
},
@changlunglung 7 місяців тому
這個是原始的英文的JSON部份內容
{
"instruction": "Explain why the following fraction is equivalent to 1/4",
"input": "4/16",
"output": "The fraction 4/16 is equivalent to 1/4 because both fractions represent the same value. A fraction can be simplified by dividing both the numerator and the denominator by a common factor. In this case, 4 is a common factor of both the numerator and the denominator of 4/16. When we divide both by 4, we get 4/4 = 1 and 16/4 = 4, so the simplified fraction is 1/4. Alternatively, we can think of this in terms of multiplication. For example, if we multiply the numerator and denominator of the fraction 1/4 by 4, we get (1x4)/(4x4), or 4/16. Since both fractions can be derived from the other through multiplication or division by the same number, they represent the same value and are equivalent."
},
{
"instruction": "Evaluate this sentence for spelling and grammar mistakes",
"input": "He finnished his meal and left the resturant",
"output": "There are two spelling errors in the sentence. The corrected sentence should be: \"He finished his meal and left the restaurant.\""
},
@jason77nhri 7 місяців тому ⁺¹
@@changlunglung 感謝，那如果要針對長文本內容根據一些特定規則來整理成摘要的話，訓練資料該整理成什麼格是比較妥當?
長文本多達 1萬多個tokens，
連預期輸出的摘要大概也大概有3~4000的tokens數字，這樣大放得下嗎?
謝謝
@Karma_c 7 місяців тому ⁺¹
我在collab fine-tune 完之後把gguf匯入ollama, 試了很多次都會出現幻覺 / 無法回答提問
幻覺例如問它A問題, 它會回答B問題的response, 或是直接把所有問題的response一次過答出來
但我在collab 23:32 那部份進行測試是沒有問題的
這會是在轉換成gguf的時候出現問題嗎?
@changlunglung 7 місяців тому ⁺¹
我也有注意到，應該是，轉換的時候損失了。
@changlunglung 7 місяців тому ⁺²
您好，這個問題有找到了，下面這個影片有解決方案。
ua-cam.com/video/HY4ms5P0K-g/v-deo.html
@Karma_c 7 місяців тому
@@changlunglung 非常感謝!!
@木易男子 6 місяців тому ⁺¹
請問在mac run my model會一直轉圈圈是什麼問題？
@changlunglung 6 місяців тому
沒有什麼訊息嗎？
大概執行多久，會是運算效能不夠嗎？
@木易男子 6 місяців тому
@@changlunglung 後面是ollama版本問題，model有照你這個去改ua-cam.com/video/HY4ms5P0K-g/v-deo.html，但問到第三個問題他會一直重複回答
@jason77nhri 7 місяців тому ⁺¹
請問如果要針對長文本內容根據一些特定guideline來整理成summary的話，fine tune的相關資料該怎麼準備啊?
目前看到的都是比較傾向短問本的QA格式謝謝
我的input內容是訪談長文本 1萬多個tokens，
連output的summary大概也大概有3~4000的tokens數字，這樣放得下嗎?
而且我想input內容算是幾百組對話內容這樣
謝謝
@soiltaylor5275 7 місяців тому ⁺¹
沒意義，結果你也看到了，效果不好
@user-jerrytalk 7 місяців тому
@@soiltaylor5275 那會不會RAG效果會更好?
@jason77nhri 7 місяців тому
@@soiltaylor5275 什麼效果不好?? 是我的步驟還是資料量要夠多? 謝謝
@施人空間 6 місяців тому ⁺¹
謝謝這麼詳細的教學，雖然還沒開始測試，但可以先問個問題嗎??
因為我看影片，問的問題都是與學習內容完全一致的，這很理所當然一定能回答出來
但是如果接近，但是順序或用詞不完全一樣，不知道效果會是如何呢??
謝謝
@changlunglung 6 місяців тому ⁺¹
你可以在線上調完後，還沒匯出來的時候，試一下。
接著匯出到本地端再試一下，也許匯出會有精度的損失。
另外對於精度要求較高的，建議可以同時試試RAG+Rerank的方式，效果會比較棒。
@jesselin6304 6 місяців тому ⁺¹
train 出來後的model 怎麼怪怪的？原本model可以回答的問題都回答不出來..哪裡需要注意嘛？
@jesselin6304 6 місяців тому ⁺¹
你影片中33:10也說效果不是很好.請問是哪裡需要改嘛？
@changlunglung 6 місяців тому
這裡有解答
ua-cam.com/video/HY4ms5P0K-g/v-deo.html
@raytheon1229 5 місяців тому
請問可以用台灣自己所訓練得模型Taide 去用自己的資料微調，然後部屬到ollama 嗎?
@changlunglung 5 місяців тому ⁺¹
這個，我還在花時間研究喔，抱歉。
@raytheon1229 5 місяців тому
@@changlunglung 好的，謝謝!!
@tengdongmei 7 місяців тому ⁺¹
这个跟GPT相比，哪个好用？
@changlunglung 7 місяців тому
抱歉，這個問題比較主觀，如果你這裡指的是chatgpt的話，那也有gpt3.5和4.0和目前的4o。
我所使用的也僅是llama3 8b模型，比較基礎不同，我無法給解答，請見諒。
@AIStudio.2024 7 місяців тому ⁺¹
感谢龙龙！您是台湾同胞嘛
@changlunglung 7 місяців тому
hi, 您好，我是台灣同胞喔，看你的名稱，年紀應該和我一樣。
而我分別在五年及十年前都有到大陸那邊工作1~2年的時間，也有幾個大陸的朋友們。
你們那邊發展的很快、很進步，大家一起來學習交流。
@AIStudio.2024 7 місяців тому ⁺¹
@@changlunglung 很高兴认识你。
我找了不少的中文调试教程，都没有你的具体，很感谢！
祝关注你的大陆粉丝越来越多，大家一起交流和进步！

Наступне

Автоматичне відтворення

LLM + 最新RAG技術 | 快速建置本地知識庫查詢應用 | 解決生成式AI常見的幻覺問題 #ai #llm #llama3 #ollama #embedding #chatgpt #rag