@@Largitdata 我租用的服务器GPU RTX 4090(24GB) * 1、CPU 12 vCPU Intel(R) Xeon(R) Platinum 8352V CPU @ 2.10GHz、内存 90GB,代码和您的一样,这回用到了GPU,运行加载模型时报RuntimeError: CUDA out of memory. Tried to allocate 172.00 MiB (GPU 0; 23.65 GiB total capacity; 21.32 GiB already allocated; 98.06 MiB free; 21.32 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF,我GPT查了下,提示GPU显存不够在,是否说我这个配置还是不行?
期待,終於來了
謝謝分享!!!
老师您这个视频服务器内存是多大的,我租用autoDL内存是25G,V100-32G显存,运行代码CUP与内存占满,GPU没有用到,导致运行报错
RAM 是 16G GPU vRAM 應該是40G 我是有用GPU在跑的
@@Largitdata 我租用的服务器GPU RTX 4090(24GB) * 1、CPU 12 vCPU Intel(R) Xeon(R) Platinum 8352V CPU @ 2.10GHz、内存 90GB,代码和您的一样,这回用到了GPU,运行加载模型时报RuntimeError: CUDA out of memory. Tried to allocate 172.00 MiB (GPU 0; 23.65 GiB total capacity; 21.32 GiB already allocated; 98.06 MiB free; 21.32 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF,我GPT查了下,提示GPU显存不够在,是否说我这个配置还是不行?
请问老师,部署到云端费用是不是很高
有人算過跑 llama2 70b 的價格比呼叫 GPT 3.5 成本要高,所以用量不大的話,或沒有資料外洩的疑慮的話,用ChatGPT 比較省成本
謝謝老師,做出來了,很好玩。 想再請問老師,能教怎麼訓練嗎? 如果我有很多資料,該怎麼訓練模型?
下一集會介紹如何訓練
謝謝。很期待
請問你有花錢買Codepro嗎?
@@arguskao 我是因為只有t4 gpu,沒辦法做,後來直接付錢升級,選a100就可以做了。
@@pkwanga 謝謝
老师您好,我电脑有两个GPU,python代码怎么整改可以用两个GPU
可以參考這一篇 huggingface.co/docs/transformers/perf_train_gpu_many
想請問訓練模型,對於顯卡要求最低會是要多少,謝謝?
這篇文章下面有建議: www.philschmid.de/sagemaker-llama2-qlora
一般而言:7b, 13b 都至少要GPU VRAM 24 的顯卡 ,所以要3090, 4090。70b 的要8張A100
老師好,我在colab 上執行以下這段
model = AutoModelForCausalLM.from_pretrained(model_path).cuda()
會跳出RAM皆已用盡 的錯誤,但colab 配給我的RAM有12G,這個部分是因為下載的model 會超過12G RAM沒辦法處理嗎?
想請問這個問題是升級成 colab pro 可以解決的嗎? 或是老師有其他的解決方法嗎?謝謝老師
你應該要用A100,其他GPU VRAM 太小會跑不動 可以升級pro 比較好搶A100
@@Largitdata 好像不是VRAM 的問題,是一般的RAM 我剛剛有嘗試使用本地的電腦運行老師提供的程式碼,也是運行到載入model 的地方 電腦的RAM吃滿 然後就當機了😅😅
要升級GPU等級, 不然會出現底下訊息"所有可用的 RAM 皆已用盡,因此你的工作階段已停止運作。如果你想存取需要大量 RAM 的執行階段,可參閱「Colab Pro」。"
@@涂弘旻-q6e colab 給的機器 ram 大小是12G 左右,所以建議本地端電腦有個16G 會比較保險
請教一事,下載下來的 "模型" 到哪個路徑去了?
可以取出來使用的話,是要放在哪個位置嗎?
還是程式內的路徑 (印象中是跟執行的檔案同資料夾位置) 即可呢?
huggingface.co/docs/transformers/installation#:~:text=Pretrained%20models%20are%20downloaded%20and,.cache%5Chuggingface%5Chub%20.
Colab 預設是放在 /root/.cache/huggingface/hub 中
@@Largitdata 不妙!如果系統是 Windows 的話?
@@redcloudstep Windows 在這邊C:\Users\username\.cache\huggingface\hub
感謝回覆,好在完整下載過一次模型後,就不會在重載。現在問題回歸到過去新手期的痛處 --- torch 一直抓不到 cuda 版本(我是 win10, N Geforce RTX 3070 laptop, cuda 12.2, 驅動 536.67, python 3.10.11, 僅原生的 IDLE 編輯並使用 pip 管理套件 ,未曾裝過 conda 等環境),在過往,雖然最後大部份都採用虛擬環境替代。但總還是覺得沒能直面面對問題,請問您有相關解決方案經驗嘛?
@@Largitdata 想請教一下如果想要修改到別的路徑應該如何設定呢,謝謝
A100 GPU無法選用
我也是。 後來直接付錢升級,就可以了 XD
有時運氣好他會給你用 XD,不然只能花錢升級,不過我錄影片的時候沒有花錢升級,但有給我A100用。不過沒有A100 也是可以推論,就沒有辦法訓練就是了