나한테만 100배 좋은 GPT를 만들고 싶다고? LLM 파인튜닝하기

SOLVIT

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 7 сер 2024
#챗gpt #인공지능 #파인튜닝
흔히 찾을 수 있는 LLM들은 일반적인 사용 사례에는 적합하지만, 내 생산성을 극대화하기 어려운 경우가 분명히 존재합니다.
제가 풀고자 하는 문제에 LLM을 추가로 학습시켜 유용하게 만들어나가는 과정을 함께 보시죠.
만들어보고자 하는 AI 파인튜닝 활용 사례가 있다면 댓글로 남겨주세요.
다음 컨텐츠로 찾아오겠습니다.
당신의 문제를,
SOLVIT.
0:00 문제 설명
2:27 해결사례 소개
4:47 LLM 쇼핑
5:50 개발 환경 준비
7:04 데이터셋 준비
11:43 LoRA와 파인튜닝
14:23 마무리
This video was created based on the insights gained from AI Jason's video, '"okay, but I want GPT to perform 10x for my specific use case" - Here is how' We translated, fixed and localized it with explanations and examples suited for Korean UA-cam viewers.
Special thanks to AI Jason. We also learned a lot.
Розваги

КОМЕНТАРІ • 47

@user-ud1kw3gc8f Місяць тому ⁺²
좋은 영상 감사합니다!
@epicwz Місяць тому
솔브잇 응원합니다. 이렇게 좋은 내용 영상 올려주셔서 감사드립니다^^
@beejo72 Місяць тому ⁺¹
아주 잘 보았습니다. 감사합니다.
@Jabra123 28 днів тому
영상 편집퀄이 너무 좋네요. 응원합니다
@user-kg2le4py6t 13 днів тому
설명 퀄리티 좋네요. 앞으로 좋은 영상 부탁합니다
@user-rl2wi7sy2w Місяць тому
너무 좋은 채널 컨셉 떡상 가즈아~
@user-rg9ej3hy9o 17 днів тому
너무 좋아요!!!❤🎉🎉😂
@jlive8135 22 дні тому
오 너무 좋아요!
@Leehyun_Leandro Місяць тому
좋은 정보 감사합니다! 😊
@SOLVwithIT Місяць тому ⁺¹
계속 지켜봐주셔서 정말 감사합니다 😊
@ETeHong Місяць тому ⁺²
좋은 영상 정말 감사합니다.
@SOLVwithIT Місяць тому
좋게 봐주셔서 감사합니다 🫡
@cinoscinos81 4 дні тому
감사합니다. 잘 활용하겠습니다.
@sargu-laco 29 днів тому
채널 컨셉이며, 영상이며, 주제며 진짜 최고에 채널이에요!
영상 다 보고, 따라도 해봤는데 재미있네요!!
이것저것 많이 알려주세요! 구독 누르고 가요!
오래오래 영상 만들어주세요
@user-tx5qb8ct1z Місяць тому
진짜 너무 좋은 강의네요! 제마라는 모델도 추천해주셔서 감사합니다. 저도 데이터 셋을 작성하는데 어떻게 페어를 맞출지 고민했는데 GPT를 사용하는 방법 너무 좋네요!
@youngsamlee Місяць тому ⁺¹
굿~
@user-rg9ej3hy9o 17 днів тому
잘 보고 있읍니다. 현업 근무 20년차인데 도움 많이 됩이다.-
@twofiveten Місяць тому ⁺¹
퀄리티 주기는 채널이다....
@bluegreen6121 Місяць тому
전 프로그래머인데, 제가 사용하는 css스타일과 Javascript 코딩 스타일을 파인튜닝해 보고 싶다는 생각이 드네요. 영상에는 파인튜닝 후 원하는 결과가 잘 나오는지 확인 여부가 없는데, 제마이가 성능이 잘 나올지 궁금합니다.
@user-ic6tv7oc4c Місяць тому
음 좋은데요,
@icejust9195 21 день тому
영상 감사합니다 질문이 몇가지 있는데요 1.학습할때 validation은 안하나요? 2. 파인튜닝하고 나면 기존 성능은 나빠지나요? 3. 학습된 모델은 로라가 붙은 새로운 코드와 웨이트 인가요?
@SOLVwithIT 20 днів тому
1. LLM validation 은 아직 정답이 없어보입니다.
2. 범용지식 측면에서는 나빠질 수 있습니다.
3. 붙은 웨이트는 맞습니다.
@FXM86753 27 днів тому
겁나어렵네여,, 코딩 배워보고싶어 찾아보다 흘러 들어왔는데 어디서부터 뭘 배워야 할지 모르겠네요,,,
@tkdgus7337 Місяць тому
요즘 많이들 하시는 RAG 와 어떻게 다른가요!? 법률도메인에 chatGPT API를 이용해서 LangChain으로 개선하는 걸 해보려고 했는데 차이점이 뭔지 궁금해요!😮
@SOLVwithIT Місяць тому ⁺¹
안녕하세요! RAG는 영상 기준으로 파인튜닝과 대비되는 개념으로 언급한 '놀리지 베이스'라고 봐주시면 될 것 같습니다 :)
아는 바를 간단하게 전달드리면요!
1) 사용 방식에서의 차이점
종종 사용되는 비유로 RAG는 오픈북 시험, 파인튜닝은 클로즈북 시험이라고 표현되는데요.
질문을 던졌을 때, RAG는 매 번 관련 자료(주로 Vector DB)를 확인하여 답변하고, 파인튜닝은 기존에 학습된 내용을 기반으로 답변합니다.
2) 결과에서의 차이점
도메인, 사용 방식 및 모델, 학습 정도에 따라 차이가 있기에 명확한 답변을 드리기에 어려운 부분인 것 같은데요.
영상에서 소개드린 가벼운 수준의 학습을 기준으로, 파인튜닝은 정확성보다는 말투나 표현 형태(ex. 영상의 미드저니 프롬프트 형식)를 변경할 때 효과적이라고 느꼈고요.
놀리지 베이스(RAG)는 근거를 기반으로 답변하기에 보다 정확한 답변이 필요하거나 출처가 필요할 때 선택하기 좋은 것으로 알려져있습니다.
가벼운 수준의 학습이라는 전제를 드렸듯이, 충분한 학습을 통해 특정 도메인 특화 모델을 만들면 정확성도 좋아지는 것으로 알려져있고,
여러 기업에서는 이러한 방식으로 추가 학습시킨 자체 모델을 사용하고 있습니다!
@cuckoo6854 Місяць тому ⁺²
좋은 영상 감사해요! 따라해볼 수 있게 코렙 링크를 공유해주시면 좋을 것 같아요!
@hoya4837 Місяць тому
현재 유방암중 특정 유방암인 TNBC 를 발견하게 해주는 프로그램을 만들고 있습니다. tensorflow 통해서 만들었는데, 혹시 LLM 파인튜닝을 통해서 잘 고른다면 데이터셋을 여기에 넣어서 개발을 할 수도 있을까요?
@SOLVwithIT Місяць тому ⁺³
1. LLM은 기본적으로 언어모델로 영상해석력이 없습니다. 최근 영상까지 같이 처리할 수 있도록 발전했습니다!
2. GPT같이 영상처리력이 있는 모델로 하시려는 태스크에 정답을 얻을 수 있는지는 해보시기 전까지는 모릅니다. 짐작하건데 일반적으로 의료영상처리는 세밀한 이미지 특징을 인식해야 하기 때문에, 어느정도까지 GPT같은 모델이 도움을 줄 수 있겠지만 아예 그 태스크만을 수행하기 위해 개발된 모델보다는 성능이 떨어질듯합니다.
@hoya4837 Місяць тому
@@SOLVwithIT 답변 감사합니다! 영상결과가 아니라 데이터값이라면 (엑셀파일, 등등) 훨씬 더 수월하겠네요 그러면! 사이드프로젝트 하고 있는데 도움 주셔서 감사합니다.
@MrQkim 26 днів тому ⁺¹
인풋 데이터가 테이블 형식이고, 하시려는게 classification이면 llm보다 xgboost나 lightgbm 같은 그라디언트 부스트 모델이 더 나을 가능성이 높습니다.
@kihwan1116 Місяць тому
와 어렵네요 ㅎㅎㅎ 놀리지베이스는 임베딩이랑 연관이 있는건가요? 나중에 놀리지베이스 부분도 다뤄주시면 감사드릴게요!
@Seongho_Bae Місяць тому
Anthropic 왈, “Finetuning은 문제를 해결하지 못한다.. RAG를 사용하라..” 이렇게 하더라구요.
@hellomyfriend_S2 Місяць тому
OpenAI 말고 open source 로 prompt를 만드는 방법은 없을까요?
@SOLVwithIT 22 дні тому
오픈LLM도 되긴 하겠지만 보통 성능이 안나옵니다
@Rigel_ 29 днів тому
개추
@tvtvt77 27 днів тому
코드 몰라도 영상보고 따라만들 수 있나요~?
@SOLVwithIT 22 дні тому
조금 어려울 수 있습니다🫠
@user-ry1jh9gs6e Місяць тому ⁺²
좀더 좋아진다고 하니깐 저도 하고 싶은데 뭔 말인지 하나도 모르겠어요...
@SOLVwithIT Місяць тому ⁺⁶
유튜브에 있는 보통 비디오에 비해 난이도있는 편입니다. 여러번 보시면서 질문주시면 답변드리겠습니다.
@user-ry1jh9gs6e Місяць тому ⁺¹
@@SOLVwithIT 오 답변감사합니다!
@user-tv8ls6bc9z Місяць тому
파인튜닝이 더 비용이 많이 들지 않나요?
@SOLVwithIT Місяць тому
안녕하세요! 해결하고자하는 문제에 따라 필요한 파인튜닝 학습 정도가 다를 것이고, 보통 사용하는 RAG도 VectorDB 등 인프라 구축 및 운영 비용이 있기에,
상황에 따라 차이가 있다고 보고있습니다.
@jaehokims 10 днів тому
어렵네요...
@user-xm8bi8nx1i Місяць тому ⁺¹
코드를 1도 모르는 사람은 따라가기가 힘들군요 ㅠㅠ
@SOLVwithIT 29 днів тому ⁺¹
아무래도 이번 영상은 코드를 아시는 분들이 주로 이해 가능하신 방식으로 설명이 되었는데요.. 🥲
이후에는 코드를 모르시더라도 따라하실 수 있도록, 노코드 같은 툴을 활용해서 문제 해결하는 영상도 만들어볼게요 :)
@user-xe9gu4ys8h 28 днів тому
궁금한게 이렇게 시중 ai앱? 프로그램에 프롬프터로 추가 기능을 강화한 후 현직에 사용하다 부정적 결과 초래시 책임은 누가 지나요? 오픈에아이에 물어보니 자기네는 안진다던데.. 국내법도 없고.. 개발된 새로운 작업물은 생성자에 귀속된다던데요
@joonlab98 Місяць тому ⁺³
좋은 영상 만들어주셔서 감사합니다! ㅎㅎ
이번 영상을 제가 만든 웹앱을 이용해서 간단하게 요약해보았습니다:)
------------------------------------------------------------------------------------------------------------------------
## 영상 요약
**주제**: 나만을 위한 GPT 만들고 활용하기
**핵심 내용**:
- 많은 사람들이 자신이 일하는 분야에서 GPT를 사용하고 싶어하지만, 의학이나 법률처럼 도메인 지식이 많이 필요한 분야에서는 일반 GPT 모델을 그대로 사용했을 때 만족스러운 결과를 얻기 힘듦
- 이를 해결하기 위한 두 가지 방법: **파인튜닝**과 **벡터 데이터베이스**
- **파인튜닝**: 언어 모델의 일부를 재학습시키는 방법으로, 특정 사람을 디지털화하는 경우에 효과적임 (예: 특정 철학자의 책을 학습시켜 GPT가 그 철학자처럼 답변하도록 만드는 서비스)
- **벡터 데이터베이스**: 사용자의 지식을 벡터 데이터베이스 형태로 변환하여 언어 모델이 참조하도록 만드는 방식
- 영상에서는 Midjourney 프롬프트를 생성하는 GPT를 만드는 과정을 예시로, 모델 재학습 기능을 활용하는 방법을 구체적으로 보여줌
- **Midjourney**: 텍스트로부터 이미지를 생성하는 인공지능 모델
- **문제 상황**: Midjourney에서 좋은 이미지를 얻으려면 특정 스타일의 프롬프트를 입력해야 하는데, 일반적인 글쓰기 스타일과는 달라 매번 프롬프트를 작성하는 것이 번거로움
- **해결 방안**: 모델 재학습 기능을 사용하여 일반적인 글을 Midjourney 프롬프트 스타일로 변환하는 GPT 모델을 생성
- **데이터셋 준비**: Midjourney 페이지에서 좋은 이미지와 그에 대응되는 프롬프트 50개를 수집하여 CSV 파일로 저장
- **모델 선택**: Hugging Face에서 제공하는 다양한 모델 중 2Billion 크기의 Gemma 모델을 선택 (학습 시간 단축을 위해)
- **모델 로드 및 양자화**: Google Colab에서 필요한 라이브러리를 설치하고, Hugging Face 토큰을 사용하여 Gemma 모델을 로드하고 양자화
- **파인튜닝**: LoRA(Low-Rank Adaptation) 기법을 사용하여 모델의 특정 레이어에 파인튜닝 적용
- **모델 테스트**: 학습된 모델을 사용하여 일반 텍스트를 Midjourney 프롬프트 스타일로 변환하는 것을 확인
- **모델 배포**: Hugging Face 레지스트리에 학습된 모델을 업로드하여 공유
**결론**:
- 파인튜닝은 특정 작업에 맞춰 GPT 모델을 개선하는 강력한 방법임
- Hugging Face, Kaggle, AI Hub 등 다양한 플랫폼에서 데이터셋을 구할 수 있음
- 자신만의 GPT 모델을 만들어 문제 해결에 활용해 볼 것
**참고**: 영상에서는 Google Colab 환경에서 Python 코드를 사용하여 모델 학습 과정을 시연함
(By Joon's UA-cam Analyzer)

Наступне

Автоматичне відтворення