Fine-tuning LLM: fakty i mity

Поділитися
Вставка
  • Опубліковано 1 лип 2024
  • 🎙️ Czy zdarza Ci się zastanawiać, jak powstają zaawansowane modele AI, takie jak ChatGPT? Czy wiesz, że trening takiego modelu może kosztować tyle, co luksusowy apartament w Warszawie (a w skali GPT nawet znacznie więcej)? A może ciekawi Cię, ile czasu zajmuje przygotowanie dużego modelu językowego? No właśnie! Tym zajmiemy się w 123. odcinku podcastu "Biznes Myśli", gdzie zgłębiamy tajniki fine-tuningu modeli LLM! Ale przejdziemy krok po kroku, aby dojść do etapu fine-tuning. Gościem dzisiejszego odcinka jest Remigiusz Kinas, ekspert AI i członek core teamu projektu SpeakLeash. Rozmawiamy o faktach i mitach związanych z treningiem modeli językowych. Kawał wiedzy dla Ciebie.
    W tym odcinku koncentrujemy się na wyjaśnieniu kluczowych etapów trenowania modeli LLM, takich jak pre-training, fine-tuning oraz alignment, oraz na omówieniu ich zastosowań i wyzwań.
    Dowiesz się:
    Jak wygląda proces trenowania dużych modeli językowych od podstaw?
    Czym jest fine-tuning i kiedy warto go stosować?
    Jakie są kluczowe etapy tworzenia modeli AI i dlaczego dane są tak ważne?
    Jakie superkomputery są używane do trenowania AI i ile to kosztuje?
    Jak wygląda praca nad polskim modelem językowym Bielik 2.0?
    Zapraszam!
    🕒 Najważniejsze fragmenty:
    00:01:52 - Remigiusz Kinas przedstawia się i opowiada o swoim doświadczeniu z ML/AI
    00:08:57 - Wyjaśnienie czym jest fine-tuning modeli na przykładzie Computer Vision
    00:14:23 - Omówienie różnych rodzajów modeli językowych (pre-trained, instruct, fine-tuned)
    00:30:00 - Czym jest T? Trilion czy bilion?
    00:31:05 - Ile danych potrzebujemy?
    00:43:53 - Cyfronet Helios, czyli na czym był trenowany Bielik?
    00:47:15 - Ile kart GPU ma Meta (Facebook)?
    00:27:34 - Dlaczego dane są najważniejsze w procesie trenowania modeli AI
    00:53:00 - Ile kosztuje wytrenować model LLM?
    00:58:32 - Czy warto robić fine-tuning?
    01:09:07 - Co nowego w Bieliku 2?
    01:24:42 - Podsumowanie
    Linki:
    biznesmysli.pl/fine-tuning-ll...
    ai.meta.com/blog/meta-llama-3/
    opencsg.com/datasets/AIWizard...
    top500.org/lists/green500/lis...
    github.com/meta-llama/llama/b...
    github.com/NVIDIA/Megatron-LM
    github.com/hiyouga/LLaMA-Factory
    arxiv.org/pdf/2406.06608
    github.com/vllm-project/vllm
    LinkedIn:
    - / remigiusz-kinas
    - / vladimiralekseichenko
    W podcaście omówiono:
    Rodzaje modeli LLM:
    - Model bazowy (pre-trained): Posiada ogromną wiedzę, ale nie potrafi prowadzić konwersacji - służy do przewidywania następnego słowa.
    - Model instrukcyjny (instruct): Potrafi wykonywać polecenia i prowadzić konwersacje. Powstaje poprzez fine-tuning modelu bazowego.
    - Model po alignmencie: Model instrukcyjny dodatkowo "wygładzony" i dostosowany do preferowanego stylu konwersacji.
    Fazy trenowania modelu:
    - Pre-training: Najważniejsza faza, w której model nabywa wiedzę. Wymaga ogromnych zbiorów danych i jest bardzo kosztowna (rzędu setek tysięcy dolarów).
    - Fine-tuning: Dostrajanie modelu do konkretnych zadań. Wymaga mniejszych zbiorów danych i jest tańszy od pre-trainu.
    - Alignment: Dopasowanie stylu i sposobu odpowiedzi modelu. Wymaga najmniej danych i jest najtańszy.
    Dane:
    - Pre-training: Dane tekstowe w ogromnej ilości (terabajty), im więcej, tym lepiej. Ważna jest jakość danych.
    - Fine-tuning: Instrukcje dla modelu (polecenia i przykładowe odpowiedzi) w ilości od tysięcy do milionów.
    - Alignment: Pary odpowiedzi (preferowana i odrzucona) w ilości kilku tysięcy.
    Koszty:
    - Pre-training: Bardzo wysokie, porównywalne z ceną mieszkania w Warszawie.
    - Fine-tuning: Znacznie niższe od pre-trainu.
    - Alignment: Niskie, możliwe do przeprowadzenia na lokalnej maszynie.
    Mit fine-tuningu jako rozwiązania na wszystko:
    - W większości przypadków fine-tuning nie jest konieczny.
    - Lepiej skupić się na promptowaniu (zadawaniu precyzyjnych pytań) i technikach RAG (Retrieval Augmented Generation - wzbogacanie odpowiedzi o dane z zewnętrznych źródeł).
    - Fine-tuning może być przydatny w wąskich dziedzinach, dla specyficznych formatów odpowiedzi lub w celu zapewnienia bezpieczeństwa danych.
    Bielik 2.0: Nowa wersja polskiego modelu językowego.
    - Większy model (11 miliardów parametrów).
    - Dłuższy kontekst wejściowy (32 tysiące tokenów).
    - Wsparcie dla Function Calling (beta).
    - Uczenie wzmacniane (RLHF).
    - Więcej wersji kwantyzacyjnych.
    - Wsparcie dla VLLM.
    - Test na inteligencję emocjonalną (EQ Bench).
    - Planowana wersja multimodalna (tekst i obraz).
    #ai #genai #llm #podcast #machinelearning #datascience #finetuning

КОМЕНТАРІ • 13

  • @nabunabu7893
    @nabunabu7893 9 днів тому +1

    Świetny wywiad. Mnóstwo ciekawej wiedzy podanej w bardzo przystępny sposób. No i serce rośnie, że mamy tak mocnych ludzi w branży jak p.Remigiusz czy wspomniani ludzie ze Spichlerza. Duże DZIĘKI i proszę o więcej !

  • @ghs7233
    @ghs7233 20 днів тому +5

    Cześć. Dzięki za bardzo wartościowy materiał. Pytanie: czy Bielik docelowo będzie wystawiał moduł do embeddingu?

  • @tenkrzysiekslowik
    @tenkrzysiekslowik 20 днів тому +2

    Bardzo fajny materiał, dużo szczegółowej wiedzy, chociaż brakło informacji o fine tuningu LoRA. Trzymam kciuki za Bielika... oby był lepszy od llama3-8b.

    • @DataWorkshop
      @DataWorkshop  20 днів тому

      To zawsze jest wyzwanie, jak głęboko zanurzyć się od razu. Do LoRA i podobnych tematów myślę, że jeszcze będzie okazja - na razie wyrównuję wiedzę, aby nadążała większość. Też to już bardziej szczegół implementacyjny.
      Inna sprawa to bardziej techniczne tematy, jest trudno przekazywać w formie podcastu. W takich przypadkach lepiej sprawdzają się warsztaty lub podobne formy.
      Dzięki za komentarz - od razu generuję pomysły, co z tym można zrobić.

  • @1972kotek
    @1972kotek 20 днів тому +2

    Bardzo dobry materiał, sporo treści takich "dla przypomnienia/utrwalenia" i wiele o Bieliku. Ciekawa zapowiedź Bielika z obrazkami :-). Mam nadzieje, że Gościa jeszcze posłuchamy na tym kanale.

    • @DataWorkshop
      @DataWorkshop  20 днів тому

      Niech rzeczy wydarzą się. Np. pojawi się multimodal czy może już Bielik 3 :)

  • @dannod2333
    @dannod2333 20 днів тому +1

    Bardzo ciekawy podcast

  • @punk3900
    @punk3900 20 днів тому +2

    Super rozmowa.

  • @piotrpeter8346
    @piotrpeter8346 17 днів тому

    Starałem się zrozumieć to mambo-jumbo i opis. ale Pan Kinas nie dotknął w najmniejszym stopniu opisu jak ten model działa tj dla czego Bielik nie myśli !! Te jego odpowiedzi są całkowicie pozbawione myślenia . Jak trenowaliście ten model ? Czy te drogie maszyny miałyby spowodować myślenie ?

  • @Damon_Sieputovsky
    @Damon_Sieputovsky 19 днів тому +1

    Koleś robi bardzo fajny nikomu nie potrzebny LLM

    • @maciejszymanski3900
      @maciejszymanski3900 18 днів тому

      Dlaczego Twoim zdaniem jest niepotrzebny?

    • @DataWorkshop
      @DataWorkshop  14 днів тому +1

      Bielik nigdy wprost nie będzie konkurencją dla GPT czy innych podobnych modeli (np. Claude), ale jeśli mówimy TYLKO o języku polskim i do tego jeszcze będzie miał licencję umożliwiającą używanie komercyjne, to może być bardzo przydatnym modelem.