Como o GPT "Lê" Texto? A Mágica dos Tokens!

Поділитися
Вставка
  • Опубліковано 10 лют 2025
  • Aprenda de forma descomplicada e com explicações com animações em vídeo sobre como o GPT gera seus tokens e transforma textos em unidades processáveis! 🔥 Você já se perguntou como o ChatGPT entende suas perguntas e gera respostas coerentes? Tudo isso acontece por meio da tokenização, um processo essencial para a inteligência artificial interpretar a linguagem humana.
    Venha para nosso grupo whats@app
    linktr.ee/sand...
    Neste vídeo, você vai descobrir:
    ✅ O que são tokens e como funcionam no GPT
    ✅ Como o ChatGPT "lê" e processa textos
    ✅ Por que a quantidade de tokens influencia as respostas da IA
    ✅ Exemplos visuais para entender tudo de forma fácil e prática
    Se você quer entender melhor como o GPT realmente funciona, este vídeo é para você! 🎯
    🔔 Não se esqueça de curtir, comentar e se inscrever para mais conteúdos sobre IA e tecnologia! 🚀

КОМЕНТАРІ • 36

  • @canalsandeco
    @canalsandeco  7 днів тому

    Venha para nosso grupo whats@app
    linktr.ee/sandeco.macedo

  • @massareto
    @massareto 5 днів тому +1

    Sandeco, muito obrigado. Este talvez seja um desafio brabo, explicar como funciona a tokenização. Compartilhei com alunos já. Tomei a liberdade também de fazer um MindMap desse vídeo, que enviarei apenas para os alunos que assistirem a este vídeo.

  • @MarceloZago-fm6df
    @MarceloZago-fm6df 5 днів тому +2

    🎯 Key points for quick navigation:
    00:38 *🔍 Tokenization Importance: Critical for language models to process text by breaking it into smaller units known as tokens, aiding understanding and coherent response generation.*
    01:06 *🧩 Token vs. Word: Tokens can be parts of words or even characters, not just complete words, which assists in finer language model comprehension.*
    03:00 *🔢 Numbers & AI: AI models convert words to numbers to process and interact with data, emphasizing the need for tokenization.*
    05:05 *🧮 One-Hot Encoding: A method of representing words as numerical vectors, with limitations like a lack of context.*
    06:16 *🔗 Embeddings & Context: Tokenization is essential for embeddings, aiding in maintaining contextual relevance in language processing.*
    06:45 *📚 BPE Algorithm: Explains byte pair encoding (BPE) used in GPT, simplifying tokenization by iteratively merging character pairs.*
    10:41 *🔄 Repeated Pair Merging: BPE involves finding frequently repeated character pairs and merging them, building tokens progressively.*
    15:15 *🔍 Error Tolerance: Tokenization allows models to recognize words with typos due to understanding root tokens, aiding in error correction.*
    17:04 *🔧 Hyperparameter Tuning: Selecting the ideal number of iterations (n) for BPE is crucial for optimal tokenization, guided by corpus size or model performance.*
    19:08 *🎯 Future Focus: Next lesson will explore using tokens created by BPE in embeddings, crucial for effective natural language processing.*
    Made with HARPA AI

  • @gersonhiroshiyoshinarijuni3846
    @gersonhiroshiyoshinarijuni3846 6 днів тому +3

    excelente conteúdo professor. Meus parabéns. Fazer divulgação científica de qualidade com linguagem acessível é sempre um enorme desafio.

  • @ricorochadel
    @ricorochadel 5 днів тому +1

    Excelente aula.

  • @EvandroInada
    @EvandroInada 6 днів тому +4

    Ler o livro sobre deep learning do Sandeco é fundamental para qualquer pessoa que quer começar a entender as IAs

    • @canalsandeco
      @canalsandeco  6 днів тому +1

      Obrigado cara

    • @fischerdev
      @fischerdev 3 дні тому

      E onde tem esse livro? Procurei no Google e não achei.

  • @thiago44444444
    @thiago44444444 6 днів тому +1

    Parabéns pela didática!

  • @swplogic4158
    @swplogic4158 5 днів тому

    Excelente!

  • @josenilsonmacedo4617
    @josenilsonmacedo4617 6 днів тому

    Sandeco um grande professor.

  • @AlexBrumMachadoPLUS
    @AlexBrumMachadoPLUS 7 днів тому +2

    ❤❤❤ é nóziz

  • @RomuloMagalhaesAutoTOPO
    @RomuloMagalhaesAutoTOPO 7 днів тому +4

    Professor Sandeco, adorei o vídeo! A explicação sobre como o ChatGPT 'lê' o texto e gera tokens foi super didática, principalmente com as animações. É incrível perceber como cada pedacinho do texto influencia diretamente na resposta da IA. Uma dúvida que fiquei: como o GPT lida com palavras que podem ter mais de um significado ou contexto? Parabéns pelo conteúdo e obrigado pela mentoria! #Tokenização #InteligênciaArtificial #ChatGPT #AprendizadoProfundo #IAEmAção

    • @canalsandeco
      @canalsandeco  7 днів тому

      Quando chegar no mecanismo de atenção é que vc vai pirar mesmo.

  • @hako_ludoc
    @hako_ludoc 7 днів тому +1

    esse tava sendo ansiosamente aguardada

  • @Fábio-h7k1
    @Fábio-h7k1 6 днів тому +1

    Muito interessante! Eu achava que nesses modelos ainda fossem utilizados os métodos tradicionais de lematização e "stemming". Acho que a vantagem desse método é que o processo é independente de idioma. Quando eu estava testando o Ollama com o modelo mais simples do DeepSeek, reparei que ele gerava algumas palavras misturando raízes inglesas com afixos portugueses. Por exemplo, para gerar a palavra "aprender", juntou "learn" com o sufixo "ar" para formar "learnar". Eu achei curioso porque é exatamente o que alguns brasileiros fazem na falta de uma tradução precisa para uma palavra inglesa. Nós da TI fazemos isso quando criamos palavras como startar, commitar e deployar.

    • @canalsandeco
      @canalsandeco  6 днів тому

      Que bom que gostou e pela reflexão

  • @EdemilsonFernandesVieira
    @EdemilsonFernandesVieira 7 днів тому +1

    Muito boa a explicação.

  • @vitorlucios
    @vitorlucios 3 дні тому +1

    Tem algum artigo sobre?

  • @CarreiraProposta
    @CarreiraProposta 7 днів тому +2

    Amigo isso seria conteúdo de curso pago de alto valor!!!! Obrigado!!!!!

    • @canalsandeco
      @canalsandeco  7 днів тому +1

      Eu que agradeço. Mas esse, assim como o de Backpropagation e Deep Learning, faço questão de set gratuito.

  • @dnilsonsousa9405
    @dnilsonsousa9405 3 дні тому +1

    Um dúvida, qual modelo do seu microfone e câmera? kkk ótimo vídeo, obrigado!!

    • @canalsandeco
      @canalsandeco  3 дні тому +1

      Mic: Quadcast da HyperX
      Cam: Canon T6i

  • @josefalopes2915
    @josefalopes2915 7 днів тому +2

    quem tem hoje o maior arsenal de tokens? gpt, gemini, deepseek claude. qual?

    • @canalsandeco
      @canalsandeco  7 днів тому

      Tokens são só vocabulários. O lance está nos embeddings na próxima aula.