Wild AI Product Dog
Wild AI Product Dog
  • 37
  • 6 809
35」技术揭秘:为什么GPT-4o能听懂语气和做出语气变化?|GPT4o|ChatGPT|大模型LLM|人工智能AI|深度学习|语音技术|AIGC|神经网络|如何入门 AI
35」为什么GPT-4o能听懂语气和做出语气变化?
两大训练 GPT-4o 的工程要点
大模型如何听懂语气的变化
|GPT4o|GPT-4o|ChatGPT|大模型LLM|人工智能AI|深度学习|语音技术|AIGC|神经网络|如何入门 AI
大模型LLM和 ChatGPT 的技术原理
35 GPT-4o语音功能揭秘(五)
Переглядів: 128

Відео

34」技术揭秘:如何训练出语音版GPT-4o?|GPT4o|ChatGPT|大模型LLM|人工智能AI|语音技术|AIGC|神经网络|如何入门 AI
Переглядів 8814 днів тому
34」GPT技术揭秘04:如何训练出语音版GPT-4o? 100 万小时的录音数据哪里来的? 多模态大模型训练,又有哪些不同? |GPT4o|GPT-4o|ChatGPT|大模型LLM|人工智能AI|深度学习|语音技术|AIGC|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 34 GPT-4o语音功能揭秘(四)
33」技术揭秘:语音版GPT-4o是如何实现实时聊天的?|GPT4o|ChatGPT|大模型LLM|人工智能AI|深度学习|语音技术|AIGC|神经网络|如何入门 AI
Переглядів 12514 днів тому
33」技术揭秘:语音版GPT-4o是如何实现实时聊天的? 语音文字是如何超越自然语言的 怎样才能完美描述语音中的信息 |GPT4o|GPT-4o|ChatGPT|大模型LLM|人工智能AI|深度学习|语音技术|AIGC|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 33 GPT-4o语音技术揭秘(三) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
37」技术揭秘:GPT-4o之前,为什么没人做出这样强大的语音功能? |GPT4o|ChatGPT|大模型LLM|多模态大模型|人工智能AI|深度学习|语音技术|AIGC|神经网络|如何入门 AI
Переглядів 223Місяць тому
37」ChatGPT-4o版之前,为什么没人做出这样强大的语音功能 文字和语音是怎样共用通用世界知识的 |GPT4o|GPT-4o|ChatGPT|大模型LLM|多模态大模型|人工智能AI|深度学习|语音技术|AIGC|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 37 GPT-4o语音功能揭秘(完) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
36」技术揭秘:GPT-4o最大的秘密:如何做到可以随时打断对话?|GPT4o|ChatGPT|大模型LLM|人工智能AI|深度学习|语音技术|AIGC|神经网络|如何入门 AI
Переглядів 185Місяць тому
旧版ChatGPT 为什么不行 语音文字是如何作为转化桥梁的 |GPT4o|GPT-4o|ChatGPT|大模型LLM|人工智能AI|深度学习|语音技术|AIGC|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 36 GPT-4o语音功能揭秘(六) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
32」技术揭秘:为什么语音版 GPT-4o 可以进行实时语音对话?|GPT4o|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门AI
Переглядів 125Місяць тому
32」为什么语音版 GPT-4o 可以进行实时语音对话? 新版 ChatGPT 是如何处理语音输入的? 什么样的语言可以完整记录语音信息? |GPT4o|GPT-4o|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 32 GPT-4o语音功能揭秘(二) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
31」技术揭秘:语音版GPT4o不上线,也难逃技术被彻底破解|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI
Переглядів 132Місяць тому
31」语音版GPT4o不上线,也难逃技术被彻底破解 旧版 ChatGPT 语音功能有什么问题? 为什么不能和 ChatGPT 做实时语音互动? |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 31 GPT-4o语音功能揭秘(一) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
30」如何被驯服不说人话的ChatGPT和人工智障AI|GPT4o|GPT-4o|梯度计算|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI
Переглядів 166Місяць тому
30」如何被驯服不说人话的ChatGPT和人工智障AI 大语言模型训练阶段到底在做什么? 不说人话、编造事实的AI 怎么被毒打的 |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 30 ChatGPT整体介绍(完)
29」ChatGPT 训练的海量资料是从哪里来的?|GPT4o|GPT-4o|梯度计算|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI
Переглядів 206Місяць тому
29」ChatGPT 训练的海量资料是从哪里来的? Transformer论文作者的近况如何? ChatGPT的网络结构是怎样的。 |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 29 ChatGPT整体介绍(二) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
28」一图看懂ChatGPT技术原理|GPT4o|GPT-4o|梯度计算|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI
Переглядів 186Місяць тому
28」一图看懂ChatGPT技术原理 掌握GPT模型三要素,就学会了技术原理 |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 28 ChatGPT整体介绍(一) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
24」5分钟掌握所有AI团队在用的最新算法--动量参数更新 |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络
Переглядів 212Місяць тому
24」5分钟掌握所有AI在用的“动量参数更新” 如鹰击长空、居高临下、势如破竹,所有AI团队都在使用的技巧 |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 24 训练到底是在干什么(六) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
15」人工智能AI本质,竟然只是复杂一点的小学生计算?|反向传播|BP算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门 AI|
Переглядів 175Місяць тому
看上去复杂的梯度计算,换成数字 实际就是小学生考题水平而已 |反向传播|BP算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门 AI| 大模型LLM和 ChatGPT 的技术原理 15 反向传播(BP 算法)计算( 五) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
27」5分钟快速理解人工智能AI牛在哪里?|GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI
Переглядів 317Місяць тому
大幅度降低处理问题需要的智力水平 用上AI,人人都可成为牛顿和爱因斯坦 |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 27 神经网络总结(三) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
26」ChatGPT中第 31层的892神经元,你知道它的作用吗?|GPT4o|GPT-4o|梯度计算|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI
Переглядів 192Місяць тому
制约神经网络能力的因素有哪些? ChatGPT又总结出了怎样的语言规律? |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 26 神经网络总结(二) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
25」凭什么人工智能AI、神经网络、ChatGPT 具有如此神奇的功能?|GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI
Переглядів 1022 місяці тому
这次我们换一个角度来看待人工智能AI的能力,了解为嘛它如此牛逼 |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI 大模型LLM和 ChatGPT 的技术原理 25 神经网络总结(一) #如何入门AI #人工智能 #深度学习 #ChatGPT #AIGC
23」“人类学习”如何超越“ChatGPT学习”?|反向传播|BP算法|GPT-4o|GPT4o|梯度计算|大模型LLM|人工智能AI|深度学习|神经网络
Переглядів 1192 місяці тому
23」“人类学习”如何超越“ChatGPT学习”?|反向传播|BP算法|GPT-4o|GPT4o|梯度计算|大模型LLM|人工智能AI|深度学习|神经网络
22」你眼中的GPT-4o训练 vs 真实的GPT4o训练 |反向传播|BP算法|梯度计算|ChatGPT|大模型LLM|人工智能AI
Переглядів 1672 місяці тому
22」你眼中的GPT-4o训练 vs 真实的GPT4o训练 |反向传播|BP算法|梯度计算|ChatGPT|大模型LLM|人工智能AI
21」GPT4o为什么需要如此庞大的算力?|反向传播|BP算法|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习
Переглядів 1562 місяці тому
21」GPT4o为什么需要如此庞大的算力?|反向传播|BP算法|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习
20 」GPT-4o 最窝囊的训练结束方式,你知道吗?|反向传播|BP算法|GPT4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络
Переглядів 1062 місяці тому
20 」GPT-4o 最窝囊的训练结束方式,你知道吗?|反向传播|BP算法|GPT4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络
19」GPT4o的训练到底是在做什么? |反向传播|BP算法|训练|梯度计算|ChatGPT|GPT4o|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI|
Переглядів 1232 місяці тому
19」GPT4o的训练到底是在做什么? |反向传播|BP算法|训练|梯度计算|ChatGPT|GPT4o|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI|
18」GPT4o的神经元连接方式没限制 |反向传播|BP算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门 AI
Переглядів 3662 місяці тому
18」GPT4o的神经元连接方式没限制 |反向传播|BP算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门 AI
17」你了解GPT-4o的基础算法-BP算法吗?|反向传播|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门AI
Переглядів 2413 місяці тому
17」你了解GPT-4o的基础算法-BP算法吗?|反向传播|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门AI
16」5分钟学会GPT-4o的基础-BP 算法|反向传播|BP算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门 AI
Переглядів 1503 місяці тому
16」5分钟学会GPT-4o的基础-BP 算法|反向传播|BP算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门 AI
14」 神马,ChatGPT竟然有很多神经元是闲置的!!|反向传播|BP 算法|求导|梯度计算|大模型|LLM|人工智能|AI|深度学习|如何入门 AI|
Переглядів 1063 місяці тому
14」 神马,ChatGPT竟然有很多神经元是闲置的!!|反向传播|BP 算法|求导|梯度计算|大模型|LLM|人工智能|AI|深度学习|如何入门 AI|
13」一剑破万法,多神经元网络竟然如此简单!|反向传播|BP 算法|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门AI
Переглядів 1493 місяці тому
13」一剑破万法,多神经元网络竟然如此简单!|反向传播|BP 算法|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门AI
12」5分钟掌握最简单神经网络计算 |BP 算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门 AI|高中
Переглядів 1173 місяці тому
12」5分钟掌握最简单神经网络计算 |BP 算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习|神经网络|如何入门 AI|高中
11」长辈唠叨是没学好求导,你学会了吗?|反向传播|BP 算法|求导|梯度计算|ChatGPT|大模型|人工智能|AI|深度学习|神经网络|如何入门 AI
Переглядів 1393 місяці тому
11」长辈唠叨是没学好求导,你学会了吗?|反向传播|BP 算法|求导|梯度计算|ChatGPT|大模型|人工智能|AI|深度学习|神经网络|如何入门 AI
10」 每个人都听过的长辈唠叨,你知道错在哪了吗? 反向传播|BP 算法|求导|梯度计算|ChatGPT|大模型|人工智能|AI|深度学习|神经网络|如何入门
Переглядів 1013 місяці тому
10」 每个人都听过的长辈唠叨,你知道错在哪了吗? 反向传播|BP 算法|求导|梯度计算|ChatGPT|大模型|人工智能|AI|深度学习|神经网络|如何入门
09」ChatGPT训练的灯塔和北极星就是梯度,你知道为什么吗? 反向传播|BP 算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习
Переглядів 923 місяці тому
09」ChatGPT训练的灯塔和北极星就是梯度,你知道为什么吗? 反向传播|BP 算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习
08」ChatGPT 原理用了最朴实的智慧--如何最快速下山。 反向传播|BP 算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习
Переглядів 2183 місяці тому
08」ChatGPT 原理用了最朴实的智慧 如何最快速下山。 反向传播|BP 算法|求导|梯度计算|ChatGPT|大模型|LLM|人工智能|AI|深度学习

КОМЕНТАРІ

  • @jiyuanan6927
    @jiyuanan6927 19 днів тому

    降维不可能不丢任何信息

    • @WildAIProductDog
      @WildAIProductDog 19 днів тому

      对的,理论上是这样。但有两种不同反例情况: 1、降维前的信息并不是完全稠密的,很多无效内容。 例如:00001,变成01,不丢失信息。 压缩包的压缩和还原,不丢失信息。 2、降维前很多和语音识别无关的信息。 降维后,在语音识别上,没有丢失信息

  • @rogerroan7583
    @rogerroan7583 22 дні тому

    openai 那天的廣告根本唬爛

  • @udama9326
    @udama9326 Місяць тому

    中国人盯上chatGPT,就像苍蝇盯上了餐桌的上的剩菜,openAI赶紧给拿罩子罩起来了

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    如果训练大语言模型,不是让大语言模型自行去学习各种网络资料,而是直接专门雇人去标注输入输出,是不是就相当于跳过pre-trained阶段,直接进行instruction fine tuning?

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      @@hankdonald7812 不能,这里不在于人类标注。 第二个阶段的差异是在于第一个阶段,它是各种各样所有情况下的文字接龙学习,哪怕请人标注一样的,模型会学到所有情况下的接龙处理。 那么在这种情况下不进行第二个阶段的对于人类交流的优化,那么在对话场景上,它没有办法很好地给他回答。 或者你可以这样理解成第一个阶段,模型学到的是对话电视、新闻、写作等等所有情况下的接龙,第二个阶段学到的是针对对话的场景进行定向优化。

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      @@hankdonald7812 标注是质把正确的输入和正确的输出对应起来,人类的标注效果和采用遮住下文的标注效果是一模一样

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    输入:请讲一个笑话 只有pre-trained的大语言模型可能会输出 输出:作者xxx,创作于2014年。 经过pre-trained和instruction fine tuning的大语言模型可能会输出 输出:为什么鱼不说话?因为它们在水里,怕说漏嘴。 在这个例子中,是不是只经过pre-trained的大语言模型并没有真正理解“请讲一个笑话”的含义,而同时经过pre-trained和instruction fine tuning的大语言模型真正理解了“请讲一个笑话”的含义。

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      @@hankdonald7812 不是。 因该理解成,训练资料中在这一个请讲一个笑话,后面有10种情况都是属于正确的接法。在第二个阶段模型就学到了这10种解法中哪一种是人类更喜欢。 并不是说模型没有理解句子的含义,而是他没有理解人类的喜好,第一种接作者理解成《请讲一个笑话》是一个书的名字,这句说法也是正确的,并没有什么问题,只是不符合人类输入这个的时候希望得到的偏好

  • @wangapple
    @wangapple Місяць тому

    8x+4y+1

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    终于到了chatgpt,加油

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    从陡峭点到平坦点,动量梯度的绝对值比原梯度的绝对值大,这样子会使参数的更新幅度变大。从平坦点到陡峭点,动量梯度的绝对值比原梯度的绝对值小,这样子会使参数的更新幅度变小。视频中,两组红绿点与X轴的夹角都是钝角,应该都画在tan图像中虚线的右侧吧?

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    我看到有提到大语言模型会有一个知识库,这个知识库指的是一个额外的数据库?比如这个知识库有三个知识点:法国首都是巴黎,荷兰首都是阿姆斯特丹,西班牙首都是巴黎。大语言模型的知识库是怎样的一个存在?是真的有这么一个数据库,还是说这个知识库是一种抽象的存在,是内化进大语言模型的参数里面。比如,经过大语言模型的参数调整,使得输入“法国首都是”就会输出“巴黎”;输入“荷兰首都是”就会输出“阿姆斯特丹”;输入“西班牙首都是”就会输出“马德里”,这种把知识库内化进参数里面的情形,就没有一个真正的额外数据库

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      没有额外的知识库,内化在参数里面了。

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      并且知识库这个说法是错误,模型不是有个数据库,然后碰到问题了去这个数据库中找答案。 这里用“大脑的记忆”类比理解更合适,就是学到了很多知识、规律,变成记忆存储在神经网络中。 有需要就会激活相关记忆,给出答案。但是,既然是类似记忆,那就会出错,给出错误的答案

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    3:27 “在输出了in,have和how之后,这个神经元就会给出一个很大的输出。”这句话中,很大的输出是什么意思?和an又有什么关系?

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      就是该神经元的输出值会变得很大。 推测这个神经元的作用就是预测“an”的。 当神经网络判断有 an 要输入的时候,该神经元就会被激活

    • @hankdonald7812
      @hankdonald7812 Місяць тому

      在大语言模型进行一次预测行为中,某个神经元的输出值越大,就表示这个神经元对这次预测行为的贡献越大吗?另外,视频中,当大语言模型预测输出an时,这个31层892号神经元的输出值就会很大,所以说明这个神经元对大语言模型预测输出an的贡献很大,是这个意思吗?主要是因为大语言模型准备要输出an了,所以这个神经元才输出值变得很大,和那个in,have,how其实没有什么关系,对吧?

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      @@hankdonald7812 1、没有这个说法,还需要看输出的形态,传递路径单更多权重等等。这里的推测,是根据观察到的现象来的。 有 an 就该神经元输出大,所以两者有关联。 如果有an,就该神经元输出小,也有可能两者由因果关联。 就和听到 狗叫,推测有人来了一样。这个推测是这么来的。 2、没有说贡献大。只是说这个神经元,负责的工作和 an 相关的可能性很高,并可能就是用来识别“an”的。 并且看单次输出的贡献意义并不是很大。 假设在网络输出“graped” 中, A 神经元在输出中贡献大,不能得出 A 神经元就是用来识别“ed”过去式的结论。 因为换个单词“listened”,A 神经元就输出很小了。只有在所有的“ed”过去式中,A 神经元的输出都是一致的,那么可以推测 A 神经元就和“ed”过去式相关。 3、是的,和前面的输入应该无关。 神经网络找到的识别规律是很复杂的,不要想用简单规则去解释,大概率是无效了。举个例子,它的规律可能蕴含在一大块神经元行为模式中, 比如我随便想的一个规则: 有临近的3000 个神经元有 9 种输出模式,每种模式被激活了,就代表英语中的一个时态。 但是9 种输出模式之外,它也不是就完全没作用了。还会被用作其它信号传递,只是不作为时态判断罢了。 要找到这样规律,只能看研究者独特的手段观察总结了。人类大脑就很难总结出铺捉和想到原来这 3000 个神经元的工作原理是这样。

  • @xiaofanlin9185
    @xiaofanlin9185 Місяць тому

    这次解释比上次清楚多了,但是感觉第二个例子的第二组绿色和粉色画在谷底的右边比较好,因为斜率的方向总是指着最低点的方向,第二个例子的第二组点它们的斜率应该要指向右边而不是左边【绿色点应该是在粉色点的左边,因为梯度下滑会向右移动】,另外动量的让新的梯度变大变小可以通过画拐点来解释,比如说在第二个例子的第一组绿色和粉色点是在拐点前面,在拐点前,坡度逐渐变陡,这时候动量会让新的梯度变小防止越过最低点,这个例子和第一个例子的黑色蓝色点的区别在于,第一个例子的蓝色黑色点都在拐点之后,也就是坡度会逐渐变缓,我好像在哪里读到拐点和动量有些许联系,希望我的评论能帮到你,谢谢你的反馈

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      “斜率指向最低点方向”,这个结论就是错的。 斜率代表x变化后,y会变化多少,和“指向最低点”没关系。 没理解说的“拐点”是什么? 感觉上似乎你把原函数和它的导数的一些概念混到一起 “陡峭”和“平坦”指的是函数自变量x变化后,y值变化大小,二维就是值斜率。斜率最大的时候(最陡峭),是在斜率切线和x轴夹角接近90度的时候。也就是图像上,几乎和y轴平行的直线,代表x变化一点,y轴变化特别大。 不是谷底,不是谷底,不是谷底。 谷底和峰顶都是斜率为0

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    y=σ(z),z=w₁x₁+w₂x₂+w₃x₃+w₄x₄+b, ∂z/∂w₁=x₁,不受是否存在w₂,w₃,w₄的影响 ∂z/∂w₂=x₂,不受是否存在w₁,w₃,w₄的影响 ∂z/∂w₃=x₃,不受是否存在w₁,w₂,w₄的影响 假设σ=1/(1+e^x),则∂y/∂z=y*(1-y),y值受到了连接到y的所有上层神经元的影响,这样子看来,y对某条连接中参数w的偏导,就会受到其他连接的影响了

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      不受,因为求梯度的时候,神经网络的输入和输出是固定的,且当前参数(w1,w2,w3,w4....)也是固定的。 是求这个损失函数的特定点的(w1,w2,w3,w4....)的梯度。 求的是特定点中某个未知数 w 变化后,损失函数会怎样变化。 这时刚说的收入、输出、点的值都是已知的常数,可以理解成常数 1,2,7,8而已 “y对某条连接中参数w的偏导,就会受到其他连接的影响了”,这表达的是把这些常数改了(1,2,7,8),换成 (1,3,7,8)那结果肯定会影响,但不是我们要求的------特定点中某个未知数 w 变化后,损失函数会怎样变化。 就像 y=2x,y 随输入 x 而变化;但也可以说把 2 换成 3,变成 y=3x,不也变化了。 确实是,但这求的梯度是 y=ax 中 a 的梯度,不是 x 梯度了

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    某个神经元的梯度,在计算时,是由该神经元所连接的下层神经元的梯度和下层神经元的值和他们之间连接的权重决定的,所以这个梯度计算过程是反向传播回来的。但是,如果改变该神经元输入侧某个参数的值,会导致该神经元的值以及该神经元输出侧各个神经元的值发生改变,最终导致该神经元的梯度随之发生改变,有一种牵一发而动全身的感觉。

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      是的,改变输入就换了一个损失函数的了,不同函数当然就有不同的梯度了。

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    输出层,只有输出Y=1的神经元有效,其他输出Y=0的神经元都无效,也就是说,在求倒数第二层神经元的梯度时,可以认为倒数第二层神经元都只发射给同一个输出神经元

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    当σ=1/(1+e^x)时, 某个神经元的梯度,可以直接由该神经元所连接的所有下层神经元的梯度以及所有下层神经元的值和他们之间连接的权重w计算出来。 某个连接的参数的梯度,可以直接由该连接输出神经元的梯度以及输出和输入神经元的值计算出来

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      “某个连接的参数的梯度,可以直接由该连接输出神经元的梯度以及输出和输入神经元的值计算出来”,参数梯度,是由该连接的输入神经元算出来的

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    z对x的求导,需要z沿着x到z的所有路径反向一步步求导,然后将同一条路径上的求导结果相乘,最后将不同路径上的求导结果相加

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    求损失函数Loss对某个参数的梯度,需要先求出损失函数Loss对该参数的接受神经元的梯度,然后用(损失函数Loss对该参数的接受神经元的梯度)*(该参数的接受神经元对该参数的梯度) 求损失函数Loss对某个神经元的梯度,需要先求出损失函数Loss对该神经元连接的所有下层神经元的梯度,然后计算该神经元连接的所有下层神经元分别对该神经元的梯度,最后按照多元函数的求导法则,以该神经元为自变量,进行相乘相加。

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    单次输入(X,Y)就更新一次参数,会有很大的问题: 1,单个数据的噪音太大 2,计算资源利用太低 3,单个数据就更新参数,效率太低 所以,实际中,采用一次批处理一组(X,Y),在同一批(X,Y)中,每次只计算参数w和b的梯度,但不实际更新w和b,当这一批(X,Y)都计算完梯度后,再最后更新w和b的值。

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      实践中,用了GPU并行计算的能力,加快训练速度。 一批次没有先后,是同时计算出一批次的所有(X,Y)的梯度 芯片越牛逼,就可以一批次计算更多(X,Y),所以大家都抢高端芯片

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    我猜测,Loss函数是一个关于(w1,w2...wn,b1,b2...bn)的2n维函数,在每组输入(X,Y)下,这个Loss函数都会更新一下系数。也就是说,每组(X,Y)对应一个Loss函数,每组(w1,w2...wn,b1,b2...bn)对应一个Loss函数上的点。如果不更新(X,Y)的值,只按照梯度向量不断更新(w1,w2...wn,b1,b2...bn)的值,就会得到在当前(X,Y)下的Loss函数极小值。如果不更新(w1,w2...wn,b1,b2...bn)的值,只更新(X,Y)的值,就会得到一组Loss函数在(w1,w2...wn,b1,b2...bn)这个点处的多个梯度向量,即▽1,▽2,▽3......。不更新(w1,w2...wn,b1,b2...bn)的值,只更新(X,Y)的值,就是视频中所说的一个batch内的情况。

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      1、权重w 数量要比偏置 b 的数量多很多很多,不是 2n 的。一个神经元有多个权重w,只有一个偏置b 2、“就是视频中所说的一个batch内的情况。" 这句,应该是一个 batch进行某次参数更新,是先算出这些梯度,然后算这些梯度平均值,然后代入参数更新公式进行计算。 其它理解没有什么问题

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    第一批次的输入数据训练后,找到了损失函数最低点,此是产生了一组w1,b1,w2,b2......w(n),b(n),然后输入第二批次训练数据,此时产生了另一组w1,b1,w2,b2......w(n),b(n),那么这个新产生的w1,b1,w2,b2......w(n),b(n)还能够让第一组的输入数据得到最小损失函数吗?

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      会出现反复,第二批次最低点破坏第一组的情况。这里有一些处理手段,尽量降低这种情况,但无法避免。 最终是靠反复循环输入,再把第一批次输入进去。反复这样输入要求神经网络两个批次都满足,那么网络足够复杂,就会找到都满足的参数。而不是只满足第二批次,不满足第一批次的。

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      描述更详细一点,一个epoch : 表示将训练数据集中的所有样本都过一遍(且仅过一遍)的训练过程。 在训练中会反复进行很多次 epoch,且每次 epoch会重新打乱随机再进行批次划分。

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    人类可以使得大模型自行寻找合适参数,从而逼近一切函数,有了这个函数,就可以预测生成新的输出数据。如果给大模型的样本本身就是毫无规律的,那么大模型还可以预测生成新的输出数据吗?这样子大模型会输出个什么?

    • @WildAIProductDog
      @WildAIProductDog Місяць тому

      不论给什么样的数据,大模型都会逼近一个规律(函数),然后根据规律给出输出结果。 哪怕是给的绝对毫无规律的数据(比如π),也会有一个,只是会欠拟合或者过拟合。即训练数据全对,但没见过的数据做不对;或者干脆训练数据都没法做到全对。

  • @user-mp6br2cb8y
    @user-mp6br2cb8y Місяць тому

    赞一个

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    GPT-4的训练数据量只有6TB,GPT-3的训练数据量不是已经有45TB了吗?这个训练数据量,不是越来越多的吗?

  • @hankdonald7812
    @hankdonald7812 2 місяці тому

    在大模型训练阶段,给大模型样本a,样本b,样本c,大模型从样本中找到了规律,并成功的用这个规律在大模型的用户使用阶段生成了正确的输出,那么大模型找到的这个规律,人类也会知道吗?

    • @WildAIProductDog
      @WildAIProductDog 2 місяці тому

      可以,下节回介绍其中一个。 研究神经网络的“理解方式”,也是目前一个热门研究领域

  • @hankdonald7812
    @hankdonald7812 2 місяці тому

    人工神经网络中,一层神经元的值,可以由上层神经元的值并行计算出来,非常适合用GPU来做这种并行计算。

  • @hankdonald7812
    @hankdonald7812 2 місяці тому

    1:08,这个神经网络没有激活函数,为什么会形成一个曲线图像呢?不应该是一条直线吗?

    • @WildAIProductDog
      @WildAIProductDog 2 місяці тому

      你说的对,形成阶越函数的过程,这里实际是有激活函数的。 近似是发生在将逻辑函数,近似看做阶越函数。后续形成矩形都是隐含了这个近似的前提条件。 视频中这里,我有时间了改下

  • @hankdonald7812
    @hankdonald7812 2 місяці тому

    万能逼近定律

  • @user-mp6br2cb8y
    @user-mp6br2cb8y 2 місяці тому

    太棒了。

  • @junliu9062
    @junliu9062 2 місяці тому

    请问什么时候可以体验GPT-4o对视频的视觉和理解能力,能预测一下吗?谢谢!

    • @WildAIProductDog
      @WildAIProductDog 2 місяці тому

      不会晚于2025年,技术原理上没难度,只剩一些工程实践要克服了

    • @junliu9062
      @junliu9062 2 місяці тому

      @@WildAIProductDog 看来想近期体验它无望了,我就不痴等傻等了。

    • @WildAIProductDog
      @WildAIProductDog 2 місяці тому

      @@junliu9062 视频估计还不行,4o的语音模型都还没开放呢

  • @hankdonald7812
    @hankdonald7812 2 місяці тому

    欠拟合undetfitting,在训练阶段表现差,当然在使用阶段也会表现差。原因就是训练量不够。就像让一个小学生参加高考,不可能会考得好。 过拟合overfitting,在训练阶段表现好,在使用阶段却表现差。原因就是训练数据太片面,从而导致模型捕捉到的数据特征也太片面,于是在用户使用模型时,输入一个数据,模型给出的结果就会片面。就像让一个文科高中生参加理科高考,也不会考得好。

  • @hankdonald7812
    @hankdonald7812 2 місяці тому

    AI模型训练阶段,就是寻找合适的参数w和b,此时参数是未知数,输入是已知数,输出是已知数。 AI模型使用阶段,就是给用户输出结果,此时参数是已知数,输入是已知数,输出是未知数。 一个初中数学例子,一个一元函数 y=wx+b, 训练阶段,就是找出w和b的值。第1次训练:给这个函数输入x=2,该函数输出y=9,第2次训练:给这个函数输入x=6,该函数输出y=17。经过这2次训练,可以求出来w=2,b=5。于是,我们知道该函数就是y=2x+5。在使用阶段,给函数输入随机一个x值,该函数就可以自动输出y值,比如x=100,就会输出y=205。

  • @tony608
    @tony608 2 місяці тому

    1.8万亿,一个恒大

  • @hankdonald7812
    @hankdonald7812 3 місяці тому

    局部函数值最小的点,是极小值点。整个定义域上函数值最小的点,是最小值点。

  • @hankdonald7812
    @hankdonald7812 3 місяці тому

    Loss=L(Y, w,b),这个Y是真实输出,所以这个Y也是输入x的函数,Loss=L(Y, w, b)=L{Y(x, w, b),y(x,w,b)}=L(x, w, b),感觉把Loss写成Loss=L(x, w, b)更方便理解。其中x是神经网络的输入值。

  • @hankdonald7812
    @hankdonald7812 3 місяці тому

    这里激活函数是一个指数函数,所以输出y就也是一个指数函数,不管这个神经网络有多少层,输出y都是一个指数函数,所以应该没有什么x的几次方概念吧。e^(-x)的n次方=e^(-nx),单独对于x来说,x始终保持是一次方。

    • @WildAIProductDog
      @WildAIProductDog 3 місяці тому

      看激活函数用什么函数。常用的逻辑函数,双曲正切函数,relu 函数。 单纯的指数函数基本没人用,效果不好,指数函数显然会无限放大数据。

  • @hankdonald7812
    @hankdonald7812 3 місяці тому

    参数w代表每条链接的权重,参数b代表每个神经元对加权求和的偏置,那激活函数是干什么的?

    • @WildAIProductDog
      @WildAIProductDog 2 місяці тому

      (加权求和+偏置)只是一个神经元的输入,要变成输出,需要该神经元内部进行运算,激活函数就是这个运算的过程。

  • @hankdonald7812
    @hankdonald7812 3 місяці тому

    既然s=-b/w,s是阶梯上升的位置,那调节w值,按理说,s也会改变啊。也就是说,改变w,不止会改变阶梯的高度,也会导致s值的改变,从而改变阶梯上升的位置。

    • @WildAIProductDog
      @WildAIProductDog 2 місяці тому

      会,但这里要形成比较近似的阶越函数,隐含了一个假设条件, w 设置为了一个足够大的值(足够大,才能让曲线部分变成直角,变成阶梯),主要是改 b 来调整位置。 你看得很细👍

  • @hankdonald7812
    @hankdonald7812 3 місяці тому

    这里把神经网络的输出叫预测输出y,把希望的输出叫真实输出Y,好别扭。y才是神经网络的真实输出,Y应该叫期望输出,y应该叫实际输出。

    • @WildAIProductDog
      @WildAIProductDog 3 місяці тому

      方便理解就行。主要是视角不一样,以神经网络为视角,还是以输入数据为视角。

  • @hankdonald7812
    @hankdonald7812 3 місяці тому

    万能逼近定理,只有一个隐藏层就可以实现输出逼近预期,那为什么要要用多个隐藏层呢?

    • @WildAIProductDog
      @WildAIProductDog 3 місяці тому

      后续有机会再说明,主要是发现多层效率更高,能用更少的神经元数量达成单层神经元数量多的效果

  • @hankdonald7812
    @hankdonald7812 3 місяці тому

    这里的对数函数log(y),怎么没有写底数是多少?,默认是底数是10吗?lg(y)

    • @WildAIProductDog
      @WildAIProductDog 3 місяці тому

      默认不写就是自然对数,底数是自然数 e。 一般写作 lnx 或者 logx,两种写法都很常用

  • @waltermossis2694
    @waltermossis2694 3 місяці тому

    录音效果不好,希望调整一下声音

  • @waltermossis2694
    @waltermossis2694 3 місяці тому

    继续,讲的不错

  • @samztang953
    @samztang953 3 місяці тому

    课堂小结: 1、W越多,B越多。 2、W指的是万元存款,B指的是小姐。

    • @tony608
      @tony608 2 місяці тому

      有钱就有B

  • @samztang953
    @samztang953 3 місяці тому

    内容很棒,就是声音很不AI。