26」ChatGPT中第 31层的892神经元,你知道它的作用吗?|GPT4o|GPT-4o|梯度计算|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI

Поділитися
Вставка
  • Опубліковано 20 сер 2024
  • 制约神经网络能力的因素有哪些? ChatGPT又总结出了怎样的语言规律?
    |GPT4o|GPT-4o|梯度计算|ChatGPT|大模型LLM|人工智能AI|深度学习|神经网络|如何入门 AI
    大模型LLM和 ChatGPT 的技术原理
    26 神经网络总结(二)
    #如何入门AI
    #人工智能
    #深度学习
    #ChatGPT
    #AIGC
  • Наука та технологія

КОМЕНТАРІ • 9

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    我看到有提到大语言模型会有一个知识库,这个知识库指的是一个额外的数据库?比如这个知识库有三个知识点:法国首都是巴黎,荷兰首都是阿姆斯特丹,西班牙首都是巴黎。大语言模型的知识库是怎样的一个存在?是真的有这么一个数据库,还是说这个知识库是一种抽象的存在,是内化进大语言模型的参数里面。比如,经过大语言模型的参数调整,使得输入“法国首都是”就会输出“巴黎”;输入“荷兰首都是”就会输出“阿姆斯特丹”;输入“西班牙首都是”就会输出“马德里”,这种把知识库内化进参数里面的情形,就没有一个真正的额外数据库

    • @WildAIProductDog
      @WildAIProductDog  Місяць тому

      没有额外的知识库,内化在参数里面了。

    • @WildAIProductDog
      @WildAIProductDog  Місяць тому

      并且知识库这个说法是错误,模型不是有个数据库,然后碰到问题了去这个数据库中找答案。
      这里用“大脑的记忆”类比理解更合适,就是学到了很多知识、规律,变成记忆存储在神经网络中。
      有需要就会激活相关记忆,给出答案。但是,既然是类似记忆,那就会出错,给出错误的答案

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    3:27 “在输出了in,have和how之后,这个神经元就会给出一个很大的输出。”这句话中,很大的输出是什么意思?和an又有什么关系?

    • @WildAIProductDog
      @WildAIProductDog  Місяць тому

      就是该神经元的输出值会变得很大。 推测这个神经元的作用就是预测“an”的。 当神经网络判断有 an 要输入的时候,该神经元就会被激活

    • @hankdonald7812
      @hankdonald7812 Місяць тому

      在大语言模型进行一次预测行为中,某个神经元的输出值越大,就表示这个神经元对这次预测行为的贡献越大吗?另外,视频中,当大语言模型预测输出an时,这个31层892号神经元的输出值就会很大,所以说明这个神经元对大语言模型预测输出an的贡献很大,是这个意思吗?主要是因为大语言模型准备要输出an了,所以这个神经元才输出值变得很大,和那个in,have,how其实没有什么关系,对吧?

    • @WildAIProductDog
      @WildAIProductDog  Місяць тому

      @@hankdonald7812
      1、没有这个说法,还需要看输出的形态,传递路径单更多权重等等。这里的推测,是根据观察到的现象来的。
      有 an 就该神经元输出大,所以两者有关联。 如果有an,就该神经元输出小,也有可能两者由因果关联。
      就和听到 狗叫,推测有人来了一样。这个推测是这么来的。
      2、没有说贡献大。只是说这个神经元,负责的工作和 an 相关的可能性很高,并可能就是用来识别“an”的。
      并且看单次输出的贡献意义并不是很大。
      假设在网络输出“graped” 中, A 神经元在输出中贡献大,不能得出 A 神经元就是用来识别“ed”过去式的结论。 因为换个单词“listened”,A 神经元就输出很小了。只有在所有的“ed”过去式中,A 神经元的输出都是一致的,那么可以推测 A 神经元就和“ed”过去式相关。
      3、是的,和前面的输入应该无关。
      神经网络找到的识别规律是很复杂的,不要想用简单规则去解释,大概率是无效了。举个例子,它的规律可能蕴含在一大块神经元行为模式中,
      比如我随便想的一个规则:
      有临近的3000 个神经元有 9 种输出模式,每种模式被激活了,就代表英语中的一个时态。
      但是9 种输出模式之外,它也不是就完全没作用了。还会被用作其它信号传递,只是不作为时态判断罢了。
      要找到这样规律,只能看研究者独特的手段观察总结了。人类大脑就很难总结出铺捉和想到原来这 3000 个神经元的工作原理是这样。

  • @hankdonald7812
    @hankdonald7812 Місяць тому

    GPT-4的训练数据量只有6TB,GPT-3的训练数据量不是已经有45TB了吗?这个训练数据量,不是越来越多的吗?