Это, пожалуй, самый интересный и информативный контент, что я посмотрел за год. Cтала ясна связь GPTx и OpenAI Five/Dota 2. Стало понятно, почему настолько мелкий объём RLHF данных даёт сильный эффект. Причины вранья сеток, способ пошагового использования и найм фрилансера в роли тула, в общем куча годноты в одном видосе, Игорь Котенков тупа топ.
Игорь, огромное спасибо за такой понятный рассказ! Это неверно круто как такие сложные вещи Вы смогли раскрыть так доходчиво. Я не ML щик, но прямо многое стало ясно. Хотелось бы про chatGPTV узнать, если возможно. Интересно на какой стадии картинки добавляют - на этапе обучения большой LLM или fine-tuning Так же ли там применим RL. Ну вдруг :) Еще раз огромное спасибо!
Привет, спасибо за коммент. Мы точно не знаем, но я думаю, что сначала отдельно обучается картиночная модель, затем она присоединяется сбоку (см. картинку тут llava-vl.github.io/), и потом дообучается на большом наборе пар инструкция-картинки-текст-ответ. Вполне возможно, что это без RL, то есть только Supervised Fine-Tuning.
В недавней статье "Fundamental Limitations of Alignment in Large Language Models" авторы доказывают, что для любого поведения, которое имеет конечную вероятность проявления моделью, существуют подсказки, которые могут заставить модель проявлять это поведение. Любой процесс выравнивания (в том числе RLHF), ослабляющий нежелательное поведение, но не устраняющий его полностью, небезопасен против атак со стороны подсказок. Получается, что защита LLM от "хакеров" принципиально невозможна?
Задачу надо ставить не как придумать глупые ограничения для конкретной ИИ от open ai , а надо исходить из того, что никаких запретов не будет и что в этом случае делать. Вот вопрос который надо решать а не тупое выравнивание
Делать модель безопасной глупое занятие. Чтобы еще всех не обидеть это вообще невыполнимая задача, которую и не надо решать. Хотят какой-то идеальный мир построить, хотя мир не идеальный и никогда таким не будет.
То что спикер говорит с 50й до 60й минуты - одна сплошная шибка. И что такое advantage он неправильно рассказывает, и про state value на конце тоже неправильно.
Это, пожалуй, самый интересный и информативный контент, что я посмотрел за год. Cтала ясна связь GPTx и OpenAI Five/Dota 2. Стало понятно, почему настолько мелкий объём RLHF данных даёт сильный эффект.
Причины вранья сеток, способ пошагового использования и найм фрилансера в роли тула, в общем куча годноты в одном видосе, Игорь Котенков тупа топ.
Сейчас молодой человек за 2 часа протолкнет нам месячный курс по Ml, как это было в тот раз. Лайк и смотрим дальше.
главное на 0.5 скорость ставить :D
Долгова-то будет)) В 5 мин уложился профессор на канале Graphics in 5 Minutes, видео называется Reinforcement Learning: ChatGPT and RHLF
Очень здорово излагаете, Игорь. Лично я жду ещё и уже делюсь ссылкой на эту лекцию с коллегами.
Спасибо, за такой качественный доклад, жду новых лекций
Ура, нормальный микрофон
Хорошая лекция, особенно в конце про ChatGPT понравилось
Спасибо, Игорь. Очень хорошая лекция
Очень доходчиво рассказано, а какие/курсы посоветуешь по изучению LLM
Игорь, огромное спасибо за такой понятный рассказ! Это неверно круто как такие сложные вещи Вы смогли раскрыть так доходчиво. Я не ML щик, но прямо многое стало ясно.
Хотелось бы про chatGPTV узнать, если возможно. Интересно на какой стадии картинки добавляют - на этапе обучения большой LLM или fine-tuning
Так же ли там применим RL. Ну вдруг :)
Еще раз огромное спасибо!
Привет, спасибо за коммент.
Мы точно не знаем, но я думаю, что сначала отдельно обучается картиночная модель, затем она присоединяется сбоку (см. картинку тут llava-vl.github.io/), и потом дообучается на большом наборе пар инструкция-картинки-текст-ответ. Вполне возможно, что это без RL, то есть только Supervised Fine-Tuning.
Игорь конечно лучший
Спасибо!
Если в общем, то Reward Model это продвинутая loss функция, а Hf (human feedback) это продвинутая функция активации? Или не так?
В недавней статье "Fundamental Limitations of Alignment in Large Language Models" авторы доказывают, что для любого поведения, которое имеет конечную вероятность проявления моделью, существуют подсказки, которые могут заставить модель проявлять это поведение. Любой процесс выравнивания (в том числе RLHF), ослабляющий нежелательное поведение, но не устраняющий его полностью, небезопасен против атак со стороны подсказок.
Получается, что защита LLM от "хакеров" принципиально невозможна?
Задачу надо ставить не как придумать глупые ограничения для конкретной ИИ от open ai , а надо исходить из того, что никаких запретов не будет и что в этом случае делать. Вот вопрос который надо решать а не тупое выравнивание
Давно уже известно, что запреты не решают. Они только тормозят прогресс.
Неужели непонятно. что все эти опасные ответы на опасные промты, которые хотят выравнить, они будут в других свободных ИИ.
Не только микрофон ещё и ноут крутой 😂
36:59
Да почему не здорово, если человек спрашивает как построить бомбу? Бесят эти запреты, когда решают за людей что им можно читать а что нельзя.
ваш выбор это WizardLM Uncensored
Делать модель безопасной глупое занятие. Чтобы еще всех не обидеть это вообще невыполнимая задача, которую и не надо решать. Хотят какой-то идеальный мир построить, хотя мир не идеальный и никогда таким не будет.
вы с этой безопасностью вырастите поколение розовых пони, которых будут кушать уличные акулы
То что спикер говорит с 50й до 60й минуты - одна сплошная шибка. И что такое advantage он неправильно рассказывает, и про state value на конце тоже неправильно.
посмеялся от души в личке в телеге, жаль, ты диалог удалил(
@@stalkermustang ну там были полезные объясняющие ссылки, но после того как ты начал хамить, я решил, что оставайся неучем дальше )
@@alexeykutalev4497 А сюда можно ссылки?