Игорь Котенков - RLHF Intro: from Zero to Aligned Intelligent Systems
Вставка
- Опубліковано 8 чер 2023
- - A story about Text Summarization
- What the Alignment is, and what's the problem?
- How RLHF works
- Data setup, and why we'd like to follow instructions
- Reward Modeling and PPO
- Why RLHF works (and when it doesn't)
- ChatGPT improvements
- What's next and what to expect?
Data Fest 2023:
ods.ai/events/datafestonline2023
Трек "Instruct Models":
ods.ai/tracks/df23-instruct-m...
Наши соц.сети:
Telegram: t.me/datafest
Вконтакте: datafest
Потрясающий доклад, я не датасатинист, а сочувствующий)
было невероятно интересно узнать столько подробностей про RLFH
Спасибо! Все очень доходчиво и структурировано.
Отличный доклад, отличная дикция и скорость речи. Один из немногих докладов, которые я смотрел в записи на скорости 1.0
А кто-нибудь оценивал возможность модели быть "сингулярнинькой" с точки зрения полноты и противоречивости множества формул модели? Теорема о неполноте тут не будет работать? Т.е. либо модель не будет бесконечно расти в качестве правильных ответов (полнота знаний), либо она скатится в галлюцинации (противоречивость).
1:31:53 мне кажется, что alignment противоречит точности модели. Так как он выстраивается на основе оценок пользователей, большинство из которых не понимают что от них хотят, а тех, кто понимает, банальное меньшинство. В итоге получается, что модель не может сказать, о том что вероятность болезни у негров и белых разная, несмотря на то, что для медика это важный факт во время диагностики. Мне кажется, что нейросеть должна отвечать на любой вопрос максимально честно, а не жонлгировать терминами, чтобы ни кого не обидеть. Есть мнение, что ChatGPT "отупел" после того как его дообучили на оценках пользователей.