8-bit Methods for Efficient Deep Learning -- Tim Dettmers (University of Washington)

Introducing Domain-Specific Large Vision Models (LVMs)

The Attention Mechanism in Large Language Models

Серіал Одна родина 2024 серія 3 | МЕЛОДРАМИ 2024 | УКРАЇНСЬКИЙ СЕРІАЛ ПРО КОХАННЯ | ПРЕМ'ЄРА

ВІКТОРИНА #31. ЗІРКИ СПОРТУ ПРОТИ ВКВ: ЮЛІЯ ЛЕВЧЕНКО ТА ІРИНА ГЕРАЩЕНКО х КУРАН ТА ВЕНЯ

«Кажу: «Я з Чернівців» і кинув у росіян гранату», - історія добровольця з позивним «Мойсей»

Data-distributional Approaches for Generalizable Language Models -- Sang Michael Xie (Stanford)

Center for Language & Speech Processng (CLSP), JHU

Переглядів 132

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 16 кві 2024
Abstract: High-quality datasets are crucial for improving the capabilities and training efficiency of large language models. However, current datasets are typically prepared in an ad hoc, heuristic way. In this talk, Sang Michael Xie will present principled approaches to improving and understanding language models centered on the pre-training data distribution. First, he will describe how to improve the efficiency of training multipurpose language models by optimizing the mixture of data sources with robust optimization. Second, he will discuss an efficient importance resampling method for selecting relevant data from trillion-token-scale web datasets for training a specialized model. Finally, he will introduce a first theoretical analysis of in-context learning, a key capability of language models to learn from examples in a textual prompt, that traces the capability back to modeling coherence structure in the pre-training data.
Speaker Biography: Sang Michael Xie is a computer science PhD student at Stanford University advised by Percy Liang and Tengyu Ma. His research focuses on data-centric machine learning for language models, understanding pre-training and adaptation, and pre-training and self-training methods for robust machine learning. Xie was awarded a NDSEG Fellowship and was previously a student researcher at Google Brain. His work has been recognized as one of Scientific American‘s World-Changing Ideas, published in flagship venues such as Science, and covered by media outlets including The New York Times, The Washington Post, Reuters, BBC News, IEEE Spectrum, and The Verge.

КОМЕНТАРІ •

Наступне

Автоматичне відтворення

8-bit Methods for Efficient Deep Learning -- Tim Dettmers (University of Washington)

8-bit Methods for Efficient Deep Learning -- Tim Dettmers (University of Washington)

Introducing Domain-Specific Large Vision Models (LVMs)

Introducing Domain-Specific Large Vision Models (LVMs)

The Attention Mechanism in Large Language Models

The Attention Mechanism in Large Language Models

Серіал Одна родина 2024 серія 3 | МЕЛОДРАМИ 2024 | УКРАЇНСЬКИЙ СЕРІАЛ ПРО КОХАННЯ | ПРЕМ'ЄРА

Серіал Одна родина 2024 серія 3 | МЕЛОДРАМИ 2024 | УКРАЇНСЬКИЙ СЕРІАЛ ПРО КОХАННЯ | ПРЕМ'ЄРА

ВІКТОРИНА #31. ЗІРКИ СПОРТУ ПРОТИ ВКВ: ЮЛІЯ ЛЕВЧЕНКО ТА ІРИНА ГЕРАЩЕНКО х КУРАН ТА ВЕНЯ

ВІКТОРИНА #31. ЗІРКИ СПОРТУ ПРОТИ ВКВ: ЮЛІЯ ЛЕВЧЕНКО ТА ІРИНА ГЕРАЩЕНКО х КУРАН ТА ВЕНЯ

«Кажу: «Я з Чернівців» і кинув у росіян гранату», - історія добровольця з позивним «Мойсей»

«Кажу: «Я з Чернівців» і кинув у росіян гранату», — історія добровольця з позивним «Мойсей»

Піхотинець - про рутину на фронті

Піхотинець – про рутину на фронті

Adversarial and Poisoning Attacks against Speech Systems: Where to Find Them?

Adversarial and Poisoning Attacks against Speech Systems: Where to Find Them?

What are Diffusion Models?

What are Diffusion Models?

Математик и черт

Математик и черт

ChatGPT Can Now Talk Like a Human [Latest Updates]

ChatGPT Can Now Talk Like a Human [Latest Updates]

This Black Hole Could be Bigger Than The Universe

This Black Hole Could be Bigger Than The Universe

Сбросим маски | Как искусственный интеллект отнимет нашу работу?

Сбросим маски | Как искусственный интеллект отнимет нашу работу?

What is Synthetic Data? No, It's Not "Fake" Data

What is Synthetic Data? No, It's Not "Fake" Data

Speaker diarization -- Herve Bredin -- JSALT 2023

Speaker diarization -- Herve Bredin -- JSALT 2023

Neurosymbolic AI or: How I Learned to Stop Worrying and Love the Large Language Model

Neurosymbolic AI or: How I Learned to Stop Worrying and Love the Large Language Model

Joven bailarín noquea a ladrón de un golpe #nmas #shorts

Joven bailarín noquea a ladrón de un golpe #nmas #shorts

ТЫ СМОЖЕШЬ УГАДАТЬ ЦВЕТ?! (У 1% ПОЛУЧИТСЯ) #Shorts #Глент

ТЫ СМОЖЕШЬ УГАДАТЬ ЦВЕТ?! (У 1% ПОЛУЧИТСЯ) #Shorts #Глент

В гаражах силою утримують чоловіків#shortsvideo

В гаражах силою утримують чоловіків#shortsvideo

Шавушка чи кfc?

Шавушка чи кfc?

Make Sweet Cola Jelly For The Homeless!😇🥤🍬| Don’t Waste Food #catvideos #catmemes #trending

Make Sweet Cola Jelly For The Homeless!😇🥤🍬| Don’t Waste Food #catvideos #catmemes #trending

Калуш - про залежність від наркотиків, Левів на Джипі та всю правду про Євробачення

Калуш - про залежність від наркотиків, Левів на Джипі та всю правду про Євробачення

«Ми тільки робимо постріл і вони одразу всі ховаються»: військовий про бої на Запорізькому напрямку

«Ми тільки робимо постріл і вони одразу всі ховаються»: військовий про бої на Запорізькому напрямку

Самый легкий ноутбук против чипсов MateBook X Pro vs. MacBook Air

Самый легкий ноутбук против чипсов MateBook X Pro vs. MacBook Air