Enfin une mémoire à long terme pour l’IA : MAMBA, SSM, S4, S6 & Transformers

Thibault Neveu

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 30 чер 2024
#mamba #transformer #rnnewsgujarat
Patreon : / membership
Dans cette vidéo j'explore le fonctionnement de Mamba et des SSM (S4, S6) et ce que cela signifie sur l'évolution des architectures et particulièrement de la mémorisation des informations comparé à un Transformers.
00:00 Introduction
01:00 Transformer
03:00 RNN
04:40 Transformer, RNN & CNN
08:30 SSM State Space Model, S4
21:15 Mamba, S6
31:06 Réflexions
Sources
- Mamba implementation github.com/state-spaces/mamba...
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces arxiv.org/abs/2312.00752
- Efficiently Modeling Long Sequences with Structured State Spaces (S4) arxiv.org/pdf/2111.00396.pdf
- FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness arxiv.org/pdf/2205.14135.pdf
- Long range arena : arxiv.org/pdf/2011.04006.pdf
- Repeat After Me: Transformers are Better than State Space Models at Copying Transformers are Better than State Space Models at Copying arxiv.org/pdf/2402.01032.pdf
- Ring Attention with Blockwise Transformers for Near-Infinite Context arxiv.org/pdf/2310.01889.pdf
- RWKV: Reinventing RNNs for the Transformer Era arxiv.org/abs/2305.13048
[Chronique d'une IA]
Spotify : open.spotify.com/show/5yTTTKf...
Amazon music : music.amazon.fr/podcasts/5097...
Apple Podcasts: podcasts.apple.com/us/podcast...
[About me]
Visual Behavior : visualbehavior.ai
Perso : www.thibaultneveu.ai/
Github : github.com/thibo73800
Linkedin : / thibaultneveu
Twitter : / thiboneveu
Наука та технологія

КОМЕНТАРІ • 16

@VisionIA-FR 2 місяці тому ⁺³
Super vidéo, merci pour le travail fait pour l'IA dans le monde francophone. Finalement peut être que Attention Isn’t All You Need :-P
@xavierfolch2814 2 місяці тому ⁺¹
Merci de cette nouvelle vidéo. Les entreprises en sont toujours à découvrir et établir comment l'IA peut les aider à proposer de nouveaux services. On commence à avoir des propositions intéressantes. Cependant, toutes les entreprises n'ont pas besoin d'avoir la meilleure précision possible. Il y a plusieurs domaines d'applicabilités où le tradeoff coût - exactitude serait probablement acceptable (assurance, comptabilité, ....).
@aymericmelt8083 2 місяці тому
Bravo! Jamais vu des vidéo rentrant autant dans les détails, merci beaucoup ! C'est une bonne entrée en matière pour lire l'article !
@philtoa334 2 місяці тому
Excellent.
@jgcb0071 3 місяці тому ⁺²
Merci beaucoup pour cette vidéo, justement le sujet me travaille en ce moment.
Si on fait une analogie, quand on reçoit une question et un contexte d’où tirer notre information. On va commencer par lire le contexte, se faire une représentation du contenu, ça c'est la partie que Mamba fait extrêmement bien, mais par contre par la suite je vais aller rechercher l'information par ce que je sais à quel endroit j'ai lu et ajouté en mémoire une information pertinente, et là je vais aller chercher localement l'information.
Il me semble manquer donc une dimension de time-awereness à ce modèle, l'ajout de cette dimension aurait aussi pour bénéfice de permettre l'implémentation d'une mémoire sur laquelle on aurait le controle de manière similaire aux modèles Larimar (papier : Larimar: Large Language Models with Episodic Memory Control), idéalement il faudrait qu'il choisissent lui même de mettre en mémoire un de ses états car pertinent vis à vis de ce qui est attendu de lui pour répondre à une question, et je pense qu'à ce moment là on obtiendrait un modèle vraiment incroyable.
Donc je pense qu'une évolution pertinente de Mamba serait de pouvoir revoir les parties les plus pertinentes de la séquence d'après lui, comme le ferait un humain et même si cela réduirait les performances légèrement ce n'est rien comparé aux gains apportés
Je pense faire quelques expériences sur ça cette semaine, si jamais tu as des idées je suis preneur
@ThibaultNeveu 2 місяці тому
Yes, exactement, la combinatoire des deux approches va ouvrir un champ des possibles fascinant !
@CryptoniteChannel 2 місяці тому
Heuresement qu'il existe thibault. Merci pour tes contenus
@AurL_69 3 місяці тому
Super video, merci Thibault
@Bencurlis 3 місяці тому ⁺¹
Excellente vidéo encore une fois, tout est très clair, sauf peut être la partie sur le delta où j'ai un peu de mal à comprendre (la discrétisation des matrices A et B).
Corrigez moi si je me trompe mais il me semble qu'une propriété assez importante des Transformers et qui n'existe pas avec les autres architectures, c'est la capacité de "revenir en arrière" connaissant une nouvelle information. Si je comprends bien, il me semble que même Mamba nécessite que le modèle ait retenu toute l'information dans son state space pour être capable de sélectionner une information demandée par la suite. Avec la couche d'attention d'un transformer classique, les nouveaux tokens qui arrivent permettent en quelques sorte au modèle d'aller interroger les tokens précédents directement.
Après je ne pense pas que ça soit une si grande limitation, et il est plus important d'avoir un algorithme de complexité linéaire ou inférieure. Je verrais bien la réinterprétation de ces modèles LLMs en modèles agents pour résoudre ce problème avec les architectures autre que Transformer: on donnerait simplement au modèle la capacité de choisir si il faut ou non aller relire des passage précédents.
@ThibaultNeveu 2 місяці тому ⁺²
Oui ce point que tu cites " il me semble que même Mamba nécessite que le modèle ait retenu toute l'information dans son state space pour être capable de sélectionner une information [....] les tokens précédents directement." est reflété dans le tableau lorsque je dis que Mamba peut faire du raisonnement sélectif mais en théorie pas avec autant de précision qu'un Transformer, par contre avec un plus grand contexte et/ou une plus haute fréquence !
@mraylex2520 3 місяці тому
très intéressant
@mimotron 2 місяці тому
Merci pour la vidéo, vous avez des infos sur les xLSTM allemands ? J'en ai pas mal entendu parler il y a quelques mois mais les infos se font rares depuis
@Ismaelak Місяць тому
les videos plus longues stp les prochaines fois.
@alreeb2024 3 місяці тому ⁺²
Intéressant ....mais faut vraiment arrêter avec le passage a l'échelle ! 😂
@livinaustralian 2 місяці тому
très brouillon, unplan au départ serait plutot pas mal. trop d'abréviations et une prononciation supre franglish ... à refaire car c'est domage avec le travail fait en amont;

Наступне

Автоматичне відтворення

La face caché de ChatGPT : Dark knowledge, Embodiment & Modélisation du monde