Pour les utilisateurs disposant d'une carte RTX 4000, est-il possible d'utiliser cette carte en installant le toolkit Nvidia, afin de privilégier son utilisation par rapport au processeur ?
@@Nemeziis360 Hello, après des tests avec et sans CUDA et CUDnn, je confirme que LM Studio optimise déjà l'utilisation de la CG Nvidia, il privilégie l'utilisation de la CG plutôt que le processeur. Et vous pouvez d'ailleurs paramétrer ça au lancement d'un modèle ! Hésitez pas à venir sur Discord si besoin 😁🥨
Gg pour les 20k 🎉. Je vais essayer sur mon PC même si je pense que ça va pas marcher car il y a quelques mois quand j'avais essayé ça me mettait un message d'erreur soi-disant que c'était pas compatible. Super c'est petit tuto comme ça, j'aime bien 😊.
Hello ! Alors les deux sont très bons. Il faut comparer les benchmarks mais il me semble que Qwen est performant pour le code, et Llama davantage pour du texte créatif. Après attention Qwen parvient à de meilleures performances globales avec moins de paramètres (32B) par rapport à Llama (70B). Donc perso je privilégie Qwen en ce moment 🥨
@lebretzel_ merci pour votre message. Grâce à votre tuto (bravo, il est super), j'ai installé la version 14B. Malheureusement, je ne trouve pas les réponses pertinentes en matière de traduction. J'ai comparé avec le site Web (quand il fonctionne), c'est le jour et la nuit. Mais merci pour votre travail. 😊
@@theevilkafka7663 Ahah oui c'est sûr que le site reste meilleur avec ses +670 milliards de paramètres ! 😅 Pour la traduction vous avez essayé avec un modèle basé sur l'achitecture Llama ?
@@lebretzel_ effectivement. 😅 Je viens de voir votre réponse à un autre commentaire où vous expliquiez la différence entre Qwen et Llama. Je suis en train de récupérer la version Llama pour tester. 😊 Merci de rester proche de vos abonnés, vous avez fait ma journée.
C'est encore Noël !! Avec une 3080 de portable, la 32B tourne c'est ultra bluffant. Je ais essayer de pousser plus haut pour voir ce que ça donne en temps de réponse et en qualité. J'ai par contre un peu de mal à comprendre la différence entre les "-Distill-Llama" et "-Distill-Qwen". De même on voit du "GGUF" partout, koikesse ?
Super que vous ayez pu faire tourner le 32B sur votre 3080 portable, c'est une belle bête ! 💪 Les suffixes "-Distill-Llama" et "-Distill-Qwen" indiquent les architectures de base utilisées pour distiller le modèle DeepSeek-R1. Donc certains modèles on a utilisé Llama de Meta et d'autres Qwen d'Alibaba avec leurs forces et faiblesses. Et "GGUF" c'est un format de fichier de modèles d'IA, qui facilite leur chargement et leur utilisation sur du matériel "grand public" 🥨
@@lebretzel_ Merci. Par contre le 32B est vraiment lent, et tabasse pas mal le processeur. A l'usage le 14b est bien plus agréable. Par contre en qualité de code on voit une très nette différence avec la version en ligne, bien plus performante. Je continue les tests.
@@Turbigoopour être un poil plus précis, le format gguf c'est un format de stockage qui permet de passer d'un modèle qui tourne exclusivement sur GPU / RAM à CPU / GPU / RAM. Donc bien plus accessible pour des utilisateurs particuliers sans hardware spécialisé. De plus, ces modèles d'inférence peuvent être "quantized". En gros leur précision est réduite afin de prendre moins de place, utiliser moins de ressources. (Pour faire simple, le format des variables en interne du modèle est réduit, passant d'un int16 à un int8, ou plus bas etc. je t'invite à aller te renseigner, c'est assez intéressant!)
c'est parfait merci, est ce que tu peux faire un autre tuto pour faire exactement pareil mais pour générer des images? est ce que tu confirmes qu'en local il n'y a pas de restriction sur la nudité et la violence (pour texte comme image)? sinon cmt faire?
Salut moi après avoir installer LM Studio quand j'essaie de telecharger le deepseek r1 rien ne s'affiche pour que choisis le model compatible a ma machine😥
Merci pour la vidéo ! Petite question : il faut minimum une carte vidéo avec 16 Go de RAM. Avec mes 4 Go, j’imagine que c'est mission impossible, surtout pour des applications gourmandes en IA... 😅 Auriez-vous des conseils pour une future carte vidéo ? Merci d'avance ! 🙏"
Hello, attention c'est 16 Go de RAM qu'il faut au minimum, pas VRAM. C'est la mémoire vive du PC, pas la mémoire vidéo. Alors évidemment il vaut mieux avoir le maximum de mémoire vidéo sur sa carte graphique mais on peut commencer avec moins de 16Go de VRAM. Pour ce qui est des cartse, je conseillerai de voir du côté de Nvidia mais tout dépendra du budget. Les dernières 40XX SUPER sont pas mal du tout ! 😉🥨
Bonjour a tous et un grand merci pour cette video , moi j'ai un petit probleme quand je veux charger j'ai ce message d'erreur ``` 🥲 Failed to load the model Failed to load model failed to allocate buffer for kv cache ``` ça veut dire quoi ? merci
Merci ! Raaa le 14b avec 47 tokens/s : je t'envie car j'ai 45 token/s avec le 8b ^^. sur le 14b, les réponses sont à 10 token/s !!!!!!!!!!! et le 14b est ben meilleur que le 8b. Je me demande si le 14b d'Ollama est la même version que sur LM Studio ? 🤔 j'ai testé sur Open Webui j"ai une RTX 4060 8 GB, intel I5 12400 F, DDR4 32 GO
Haa 10 tokens/s pour le 14B sur votre configuration c'est pas mal déjà ! 😁 (besoin de plus de VRAM je pense) Pour ce qui est du 14b Ollama vs LM Studio il peut y avoir quelques différences au niveau de la quantification ou de l'optimisation, mais je ne pense pas que ce soit si flagrant à l'usage
@@lebretzel_ j'ai finalement installé Lm Studio sur Ubuntu 24.04. opté pour un 14b R1 distll optimisé, et ça va! Cuda est pris en charge ! C'est bien mieux optimisé que sur Open Webui 😊
Un logiciel espion qui tourne en local ? 🤔 Un LLM local est un fichier en lecture. Il n'a aucun comportement propre. Par contre le fait que les infos envoyées à l'interface du site public de DeepSeek, oui, c'est sûr. Tout comme Chat-GPT.
Prêts à passer aux choses sérieuses en local ? Dites moi ce que vous pensez de ce tuto !
Bonne vidéo à tous ! 🥨
Pour les utilisateurs disposant d'une carte RTX 4000, est-il possible d'utiliser cette carte en installant le toolkit Nvidia, afin de privilégier son utilisation par rapport au processeur ?
Installer un local puis-je faire tourner une API gratuitement à partir de cette installation? Merci ;-)
@@Nemeziis360 Hello, après des tests avec et sans CUDA et CUDnn, je confirme que LM Studio optimise déjà l'utilisation de la CG Nvidia, il privilégie l'utilisation de la CG plutôt que le processeur. Et vous pouvez d'ailleurs paramétrer ça au lancement d'un modèle ! Hésitez pas à venir sur Discord si besoin 😁🥨
@@gbio Oui vous pouvez l'utiliser via API une fois installé : lmstudio.ai/docs/api
@@lebretzel_ Merci pour ton retour. Merci encore et bravo pour tes vidéos !
Masterclass, je viens de l'installer en live avec toi ! Merci bro ! +1 follower
Merci beaucoup et bienvenue ! 😁🥨
Super hâte d’essayer. ..sur mon gros pc de calcul avec mes 3x 3090 dessus ^^
Simple rapide efficace ! Merci !!!!
Gg pour les 20k 🎉. Je vais essayer sur mon PC même si je pense que ça va pas marcher car il y a quelques mois quand j'avais essayé ça me mettait un message d'erreur soi-disant que c'était pas compatible. Super c'est petit tuto comme ça, j'aime bien 😊.
Merci beaucoup, et ce n'est que le début !! 🥨
Ha il va falloir mettre de côté pour un nouveau PC ! 👀
1 abonné de plus merci
petite question, les versions locales doivent être mises à jour j'imagine ... ? pour des réponses actualisées ...
Oui et cela est possible. Il suffit d'aller faire la mise à jour du modèle installé là où tu l'as téléchargé (OLLAMA, LM studio...).
Au top, comme d’habitude
Magnifique. Merci pour le tuto
Merci beaucoup ! 🙏 🥨
Hello, merci pour la vidéo ! Que choisir entre Qwen / Llama ? Tu pourrais expliquer les différences ? Merci
Hello ! Alors les deux sont très bons. Il faut comparer les benchmarks mais il me semble que Qwen est performant pour le code, et Llama davantage pour du texte créatif. Après attention Qwen parvient à de meilleures performances globales avec moins de paramètres (32B) par rapport à Llama (70B). Donc perso je privilégie Qwen en ce moment 🥨
Dinguerie! Merci beaucoup
Avec plaisir ! 🥨
Merci beaucoup pour tes conseils ! 👍
Content que ça vous serve ! 🤗🥨
Un gros like pour la video. Et merci 😀
Un gros merci à vous alors ! 😁
Merci beaucoup, je vais tester ça sur ma bécane. 😊
Hâte d'avoir votre retour ! 😁
@lebretzel_ merci pour votre message. Grâce à votre tuto (bravo, il est super), j'ai installé la version 14B. Malheureusement, je ne trouve pas les réponses pertinentes en matière de traduction. J'ai comparé avec le site Web (quand il fonctionne), c'est le jour et la nuit. Mais merci pour votre travail. 😊
@@theevilkafka7663 Ahah oui c'est sûr que le site reste meilleur avec ses +670 milliards de paramètres ! 😅
Pour la traduction vous avez essayé avec un modèle basé sur l'achitecture Llama ?
@@lebretzel_ effectivement. 😅 Je viens de voir votre réponse à un autre commentaire où vous expliquiez la différence entre Qwen et Llama. Je suis en train de récupérer la version Llama pour tester. 😊 Merci de rester proche de vos abonnés, vous avez fait ma journée.
C'est encore Noël !! Avec une 3080 de portable, la 32B tourne c'est ultra bluffant. Je ais essayer de pousser plus haut pour voir ce que ça donne en temps de réponse et en qualité.
J'ai par contre un peu de mal à comprendre la différence entre les "-Distill-Llama" et "-Distill-Qwen". De même on voit du "GGUF" partout, koikesse ?
Super que vous ayez pu faire tourner le 32B sur votre 3080 portable, c'est une belle bête ! 💪
Les suffixes "-Distill-Llama" et "-Distill-Qwen" indiquent les architectures de base utilisées pour distiller le modèle DeepSeek-R1. Donc certains modèles on a utilisé Llama de Meta et d'autres Qwen d'Alibaba avec leurs forces et faiblesses.
Et "GGUF" c'est un format de fichier de modèles d'IA, qui facilite leur chargement et leur utilisation sur du matériel "grand public" 🥨
@@lebretzel_ Merci. Par contre le 32B est vraiment lent, et tabasse pas mal le processeur.
A l'usage le 14b est bien plus agréable.
Par contre en qualité de code on voit une très nette différence avec la version en ligne, bien plus performante. Je continue les tests.
@@Turbigoopour être un poil plus précis, le format gguf c'est un format de stockage qui permet de passer d'un modèle qui tourne exclusivement sur GPU / RAM à CPU / GPU / RAM. Donc bien plus accessible pour des utilisateurs particuliers sans hardware spécialisé. De plus, ces modèles d'inférence peuvent être "quantized". En gros leur précision est réduite afin de prendre moins de place, utiliser moins de ressources. (Pour faire simple, le format des variables en interne du modèle est réduit, passant d'un int16 à un int8, ou plus bas etc. je t'invite à aller te renseigner, c'est assez intéressant!)
c'est parfait merci, est ce que tu peux faire un autre tuto pour faire exactement pareil mais pour générer des images?
est ce que tu confirmes qu'en local il n'y a pas de restriction sur la nudité et la violence (pour texte comme image)? sinon cmt faire?
Un tuto pour Stablediffusion et Flux par exemple ? 😁
Oui en local il est effectivement possible d'utiliser des modèles non-censurés.
@@lebretzel_ oui !! :) ça me serait tres utile
@@myfreedom42 😱😱😱😱😱😱
merci beaucoup !
Avec plaisir ! 😁
Merci pour la vidéo ! Petite question, pour les fichiers qu’on peut envoyer, il n’y a pas de limite de tailles ou autres ? Merci d’avance !
D'après ce que j'ai pu trouver la limite est de 5 fichiers en même temps pour un total de 30Mb 🥨
@ Merci beaucoup pour l’info !
Bonsoir, est-ce possible d'utiliser la recherche internet avec la version local ?
Bonsoir, non ce n'est pas une fonctionnalité disponible pour le moment ! 😬
Salut moi après avoir installer LM Studio quand j'essaie de telecharger le deepseek r1 rien ne s'affiche pour que choisis le model compatible a ma machine😥
Aie mince, vous avez la configuration minimale ? 😕
Est-ce que LM STUDIO tire pleinement parti de mon processeur Intel Core i9-185H avec NPU IA ? Merci pour la vidéo !
Il me semble que oui, mais c'est à vérifier plus précisement sur le site lm studio je pense 🤔
on peut activer/désactiver la réflexion profonde?
Deepseek R1 est un modèle de raisonnement. Si vous ne voulez pas la réflexion, utilisez plutôt Deepseek V3 ! 😁
Merci pour la vidéo ! Petite question : il faut minimum une carte vidéo avec 16 Go de RAM. Avec mes 4 Go, j’imagine que c'est mission impossible, surtout pour des applications gourmandes en IA... 😅
Auriez-vous des conseils pour une future carte vidéo ? Merci d'avance ! 🙏"
Hello, attention c'est 16 Go de RAM qu'il faut au minimum, pas VRAM. C'est la mémoire vive du PC, pas la mémoire vidéo. Alors évidemment il vaut mieux avoir le maximum de mémoire vidéo sur sa carte graphique mais on peut commencer avec moins de 16Go de VRAM. Pour ce qui est des cartse, je conseillerai de voir du côté de Nvidia mais tout dépendra du budget. Les dernières 40XX SUPER sont pas mal du tout ! 😉🥨
Bonjour a tous et un grand merci pour cette video , moi j'ai un petit probleme quand je veux charger j'ai ce message d'erreur
```
🥲 Failed to load the model
Failed to load model
failed to allocate buffer for kv cache
```
ça veut dire quoi ?
merci
je précise j'ai un ryzen 9 16 GO de mem
tu pourrais presque avoir le 32B qui est à mon sens le meilleur rapport poids/puissance
Je crois l'avoir trouvé en version assez légère en effet, plus qu'à tester !
Merci !
Raaa le 14b avec 47 tokens/s : je t'envie car j'ai 45 token/s avec le 8b ^^. sur le 14b, les réponses sont à 10 token/s !!!!!!!!!!!
et le 14b est ben meilleur que le 8b. Je me demande si le 14b d'Ollama est la même version que sur LM Studio ? 🤔
j'ai testé sur Open Webui
j"ai une RTX 4060 8 GB, intel I5 12400 F, DDR4 32 GO
Haa 10 tokens/s pour le 14B sur votre configuration c'est pas mal déjà ! 😁 (besoin de plus de VRAM je pense)
Pour ce qui est du 14b Ollama vs LM Studio il peut y avoir quelques différences au niveau de la quantification ou de l'optimisation, mais je ne pense pas que ce soit si flagrant à l'usage
@@lebretzel_ j'ai finalement installé Lm Studio sur Ubuntu 24.04. opté pour un 14b R1 distll optimisé, et ça va! Cuda est pris en charge ! C'est bien mieux optimisé que sur Open Webui 😊
c'est tellement facile et gratuit que c'est toi le produit.
Je like
Merci !!! 😁🥨
Moi, je préfère de loin Alain Juppé
mon ordi va mourir avec LM Studio
C'est chinois, il n'y à pas de spyware ? 😂
Donner mes aux chinois est plus raisonnable qu'aux américains 😂😂
Au moins ici on donne rien à qui que ce soit 🧠
Apparemment que c'est un piège, c'est un logiciel espion
Un logiciel espion qui tourne en local ? 🤔
Un LLM local est un fichier en lecture. Il n'a aucun comportement propre.
Par contre le fait que les infos envoyées à l'interface du site public de DeepSeek, oui, c'est sûr. Tout comme Chat-GPT.
Allez distribuer vos informations personnelles à tout va...
Justement en installant en local, aucune info n'est envoyée à qui que ce soit c'est bien ça l'intérêt principal 🤔