Die neue BESTE OFFENE KI ist da: MIXTRAL 8x22B
Вставка
- Опубліковано 8 чер 2024
- Nach ChatGPT, Gemini und Claude ist jetzt auch das neue Mixtral 8x22B mit dem Benchmark dran.
▶
Starte im IT-Consulting durch - Virtual Job-Event nur für IT'ler:
www.get-in-it.de/jobmesse?utm...
01100111 01100101 01110100 00100000 01101001 01101110 00100000 01001001 01010100
📢
Das Virtual Live-Event von get in IT:
Am 16. Mai 2024 dreht sich bei der job I/O alles um Beratung in der IT!
Du möchtest spannende IT-Arbeitgeber kennenlernen und Dich über die neuesten Trends in der IT-Beratung informieren?
Dann komm zur job I/O! Denn auf diesem virtuellen Event bringt Dich get in IT mit Unternehmen aus dem IT-Consulting zusammen. Chatte bequem von zu Hause aus mit IT-Arbeitgebern, die jetzt nach IT-Talenten wie Dir suchen. Erhalte persönliche Einblicke in die
Arbeitsweisen der Fachabteilungen und blicke hinter die Kulissen ➔
Und das Beste: Die job I/O ist für Dich absolut kostenlos und anonym!
14 Unternehmen, über 500 IT-Jobs, 14 Livestreams und Chats - jetzt neu: Mit Video-Call Möglichkeit - erwarten
Dich am 16. Mai auf der job I/O. Um 14:00 Uhr geht‘s los!
Melde Dich jetzt kostenlos an und sichere Dir Deinen Platz!
▶
Hier geht’s zur Anmeldung: www.get-in-it.de/jobmesse?utm...
▶
Mehr Infos zur job I/O: www.get-in-it.de/magazin/even...
0110101001101111011000100010000001001001001011110100111100001010
Mein überarbeitetes Patreon ist LIVE:
/ themorpheus
Kommt jetzt vorbei :)
Selbst kostenlos Informatik lernen auf meiner Website: bootstrap.academy
Kapitel:
00:00 Einleitung
04:13 Job finden
05:10 Hardware Hunger
10:03 Cloud
11:47 Benchmark
25:30 Fazit
* Meine Website mit allen anderen Kanälen und Newsletter *:
the-morpheus.de/
Discord:
the-morpheus.de/discord.html
Unterstützt mich - Danke!:
www.patreon.com/user?u=5322110
www.paypal.me/TheMorpheus
Nach dem Release von LLaMA-3, phi-3 und Snowflake Arctic wirkt Mixtral 8x22b schon wieder alt ':D aber krass wie schnelllebig das Feld der offenen KI ist
😢 und ich war so schnell ich konnte 🫠
Zumal man 70b mit q4 oder q5 noch in dual 24GB GPU laden kann. Bei meinen Tests habe ich mal wieder festgestellt, dass die meisten Leaderboards komplett nutzlos sind. Eigentlich sind nur Elo-rating und EQ-Bench brauchbar. Dabei ist mir ein Model namens Senku 70b, dass tatsächlich Fragen beantworten kann, an denen GPT 4 gescheitert ist. Natürlich ist diese Performance nicht konsistent, aber trotzdem fast auf Llama3 Niveau würde ich sagen.
@@TheMorpheusTutorials Sollte keine Kritik an dem Video sein, das war wie immer klasse. Hoffe, dass für LLaMA-3 ein ähnliches Video kommt :)
@@TheMorpheusTutorials In der Chatbot-Arena kannst du eine Menge verschiedener Modelle testen. Es sind immer zwanzig bis dreißig verschiedene Modelle im Angebot. Du findest sie im Chatmodus "Direct Chat", wo du sie direkt auswählen kannst. Dazu gehören zum Beispiel "Mixtral 8x22B" und andere wie "Qwen 140B" usw. Auch einige unbekannte Modelle wie „dxr“ oder „Arctic Snowflake“ {das Letztere ist ein Business-Modell} lassen sich anwählen. Die „Temperature“ lässt sich ändern, genauso wie „Top P“ und die „Output Token Length“.
Vielen lieben Dank für deinen Test!
🤗
Vielen Dank für den Test!
Ich finde die ganze Thematik mit K.I. local laufen lassen super interessant.
Erst heute auf der Messe gesehen, jetzt ein video zum schlafen. Perfekt!
Welche Messe? Was hab ich verpasst?
@@UlyssesZopol ITCS in Darmstadt
Der Benchmark ist interessant; danke dafür! Die Berechnung des (V)RAM-Bedarfs ist allerdings ... vorsichtig gesagt: sehr ungenau. Das geht besser! 👍
✨👀🔥
Sounds good..
ollama run llama3, gerade aufm macbook m1 pro ausgeführt. hammer!! für so ein kleines Modell sieht es voll brauchbar aus.
Hallo Cedric.
Habe Darmstadt heute sausen lassen. Bin Zuhause und schaue gerade dein Video mit den aktuellen Kis. Ein paar schöne alternativen.
Zurzeit liegt mein Schwerpunkt allerdings noch auf der Rechtswissenschaft. Ab Oktober 2024 kommen Termine ( IHK ~~ Prüfung ~~ zum zertifizierten Immobilienverwalter ) für mich in Betracht.
Mfg
Enigma-pi
vielen Dank für den guten Content. Bei Le plateforme werde ich bezüglich pricing nicht schlau. Was kostet es dort Mixtral 8x22B zu hosten?
Wäre toll wenn du für LAMA 3 und MIXTRAL 8x22B ein Finetuning tutorial machen könntest. Das wäre so brauchbar. Nun sind die offen verfügbaren Modelle endlich brauchbar. Insbesondere Lama 3 ist auch auf deutsch suuuuperb.
Super Video. Ich habe grade ein kribbeln in der Brust bei den Worten Unzensierte KI die Lokal Läufen kann.
Ich bin grade am überlegen mir ein Dell Server mit 1TB ram zu holen um eine Art Haus KI zu haben.
Wenn ich überlege wie geil die nächsten Jahre werden was das angeht.
Statt Arbeitsspeicher/RAM besser eine RTX 3090 oder 4090. Nur leider mega überteuert.
was du probieren kannst ist ja Festplattenspeicher als Virtuellen Ram Speicher nutzen, benötigst meines Wissens eine DDR5 Ram und bezüglich Betriebssystem würde ich Tiny10 empfehlen, wenn man Windows noch nutzen möchte aber minimalistisch und ohne den unnötigen stuf, Ram Nutzung ist dementsprechend auch sehr gering danach
Ich fände es viel interessanter, wenn die Ai Produzenten mal eine Basis KI herausbringen würden, die man sich auf den eigenen Rechner laden und dann mit Bausteinen so formen kann wie man möchte. Also man installiert die Basis KI und fügt dann Deutsch als Sprache dazu und andere Dinge die man benötigt. So ließe sich der Speicherbedarf klein halten.
Oder man macht es eben einfacher der KI eigene Inhalte in Form von Bilder, Textdateien etc. zur Verfügung zu stellen die sie als Wissensdatenbank nutzt.
Gute Idee, nur leider wohl nicht möglich. Die Masse machts hierbei nun mal.
Datenbanken mit Millionen, oder sogar Millarden Daten, sind nicht so ohne weiteres zu erstellen oder sogar bereit zu stellen.
das kann man ziemlich easy machen: z.B. textgeneration webui von oobabooga installieren. Das ist hervorragend zum benutzen von LLMs, die man auf huggingface runterladen kann (Basis LLMs gibts da quasi wie Sand am Meer) und in der webui ist auch was zum trainieren von LLMs eingebaut. Man kann sich die UI auch schön customizen, es gibt haufen extensions dafür, z.B. spracheingabe, sprachausgabe undundund. Oder sich in Python ziemlich easy eigene Erweiterungen dafür erstellen.
So kannste Dir eine KI speziell auf Deine Anforderungen trainieren.
8GB Graka reicht für 7B, 8B oder auch 13B modelle, damit kann man schon eine Menge anfangen.
Schön das das alles offen ist und ich es runterladen und lokal verwenden kann. Fehlen mir nur noch die "300GByte min. GPU RAM for inference". Schade.
Es hat mich 30 Sekunden gekostet es zu finden, aber "That's what she said" war echt witzig 😂
Ich habe gestern LlaMa3:70b auf meinem Mittelklasserechner (5700x, rx6800xt, 64gb ram) zum laufen gebracht. Leider etwas langsam, aber durchaus stabil. Wäre cool, deine Meinung zu LlaMa3:70b zu hören.
Was ist das aktuell beste Modell um deutsche Texte (Briefe) anhand einer exemplarischen Vorlage generieren zu lassen, und was auf einem mittleren VPS (zB 12-core 24GB) oder auf einem Gaming Rechner mit 32GB RAM und RTX 3070 halbwegs benutzbar läuft?
01:36 Doch, dass Model muss vollständig in den Arbeitsspeicher geladen werden, da pro Token pro Layer zwei Experten ausgewählt werden (dafür wäre selbst eine SSD viel zu langsam). Der Vorteil ist eher dass weniger Rechenleistung benötigt wird.
Das Video auf die Nase zentriert 😂
mal ganz naiv gefragt: Gibt es auf deutsch Anleitungen wie ich eine KI trainiere und wo ich die daten herbekomme?
als beispiel wie kann ich eine KI so trainieren das sie mir zu Gemüseanbau und was alles so dazugehört helfen kann?
habe zwar keine 3090 aber eine 4080 reicht die für sowas aus?
ohne englisch ziemlich schwierig... ich würds mit einer UI machen wie z.B. textgeneration webui von oobabooga, basis modell von huggingface runterladen und mit den eigenen Daten trainieren, geht über die UI. 8GB Graka reicht dafür.
Webseiten lassen sich ja mit einem click auf Deutsch übersetzen...
Wegen dem Lesen von Code und dem "Die Eingabe ist zu Lang" Problem:
Funktioniert so etwas wenn man das Model bereits für das Projekt trainiert ?
Danach kennt das Model das Projekt von dem wir sprechen ja schon.
Kann man das im Finetuning machen, und wieviel würde das so am Beispiel der Bootstrap Acedemy kosten ?
wieso hast du das model nicht mit SVGs getestet
Ich will sosehr das wir ein exzellentes europäisches Modell haben!!
Du kannst nur ein gutes Modell haben, wenn die Trainingsdaten entsprechend gut sind. Und da leben wir Europäer und speziell wir Deutschen leider in einer eigenen Bubble, die nicht viel mit der Realität zu tun hat. Wissenschaftliche Aufsätze, Berichte und Blogs sind zumeist auf englisch. Da führt leider kein Weg drum herum.
was ist ein gutes modell mit deutscher Sprache (32GB Ram, rtx4080, i7-13700K)?
Also Jenson freut sich, für seinen Aktienkurs.
Ist trotzdem toll, dass es eine wirklich gute, quelloffene A.I. gibt.
Wenn ich Code brauche ich doch nur eine Inselbegabte Ki für eine Sprache. Die könnte dann klein genug für meinen lokalen Rechner sein. Gibt es so was schon am Horizont?
Haha, scheinbar wirst du seit deinem Video zu Bots extra stark mit diesen überflutet. 🤣
Nicht erst seit da 😂 hab aufgehört mit löschen
@@TheMorpheusTutorials lass doch einfach ein llm deine Kommentare evaluieren und entsprechend automatisch löschen, no ?
@@j.w.7664 zensur pfui
Ich hab da jetzt nicht so den durchblick... Aber wäre es nicht Sinnvoller das alle zusammen eine Gemeinsame "Grund KI" Entwickeln und dann je nach Bedarf und Zweck darauf Aufbauen? Also wie bei Linux und dem Kernel? Weil so wie es aktuell ist, ist das doch nicht Fördernd, da sich eh nicht alle Modelle durchsetzen und vieles dann komplett Verworfen wird, verschenktes Potenzial....
Hey Morpheus!
Zuerst einmal danke für den genialen Content! Finde deine Art die Themen zu erklären super sympathisch. =)
Bzgl. Grafikkarten: Wenn der Output nicht eilt: Die alten Nvidia P40 erhält man für ca. 120-150Euro das Stück (24gb Vram, Pascal Architektur). Finde sie sind eine gute "Notfallstrategie". Ich kühle meine Karten mit jeweils zwei Serverlüftern und einem 3D gedruckten Adapter.
Weiss nicht ob du so etwas einmal testen möchtest, könnte dir aber gerne einmal zwei zur Ausleihe zusenden. Habe aktuell eh keine Zeit meinen Server auszubauen. ✌🏻
Das ist tatsächlich eine gute Idee wenn man das sinnvoll zusammenbaut 🤔 für mich passt es erstmal, aber ich glaub Unternehmen werden da wünsche haben 😬
@@TheMorpheusTutorials Es ist nicht so geeignet für Bildgenerationen ohne die RTX Kerne, aber z.B. bei Mixtral 8*22b erreiche ich in q_4_k_m 9token/s. Llama 70b in q_4_k_m läuft etwas langsamer (ca 5t/s) mit vier P40 GPUs. Finde es einfach genial ziemlich alles lokal testen zu können. Llama 405b werde ich wohl mit 0.2T/s auf der CPU laufen lassen. 😂😅
In jedem Fall: Danke für deine Videos zum Thema ML, KI, DL und Big Data. ✌🏻
@@TheTechPhilosopherTTPVLOGS 9 Token/s sind eigentlich ein Traum im Vergleich zu 1,5/2 Token/s mit einer 4090 😅 Ist das denn viel gebastelt? Auch softwaretechnisch? Wird nur Cuda11 unterstützt?
@@ratside9485 Es würde sogar Cuda 12 unterstützen. Der Bau war eigentlich recht simpel, du benötigst halt einfach ein Motherboard und eine CPU die das ganze unterstützen. Die Lüftung habe ich mit einem selbst gezeichneten und gedruckten Adapter für 40mm Lüfter gelöst. Bist du auf X unterwegs? Könnte dir Bilder vom Server zeigen. Ich nutze ein EVGA DG87 case und ein 1500Watt Netzteil.
Man muss schon an das eine oder andere denken. Helfe aber gerne falls du soetwas ähnliches umsetzen möchtest.
So das kleine Llama 3 Model ist für mich als Coding Copilot total brauchbar. Bei einfachen Textaufgaben failed es aber. Nachdem Hinweis, dass es falsch liegt, kommt es dann aber manchmal auf die richtige Antwort. Mal Llama 7b testen.
Und ich wolte Mistral auf meinem Commodore C64 ausführen?
Bei dem Ram- Bedarf bin ich sowas von raus... Ganze 2 GB Graka und 32 GB (DDR3!) Und auf dem Sperrmüll liegt sowas auch eher nicht herum.
Ok aber bei dem Schnitt werde ich Gaga. Ein hin und her gehüpfe, rangezoome und rumgeweckelt. Ja es soll dynamisch wirken. Aber das ist zu viel des guten
Danke für deinen Kontent zu KI!
Du willst die besten offenen Modelle testen. Dennoch würden mich die selben Tests zu den quantisierten Varianten Interessieren. Wenn ich "nur" RAM auf die Modelle werfen muss, sollten sich die Anschaffungskosten relativ schnell Rechnen... dazu braucht es natürlich ein offenes Modell, das man mit den Abo-Modellen vergleichen kann.
Verwirren tun mich immer deine Aussagen zu RAM und VRAM. Ich hab eine Grafikkarte mit 12 GB und 32 GB Arbeitsspeicher. Laut LM Studio kann ich z.B. Llama 3 70b in 2 Bit laufen lassen. Für mehr bräuchte ich vermutlich "einfach nur" mehr RAM.
Ich bin aber auch am Thema KI-Agenten dran - gerade im Kontext zu lokal laufenden Modellen. Könnte man so eine bessere Qualität erreichen, die dann zu den Closed Source Modellen heranreicht? Was ist, wenn man den Modellen zugriff auf das Internet gibt? Noch zum Thema RAM: 64 GB kosten aktuell um die 200 Euro. Kosten, die in 10 Monaten wider drin sind...
Als X vor vielen Jahren in einer PC Zeitschrift kostenlos dabei war, war ich Feuer und Flamme in dieser Welt, habe sogar die Bücher gelesen dazu. Inzwischen sind die von-Neumann-Sonden durchaus real. Werden auf Terraforming und Erhalt programmiert, können sich selbst produzieren, Rohstoffe abbauen und Gefahren bannen. Ist nur eine Frage der Zeit, bis sie "Müssen Terraformen und Planet lebensfreundlich erhalten. Menschen machen kaputt. Menschen müssen weg." in ihrem Siliziumhirn drin haben. Denn was einer KI fehlt, ist Ethik und Empathie.
em dings, hab seit gestern ein neuen server hier. der hat 128gm ram, ob das wohl reicht? xD
Was für ein unzensiertes Modell wäre denn mit 16gb Ram. Rtx 2080. Ryzen 7 5700x zu empfehlen bzw gibt es überhaupt eines ?
Aktuell zum Beispiel das Framework GPT4ALL mit Llama 3 8B instructed (4.3GB). Je nach Benchmark und Geschmack die "uncensort" Dolphin 2.9 Llama 3 Variante.
@@AIrTIMgen Was habt ihr alle mit euren GPT4All ? LM Studio ist 10x besser, wenn man einfach mal etwas ausführen will. Wird einem sogar gesagt, was auf dem eigenen PC funktioniert, wenn man wenig Ahnung hat.
@@ratside9485 Du hast Recht, LM Studio ist besser. Ich kannte es bis dato nicht.
Damit LM Studio bei mir performant funktioniert hat, sollte man wissen, dass man im Model-Chatverlauf rechts unter Advanced Settings festlegen kann, wie viel Workload man auf seine GPU laden will. Beim Framework Default für Phi3 lief zunächst der Großteil über meine CPU und ich kam nur auf 5Token/s, bis ich dieses Set-Up entdeckt habe und jetzt auf 85T/s komme.
Wirst sich die Schwäche in Deutsch eigentliche auch aus wenn ich deutsche Dokumente per RAG lade? Bei mir kommt mir RAG immer nur Murks raus. Mit der Frage hat dir Antwort kaum was zu tun.
Kommt mir so vor, als ob man diese "open source" Modelle nur anbietet, um Hardware zu verkaufen 😂
Ich habe von Kryptomining noch sehr viele Grafikkarten. Also 4 mal RTX 3080TI und 8mal RTX 3060. Das wären alles zusammen 144GB VRAM. Wieso kann man die VRAMs nicht zusammenführen um dieses KI Modell auszuführen?
bei mir funktioniert die API mit Ausführung auf der Hardware.
Und das mit 512GB RAM.
0.2 Tokens die sek oder wie viel?
Ja, die API. Da läuft ja nix auf deiner Hardware.
@@overcuriousity ha, du hast den Witz daran erkannt 😀
Ah, das ist also dieser Humor, von dem alle sprechen!
@@overcuriousity musste auch hart Lachen
250GM ram, ach, das ist kein ding, habe noch ca. 800 im PC (Workstation, habe ich von der Verschrottung gerettet).
Ich dachte mir: "Niemand hat 256 GB Ram" ist eine starke Aussage. die kosten heute ja keine 650 Euro mehr. Da ist jede 4090 aber viel teurer.
Kaufen wäre natürlich ne Option, aber als Privatperson hat das glaube ich kaum jemand weil der Bedarf bislang einfach nicht da war 😂
@@TheMorpheusTutorials Kaum und niemand ist halt der Unterschied ;). Und ich kenne da tatsächlich einige Leute. Ist dann halt der Server für VMs, Container und NAS.
Und bei ZFS will man viel RAM. Und je mehr Speicherplatz umso mehr RAM. Viele empfehlen 1 GB RAM pro TB Speicher. Und 200+ TB bekommt man auch schnell hin. ^^
VMs wollen dann auch einiges…
Wobei man dann natürlich die Grafikkarten wieder im Server braucht. Alles kompliziert :D
Wann kommen wieder Tutorials auf diesem Kanal?
UA-cam bestraft Tutorials leider extrem in letzter Zeit. Ich bin dran neue Kurse in der bootstrap Academy (auch for free) zu erstellen
Also ich bin zurzeit sehr zufrieden mit Llama-3 70b. Damit ich die AI voll ausführen kann habe ich mir eine zweite 3090 Graka gekauft. Normalerweise können alle LLM's aber mithilfe des GGUF quant auf dem Heim PC ausgeführt werden, wenn man genug RAM hat. Ohne GPU ist es halt nur sehr langsam. Kleinere LLM's wie Llama-3 8b können in 4bit exllamav2 format sogar komplett auf 8gb VRAM geladen werden, was es unglaublich schnell macht (60 t/s) aber nur mit Nvidia. Selbst die kleinere Variante von Llama-3 kann gut deutsch und überrascht mit ihren Antworten.
Ich lad mir gerade Ollama / llama3 auf meinen M1 Macbook Pro. Ich bin mal gespannt, ob ich irgendwas raus bekomme.
Ich habe vier RTX 3080TI. Sicher dass man die zusammenführen kann für mehr VRAMs? 4 mal 12GB wären 48GB VRAM
@@cybercrazy1059 Jop, funktioniert mit meinen 2 3090 Karten ja auch. Wenn du alle Karten angeschlossen hast kannst du in Oobabooga Text-generation Web-UI beim laden eines models GPU split einstellen, da einfach den VRAM von den Karten mit Komma eingeben, in deinem Fall dann also 12,12,12,12. Bei mir hats dann einfach so funktioniert, ohne das ich was anderes einstellen musste.
Bitte noch mal gpt 4 turbo testen. Das soll jetzt noch mal besser als gpt 4 sein.
Kann man Claude jetz endlich mal in EU nutzen oder zicken die da immer noch rum?
Llama3 ist besser und hat nur 70b parameter
Oh je, ich hab auch einen 5950X mit 64GB und RTX3090 - hätte gedacht, damit wär ich (noch) recht gut bedient. Hoffe auch, dass bald kleine fokussierte Modelle für eine einzige Programmiersprache erscheinen, statt diese vermeintlichen Welterklärer.
Codestral 22B ist jetzt verfügbar
Hold on a second. I have 32GB currently and i have been contemplating an upgrade to 64. Probably gonna only cost me $100.
Also niemand hat soviel RAM stimmt nicht. 😅 Sage jetzt nicht das es DDR 4 oder 5 ist aber ich habe 196 GB DDR 3 EEC registed 2 mal für meine VMs und beides auf dual Sockel Boards ist gar nicht so teuer alte Server Technik regelt. Okay nur PCI e 3.0 aber das reicht bis jetzt easy 2 Boards 4 CPUs + RAM knappe 1300€ + 400€ Netzteile
Ich muss noch anhängen das es ein Hobby ist und ich die ganze Power dazu nutze um Bots laufen zu lassen und Gaming Server
Was ist denn bitte EEC? Und registed? Wenn du schon flexen willst, vielleicht vorher die Begriffe googeln xD
7:55 Naja. Ein Durchschnittsmensch hat das nicht. Aber 250+ GB RAM sind jetzt auch nicht die Welt.
fucking nice
wäre mir garnicht aufgefallen mit den haaren hättest du es nicht erwäjhnt, aber bitte wenn es extrem wird entweder komplett ab oder in die türkei haare rein .. alles andere sieht einfach urkomisch aus
Uff
Bin gerade auf der messe gewesen und hab mich nicht getraut dich anzusprechen.
:3
🙈 warum nicht 😱 ich freu mich immer 🥰 nächstes Mal 👍
@@TheMorpheusTutorials waren mir zu viele leute und kameras xd
Aber denke nicht dass ich nochmal auf die IT-CS gehe.. War komplett langweilig und alles was da erzählt wurde wusste ich bereits.. Ich will mich ja ned einschleimen aber schon 1 deiner videos ist informativer als die vorträge an der IT-CS. Konnte bei deinem jedoch leider ned zuhören weil ich glaub da war ich bei so cybersecurity vorträgen... Aber alles gefühlt nur werbung für die eigene firma und null infos außer das was ich schon wusste xd
Also ehrlich gesagt ist das keine so extreme Hardwareanforderung. Für unsere recht kleine Forschungsgruppe habe ich gerade einen Cluster aus vier Einheiten zu je 4xA100/80 GB und 128 AMD-Cores, 2 TB RAM gekauft. Also 16 GPUs, 512 CPUs und 8 TB RAM. passt in 1/3 rack. Für Hobbyanwender nicht realistisch aber jetzt absolut keine Ausnahmehardware für Millionen.
9:20 Ja moment.... was ist mit ner schnellen PCI Express SSD und dem guten alten virtuellen Speicher unter Windows? Meinste nicht, dass es wenigstens startbar wäre...?
Startbar vermutlich, aber jener Preis und jene Dauer 😂
@@TheMorpheusTutorials mach mal bitte ein video zu llama 3. Ich nutze gerade gerade in lmsstudio auf meinem macbook, die variante, die 4,9 gb groß ist. Und ich finde die Antworten richtig gut. So als Offline Google Ersatz für die einsame Insel. Allerdings bin ich nicht so tief drin wie du und kann die Qualität der antworten nicht bewerten auf einer tiefen Ebene.
Da wird es Zeit mal die ganzen alten Server mit DDR4 oder DDR3 raus zu kramen, da hat man die GB ja nur hinter her geworfen bekommen. D
Deutschen Spracken, schweren Spracken. (@3:24)
In ein paar Jahren lachen wir über "niemand hat" …
Ich dachte, du wärst Vsauce, aber mit Haaren.
Lokal bist du mit einem Multiagentensystem und schwächeren Models für die passenden Task (ie llama3:8B für Research und CodeLama oder ähnliches fürs coding), bereits auf viel schwächerer Arbeit bereits jetzt gut aufgestellt. Auf meinem knapp 10 Jahre altem Rechner (allerdings mit 32 GB RAM und 2GB VRAM), kann ich via crewAI oder autogen viele Aufgaben einfach auf Agentensysteme verteilen und dank lokalem RAG, Tooling und faster-whisper etc. auch via Sprache steuern. Und mit den neuen spezialisierten Modellen die jeden Tag kommen und inzwischen mit 3 Milliarden oder weniger Parametern sogar parallel lokal ausführbar sind, wird das Ganze noch wesentlich einfacher...
Warum also sich so ein Monster auf den lokalen Rechner holen, wenn Agentensysteme wesentlich geringere Anforderungen haben und auch die Stromrechnung nicht zu sehr belasten...
Aber können nicht die Monster auch nochmal feintrainiert werden und haben dann bessere Performance als die Agenten?
@@TheMorpheusTutorials In bestimmten Aufgaben wahrscheinlich. Im 1 zu 1 gewinnen sie natürlich und auch wenn man sie für etwas Kreatives benutzt (generieren von Text, Bildern, Musik). Sobald jedoch ein Task gut aufgeteilt werden kann, haben die Agenten die Nase vorn, genauso sobald du an Rekurrenz denkst, da sie Evaluation als Teil ihrer Ausführung haben können (LMMs haben zeigen das gleiche ja auch bei multishot).
Außerdem verwirrt es LMMs momentan noch sehr, wenn du mehrere Tools zur Lösung einsetzen musst, etwas was für Agentensysteme kein Problem ist. Und für viele praktische Anwendungen ist die Einzelleistung nicht so wichtig wie die Teamleistung. Je besser natürlich das LLM ist, was der Agent selber benutzt desto besser wird er natürlich, nur steht halt lokal immer der fehlende Speicher / Rechenleistung im Weg...
diggah die spam sex Bot Kommentare die du letztens angesprochen hast seh ich hier zum ersten Mal in den Kommentaren, is ja bodenlos 😂
Hab 256GB RAM, aber selbst da wirds dann etwas knapp 🙂
Wer nutzt denn noch Windows? ;-)
mixtral 8x22? das ding ist doch schon uralt
Ja nutze Linux is besser
Für mich ist eine KI erst dann eine KI, wenn es kein Problem hat jede Sprache zu sprechen. Was soll der Mist? Eine KI soll so super sein, aber kann nicht mal die Hauptsprachen der Länder? Ich erwarte nicht, dass die KI gute Geschichten schreiben kann, aber eine Verständigung ist das A und O.
Allein, dass sie auf dem eigenen PC läuft ... wtf ... das ist quasi ein dressiertes Hündchen, was ein paar Kunststücke kann und das wars.
Fürs Verständigen wirds locker reichen, auch für ein paar Geschichten. Wahrscheinlich auch noch für eine KI Freundin. Was für wtf ? das sie auf dem eigenen PC läuft? Willst du lieber, dass sie in der Cloud läuft?