Zum Reasoning, ca 10:20 : Kann man die Modelle nicht anweisen, die Probleme zu formalisieren und dann ein entsprechendes Tool zu nutzen, um die Aufgabe zu lösen. Steve spricht das ja an: Die Modelle können - genauso wie wir Menschen - nicht beliebige Rechenaufgaben lösen. Dazu braucht man bspw. einen Taschenrechner. Diese Meta-Kognition (Problem übersteigt eigene Fähigkeit, deswegen Tool benutzen) scheint ja schon bei Chat-GPT zu funktionieren. Z.B. wenn ChatGPT ein Python Programm schreibt und dann ausführt, um bestimmte Aufgaben zu lösen. Die Modelle müssten die Logik-Probleme bspw. in Aussagenlogik formulieren und dann anschließend ein entsprechendes Kalkül-Programm aufrufen, um das Problem zu lösen.
Sehr guter Kommentar, das wird gemacht und bringt enorme Performance Boosts. D.h. LLMs werden verwendet um Probleme zu formalisieren die dann von anderen Tools gelöst werden. Damit das gut funktioniert darf sich das LLM nicht von irrelevanten Informationen verwirren lassen, was aber selbst bei den stärksten Modellen noch in 17% der Fälle passiert.
Zum Reasoning, ca 10:20 : Kann man die Modelle nicht anweisen, die Probleme zu formalisieren und dann ein entsprechendes Tool zu nutzen, um die Aufgabe zu lösen. Steve spricht das ja an: Die Modelle können - genauso wie wir Menschen - nicht beliebige Rechenaufgaben lösen. Dazu braucht man bspw. einen Taschenrechner. Diese Meta-Kognition (Problem übersteigt eigene Fähigkeit, deswegen Tool benutzen) scheint ja schon bei Chat-GPT zu funktionieren. Z.B. wenn ChatGPT ein Python Programm schreibt und dann ausführt, um bestimmte Aufgaben zu lösen. Die Modelle müssten die Logik-Probleme bspw. in Aussagenlogik formulieren und dann anschließend ein entsprechendes Kalkül-Programm aufrufen, um das Problem zu lösen.
Sehr guter Kommentar, das wird gemacht und bringt enorme Performance Boosts. D.h. LLMs werden verwendet um Probleme zu formalisieren die dann von anderen Tools gelöst werden. Damit das gut funktioniert darf sich das LLM nicht von irrelevanten Informationen verwirren lassen, was aber selbst bei den stärksten Modellen noch in 17% der Fälle passiert.