Bei 7:12 spricht du bezgl. dem Lila Teil der Visualisierung sprichst du über die Übergangswahrscheinlichkeiten der Aktionen für den Übergang von einem Zustand in den nächsten Zustand?!
Der lila Teil gibt den Übergang von einem Zustand s_i in einen anderen Zustand s_j bei der Ausführung einer Aktion a_k an. So liegt zum Beispiel im Video an der genannten Stelle die Wahrscheinlichkeit vom Zustand s_1 erneut in den Zustand s_1 bei Ausführung der Aktion a_1 zu kommen bei 0,1, und unter den gleichen Voraussetzungen in den Zustand s_3 zu gelangen bei 0,9. Ich denke, das ist auch das, was du meintest, oder?
@@codingwithmagga dann sprichst du hier über die sog. *Wertefunktion*?! => Wertfunktionen geben eine Einschätzung darüber ab, wie gut es für einen Agenten ist, sich in diesem Zustand zu befinden und eine bestimmte Aktion in diesem Zustand durchzuführen. Zusätzlich kann ein Diskontierungsfaktor verwendet werden, um die Vorteile zukünftiger Aktionen zum gegenwärtigen Zeitpunkt zu bewerten. Der Diskontierungsfaktor gibt die Wahrscheinlichkeit an, einen Belohnungszustand in der Zukunft zu erreichen. Dies hilft dem Agenten, seine Aktionen genauer nach der erwarteten Belohnung auszuwählen. Der letzte Satz trifft vor allem auf dein Beispiel zu wenn man sich die gegebene Rewards dazu anschaut und mit den Lila Werten vergleicht. Wie siehst du das?
Nein, nach der gegebenen Definition spreche ich hier nicht über die Wertfunktion, da hier keine Angabe darüber erfolgt, wie gut es für den Agenten ist, sich in einem Zustand zu befinden. Der lila Teil ist eine Modellierung der Umgebung, die Wertfunktion wird vom Agenten während des Trainings "erlernt". In dem Beispiel wird quasi implizit eine bereits erlernte Wertfunktion angenommen, nach der sich der Agent/Roboter bewegt. Mathematisch ausformuliert oder anderweitig dargestellt habe ich die Wertfunktion in diesem Video nicht. Im Beispiel ist der lila Teil ab 9:50 genannt, wenn man sich nach einer Aktion in verschiedenen Zuständen befinden kann.
Vielleicht noch ein wenig anders formuliert: Es gibt unterschiedliche Arten von Wertfunktion, je nachdem wie man den Agenten trainiert (mathematisch gesehen). Im Endeffekt gibt die Wertfunktion aber an, welcher Zustand und welche Aktion gut bzw. schlecht in der jeweiligen Situation sind. Diese Funktion erlernt der Agent während des Trainings. Der lila Teil ist eine Annahme (welche z. B. auf Messungen beruhen kann) des Modellieres/Programmierers über das Umfeld, indem sich der Agent/Roboter befindet. Zum Beispiel könnte man aus Versuchen ermitteln, dass ein Saugroboter nur in 90% der Fälle den Boden korrekt reinigt. Das könnte man dann wie im Video bei 10:10 gezeigt modellieren.
Kurze Verständnisfrage: Wenn der Roboter gegen die Wand fährt, müsste er doch noch -1 bekommen wegen der ausgeführten Bewegung oder? Generell zieht ja jede Bewegung einen Punkt ab .. oder nicht?
Ja, gute Frage. Ich denke, das kommt ein wenig darauf an, wie man das Ganze implementiert. Wenn man die -1 nur dann vergibt, wenn der Roboter sich wirklich ein Feld bewegt hat, dann ist es so wie im Video. Wenn jedoch bereits der Versuch des Roboters sich zu bewegen mit -1 bestraft wird, dann ist es so wie du sagst und die -1 müssten noch abgezogen werden. Letztlich wird es, glaube ich, beim Training des Roboters keinen großen Unterschied machen. Alle Rewards sind auch etwas willkürlich gewählt, man könnte auch -200 oder -300 für das Fahren gegen die Wand vergeben. Im Grunde läuft es ja darauf hinaus, dass der Roboter lernt nicht gegen die Wand zu fahren.
@@codingwithmagga Danke für die ausführliche Antwort. Meine Frage rührte daher, dass ich wissen wollte in wie fern so etwas "tot" optimiert wird. Vielen Dank nochmal .. und btw. ein sehr schönes Tutorial. 👍
Stimmt, im Vergleich zu anderen Videos ist die Stimme tatsächlich etwas leiser als sonst. Ich werde bei den nächsten Videos noch mal genauer darauf achten.
Zu diesem Video findet ihr jetzt auch einen Artikel auf meiner Webseite: codingwithmagga.com/reinforcement-learning/
Super Einführung in das Thema !
Danke schön! :)
Super Video, vielen Dank!
Gerne und danke schön! :)
Schön erklärt! Danke!
Danke und sehr gerne!
Sehr gut, vielen Dank! :)
Sehr gerne 🙂
Bei 7:12 spricht du bezgl. dem Lila Teil der Visualisierung sprichst du über die Übergangswahrscheinlichkeiten der Aktionen für den Übergang von einem Zustand in
den nächsten Zustand?!
Der lila Teil gibt den Übergang von einem Zustand s_i in einen anderen Zustand s_j bei der Ausführung einer Aktion a_k an. So liegt zum Beispiel im Video an der genannten Stelle die Wahrscheinlichkeit vom Zustand s_1 erneut in den Zustand s_1 bei Ausführung der Aktion a_1 zu kommen bei 0,1, und unter den gleichen Voraussetzungen in den Zustand s_3 zu gelangen bei 0,9.
Ich denke, das ist auch das, was du meintest, oder?
@@codingwithmagga dann sprichst du hier über die sog. *Wertefunktion*?! => Wertfunktionen geben eine Einschätzung darüber ab,
wie gut es für einen Agenten ist, sich in diesem Zustand zu befinden und eine bestimmte
Aktion in diesem Zustand durchzuführen. Zusätzlich kann ein Diskontierungsfaktor
verwendet werden, um die Vorteile zukünftiger Aktionen zum gegenwärtigen
Zeitpunkt zu bewerten. Der Diskontierungsfaktor gibt die Wahrscheinlichkeit an, einen
Belohnungszustand in der Zukunft zu erreichen. Dies hilft dem Agenten, seine Aktionen
genauer nach der erwarteten Belohnung auszuwählen.
Der letzte Satz trifft vor allem auf dein Beispiel zu wenn man sich die gegebene Rewards dazu anschaut und mit den Lila Werten vergleicht.
Wie siehst du das?
Nein, nach der gegebenen Definition spreche ich hier nicht über die Wertfunktion, da hier keine Angabe darüber erfolgt, wie gut es für den Agenten ist, sich in einem Zustand zu befinden. Der lila Teil ist eine Modellierung der Umgebung, die Wertfunktion wird vom Agenten während des Trainings "erlernt".
In dem Beispiel wird quasi implizit eine bereits erlernte Wertfunktion angenommen, nach der sich der Agent/Roboter bewegt. Mathematisch ausformuliert oder anderweitig dargestellt habe ich die Wertfunktion in diesem Video nicht. Im Beispiel ist der lila Teil ab 9:50 genannt, wenn man sich nach einer Aktion in verschiedenen Zuständen befinden kann.
@@codingwithmagga okay vielen Dank. Das habe ich zwar jetzt nicht verstanden aber wie dem auch sei....
Vielleicht noch ein wenig anders formuliert:
Es gibt unterschiedliche Arten von Wertfunktion, je nachdem wie man den Agenten trainiert (mathematisch gesehen). Im Endeffekt gibt die Wertfunktion aber an, welcher Zustand und welche Aktion gut bzw. schlecht in der jeweiligen Situation sind. Diese Funktion erlernt der Agent während des Trainings.
Der lila Teil ist eine Annahme (welche z. B. auf Messungen beruhen kann) des Modellieres/Programmierers über das Umfeld, indem sich der Agent/Roboter befindet. Zum Beispiel könnte man aus Versuchen ermitteln, dass ein Saugroboter nur in 90% der Fälle den Boden korrekt reinigt. Das könnte man dann wie im Video bei 10:10 gezeigt modellieren.
Kurze Verständnisfrage: Wenn der Roboter gegen die Wand fährt, müsste er doch noch -1 bekommen wegen der ausgeführten Bewegung oder?
Generell zieht ja jede Bewegung einen Punkt ab .. oder nicht?
Ja, gute Frage.
Ich denke, das kommt ein wenig darauf an, wie man das Ganze implementiert. Wenn man die -1 nur dann vergibt, wenn der Roboter sich wirklich ein Feld bewegt hat, dann ist es so wie im Video. Wenn jedoch bereits der Versuch des Roboters sich zu bewegen mit -1 bestraft wird, dann ist es so wie du sagst und die -1 müssten noch abgezogen werden.
Letztlich wird es, glaube ich, beim Training des Roboters keinen großen Unterschied machen. Alle Rewards sind auch etwas willkürlich gewählt, man könnte auch -200 oder -300 für das Fahren gegen die Wand vergeben. Im Grunde läuft es ja darauf hinaus, dass der Roboter lernt nicht gegen die Wand zu fahren.
@@codingwithmagga Danke für die ausführliche Antwort.
Meine Frage rührte daher, dass ich wissen wollte in wie fern so etwas "tot" optimiert wird.
Vielen Dank nochmal .. und btw. ein sehr schönes Tutorial.
👍
Gerne und danke schön :)
👍
Deine Stimme ist sehr sehr leise
Stimmt, im Vergleich zu anderen Videos ist die Stimme tatsächlich etwas leiser als sonst. Ich werde bei den nächsten Videos noch mal genauer darauf achten.