Reinforcement Learning, Machine Learning Tutorial #5

Поділитися
Вставка
  • Опубліковано 31 гру 2024

КОМЕНТАРІ • 23

  • @codingwithmagga
    @codingwithmagga  Рік тому

    Zu diesem Video findet ihr jetzt auch einen Artikel auf meiner Webseite: codingwithmagga.com/reinforcement-learning/

  • @Wilim90
    @Wilim90 2 роки тому +4

    Super Einführung in das Thema !

  • @alexk1729
    @alexk1729 Рік тому

    Super Video, vielen Dank!

  • @fabs12345678
    @fabs12345678 Рік тому

    Schön erklärt! Danke!

  • @gerritfreiwald9192
    @gerritfreiwald9192 Рік тому

    Sehr gut, vielen Dank! :)

  • @enisodza816
    @enisodza816 Місяць тому +1

    Bei 7:12 spricht du bezgl. dem Lila Teil der Visualisierung sprichst du über die Übergangswahrscheinlichkeiten der Aktionen für den Übergang von einem Zustand in
    den nächsten Zustand?!

    • @codingwithmagga
      @codingwithmagga  Місяць тому +1

      Der lila Teil gibt den Übergang von einem Zustand s_i in einen anderen Zustand s_j bei der Ausführung einer Aktion a_k an. So liegt zum Beispiel im Video an der genannten Stelle die Wahrscheinlichkeit vom Zustand s_1 erneut in den Zustand s_1 bei Ausführung der Aktion a_1 zu kommen bei 0,1, und unter den gleichen Voraussetzungen in den Zustand s_3 zu gelangen bei 0,9.
      Ich denke, das ist auch das, was du meintest, oder?

    • @enisodza816
      @enisodza816 Місяць тому

      @@codingwithmagga dann sprichst du hier über die sog. *Wertefunktion*?! => Wertfunktionen geben eine Einschätzung darüber ab,
      wie gut es für einen Agenten ist, sich in diesem Zustand zu befinden und eine bestimmte
      Aktion in diesem Zustand durchzuführen. Zusätzlich kann ein Diskontierungsfaktor
      verwendet werden, um die Vorteile zukünftiger Aktionen zum gegenwärtigen
      Zeitpunkt zu bewerten. Der Diskontierungsfaktor gibt die Wahrscheinlichkeit an, einen
      Belohnungszustand in der Zukunft zu erreichen. Dies hilft dem Agenten, seine Aktionen
      genauer nach der erwarteten Belohnung auszuwählen.
      Der letzte Satz trifft vor allem auf dein Beispiel zu wenn man sich die gegebene Rewards dazu anschaut und mit den Lila Werten vergleicht.
      Wie siehst du das?

    • @codingwithmagga
      @codingwithmagga  Місяць тому +1

      Nein, nach der gegebenen Definition spreche ich hier nicht über die Wertfunktion, da hier keine Angabe darüber erfolgt, wie gut es für den Agenten ist, sich in einem Zustand zu befinden. Der lila Teil ist eine Modellierung der Umgebung, die Wertfunktion wird vom Agenten während des Trainings "erlernt".
      In dem Beispiel wird quasi implizit eine bereits erlernte Wertfunktion angenommen, nach der sich der Agent/Roboter bewegt. Mathematisch ausformuliert oder anderweitig dargestellt habe ich die Wertfunktion in diesem Video nicht. Im Beispiel ist der lila Teil ab 9:50 genannt, wenn man sich nach einer Aktion in verschiedenen Zuständen befinden kann.

    • @enisodza816
      @enisodza816 Місяць тому

      @@codingwithmagga okay vielen Dank. Das habe ich zwar jetzt nicht verstanden aber wie dem auch sei....

    • @codingwithmagga
      @codingwithmagga  Місяць тому +1

      Vielleicht noch ein wenig anders formuliert:
      Es gibt unterschiedliche Arten von Wertfunktion, je nachdem wie man den Agenten trainiert (mathematisch gesehen). Im Endeffekt gibt die Wertfunktion aber an, welcher Zustand und welche Aktion gut bzw. schlecht in der jeweiligen Situation sind. Diese Funktion erlernt der Agent während des Trainings.
      Der lila Teil ist eine Annahme (welche z. B. auf Messungen beruhen kann) des Modellieres/Programmierers über das Umfeld, indem sich der Agent/Roboter befindet. Zum Beispiel könnte man aus Versuchen ermitteln, dass ein Saugroboter nur in 90% der Fälle den Boden korrekt reinigt. Das könnte man dann wie im Video bei 10:10 gezeigt modellieren.

  • @TTK.0s
    @TTK.0s Рік тому +1

    Kurze Verständnisfrage: Wenn der Roboter gegen die Wand fährt, müsste er doch noch -1 bekommen wegen der ausgeführten Bewegung oder?
    Generell zieht ja jede Bewegung einen Punkt ab .. oder nicht?

    • @codingwithmagga
      @codingwithmagga  Рік тому +1

      Ja, gute Frage.
      Ich denke, das kommt ein wenig darauf an, wie man das Ganze implementiert. Wenn man die -1 nur dann vergibt, wenn der Roboter sich wirklich ein Feld bewegt hat, dann ist es so wie im Video. Wenn jedoch bereits der Versuch des Roboters sich zu bewegen mit -1 bestraft wird, dann ist es so wie du sagst und die -1 müssten noch abgezogen werden.
      Letztlich wird es, glaube ich, beim Training des Roboters keinen großen Unterschied machen. Alle Rewards sind auch etwas willkürlich gewählt, man könnte auch -200 oder -300 für das Fahren gegen die Wand vergeben. Im Grunde läuft es ja darauf hinaus, dass der Roboter lernt nicht gegen die Wand zu fahren.

    • @TTK.0s
      @TTK.0s Рік тому +1

      @@codingwithmagga Danke für die ausführliche Antwort.
      Meine Frage rührte daher, dass ich wissen wollte in wie fern so etwas "tot" optimiert wird.
      Vielen Dank nochmal .. und btw. ein sehr schönes Tutorial.
      👍

    • @codingwithmagga
      @codingwithmagga  Рік тому +1

      Gerne und danke schön :)

  • @michgesx333
    @michgesx333 2 роки тому

    👍

  • @GesperrterKanal-jp4wl
    @GesperrterKanal-jp4wl 11 місяців тому

    Deine Stimme ist sehr sehr leise

    • @codingwithmagga
      @codingwithmagga  11 місяців тому +1

      Stimmt, im Vergleich zu anderen Videos ist die Stimme tatsächlich etwas leiser als sonst. Ich werde bei den nächsten Videos noch mal genauer darauf achten.