자율주행에서 강화학습을 사용하는 것이 주류는 아니지만 아얘 안쓰이는건 아닌거 같습니다. Efficient Reinforcement Learning for Autonomous Driving with Parameterized Skills and Priors라는 논문이 있네요
4:55 그러니까 대충 이해해보면 방향키 누르는 매뉴얼을 줬는데 [위 누르고 - 손 떼서 "다음이 뭐였지?" 하며 매뉴얼 보고 - 아래 누르고 - 손 떼서 "다음이 뭐였지?" 하며 매뉴얼 보고 - 왼쪽 누르고] 했다면 이제는 [위 누르고있는 상태에서 매뉴얼 보고 - 아래 누르고있는 상태에서 매뉴얼 보고] 식으로 바뀌었다는 말인가요?
공부를 안해서 크게 이름있는 대학교는 아니지만 인공지능학과 예비번호 좋게 받았습니다. 그래서 아마 추합으로 인공지능학과를 가게 될 것 같은데요, 우연히 버튜버와 게임채널, 가끔씩만 나오는 수학과학채널로 하여금 도파민에 범벅된 제 유튜브 알고리즘에 떠서 무심코 보게 되었는데 게임도 룰이 간단해서 그런지 이해하기도 쉽고 질리지도 않고 본것같습니다. 사실 AI보단 단순히 코드만지는쪽만 했다보니 AI에 익숙하진 않지만 제가.. 대학 공부하면서 다 배워야 할 것들이겠죠..? 더 심화된것도 배우고 다 배우고 하겠죠..? 화이팅입니다!!
제가 개발할때도 쉬운 방법 ( 알고리즘), 어려운 방법( ai 사용) 이 있을때 서로 장단점(시간, 배움) 이 확실히 있더라고요. 저는 주로 먼저 쉬운 방법을 먼저 만들어 놓고 어려운 방법이 꼭 필요하면 그 방법을 사용하고 필요하지 않으면 안하는 식으로 하는 게 대부분이에요. 특히 대회나 프로젝트같은 경우는 시간 제한이 있는 경우가 많아서 저는 이런 방식으로 하는 게 그냥 굳어졌어요.
프로그램을 프레임에 동기화해주는게 좋을것 같습니다. 프레임에 동기화해두고 공의 위치를 예측하는 프로그램은 다른 스레드에서 매번 1프레임 뒤 2프레임 뒤 3프레임 뒤를 계속 예측해서 갱신해주고요. 이동을 결정하는 AI도 마찬가지로 다른 스레드에서 매프레임 1프레임 뒤 어디로 가야하는지 2프레임 뒤 어디로 가야하는지 3프레임 뒤 어디로 가야하는지 예측해서 예측결과를 갱신 해주고요. 메인 스레드는 1프레임 2프레임 3프레임 뒤의 이동해야할 결과를 취합해서 이동플랜을 세우고 다음 프레임에서 나온 새 플랜과 내 현재플랜을 비교해서 끊김없이 이어갈 수 있는 변경플랜을 생성하는 작업정도 해주면 될거 같은데요?
@@grayliar147 아! 강화학습을 어떻게 코딩으로 구현하는지 강의영상 비슷하게 만든다는거 말씀하시는 거면 아직도 고민중입니다. 왜냐하면 저는 강화학습을 잘 알지도 못할 뿐 더러 전공 분야도 아니었고, 제가 한건 그냥 구현한 것 밖에 없어서 강화학습에 대한 이해도가 생각보다 깊지 않습니다. 그래서 문제가 강화학습에 대해서 얼마나 자세히 설명해야 하는가, 아니면 구현하는 것만 설명하려면 어떻게 설명하는게 좋을까, 그리고 설명하기 좋은 게임은 어떤게 있을까 등과 같이 생가해야 할게 너무 많더라고요.. 그래서 나중에 언젠가는 할 수 도 있을 것 같은데, 다음달이 될 지, 2년 후가 될 지 아니면 10년 후가 될 지는 저도 잘 모르겠습니다 ㅜㅜ 그런데 구현하는 걸 궁금해하시는 분들이 생각보다 많이 계서서 지금도 고민중인데.... 솔직히 지금도 잘 모르겠습니다.
@MuJiRaengI 그렇군요.. 장애물을 피해 코인을 먹고 목적지에 도착한다는 전반적인 게임 룰이 있다고 해도 매 스테이지마다 맵이 바뀌니까 사람이 매 스테이지마다 전략이 바뀌는 것처럼 reward function을 다르게 설계하신 점도 납득이 가네요.. 다만 dqn atari games solver처럼 어떤 스테이지에 대해서도 학습을 통해 클리어할 수 있는 하나의 unified된 모델을 만든다면 정말 대단할 것 같네요. 영상 앞으로도 잘 챙겨보도록 하겠습니다 ㅎㅎ
알고리즘이란 특정한 문제를 해결하거나 작업을 수행하기 위해 정해진 일련의 절차나 규칙의 집합인데 이걸 하기 위해서 사람이 직접 어떤 상황에는 어떻게 움직이는 방식으로도 접근할 수 있고(rule-based) 다른 방식으로도 할 수 있을텐데(예를 들어 학습을 통해 AI) 굳이 따지자면 이 영상에서 나온 알고리즘이라는 용어는 사실 상 rule based라는 의미이고 AI도 따지고 보면 알고리즘에 속해 있으나 데이터를 바탕으로 학습을 통해서 output을 뱉는 구조이다 보니 AI 따로 구분 지으신거 같습니다
아뇨!! 무식한 질문이라뇨!! 그런 질문은 없습니다!!! 알고리즘으로 깬다라고 하는거는 3탄 기준으로 3탄에 입장하면->왼쪽위로 0.1초간 움직이고->멈춘다->캐릭터 왼쪽에 움직일 공간이 생기면(파란공이 없으면)->왼쪽위로 0.3초간 움직인다->위로 움직인다(이러면 코인을 여기서 먹습니다)->2.8초간 정지한 후 ->왼쪽아래로 0.3초간 움직인다 이런식으로 제가 어느 방향으로 움직이는지와 몇 초간 움직일 지 등을 제가 직접 계산해서 넣는겁니다! 궁금하신게 있으시면 편하게 댓글달아주세요! (대신 대댓??이라고 하나? 답글의 답글은 저한테 알람이 안떠서 새로운 댓글로 남겨주셔야해요!)
일단 목표는 rainbow까지 가는건데... 현재는 dueling까지 적용되었습니다. 그런데 문제가... 다음 단계를 적용하기가 좀 힘든 부분이 조금씩 있어서 고민중입니다... ( 이게 gym라이브러리가 아니고 진짜 실제 게임이다 보니까 막 고려해야 하는게 너무 많아지고 코딩도 제가 직접하다보니까 gym라이브러리 사용하는것과 조금 다르더라고요 ㅜㅜ ) 그리고 또 문제가... 제가 PER이었나? 이런거랑 noisenet? 이런거에 대해서 추가로 공부를 해야 하는데 코드 어떻게 구현하나는 봤는데 논문보고 공부까지는 못하고 있는 것도 문제인 것 같습니다 ㅜㅜ
맞아요 ㅜㅜ tas에 비해서는 아직 한참 멀긴 했는데, 사실 저는 목표가 클리어고 tas는 목표가 타임어택 이라서 사실상 사람으로 치면 목표가 대학교 입학 인 사람과 목표가 서울대인 사람의 차이인 것 같아요 ㅜㅜ 저는 교과서로만 공부하고... tas는 사교육 빵빵하게 듣고... 뭔가 이런느낌인 것 같아요 ㅜㅜㅜ
와 이게 알고리즘에 뜨네 진짜 분석과 문제해결능력까지 대단한거 보면 이분 될 사람입니다.
1:45부터 숨도 못쉬고 봄
헉... 너무 좋은 말씀해주셔서 감사합니다 ㅜㅜ 힘이나네요!!
이게 바로 자율주행의 요소중에 하나일 것 같네요
맞아요!!! 자율주행에서도 사용되는 걸로 알고 있어요!!!
전공자들 보고 잘긁는 댓글이네..
머신러닝 중 강화학습이에요
전혀 다릅니다.
자율주행에서 강화학습을 사용하는 것이 주류는 아니지만 아얘 안쓰이는건 아닌거 같습니다. Efficient Reinforcement Learning for Autonomous Driving with Parameterized Skills and Priors라는 논문이 있네요
많이 발전했네요 번창 기원합니다
응원해주셔서 너무 감사합니다!!! 저한텐 너무 소중한 응원이에요!!
와 ㅈㄴ 신기하다 초딩 때 봤던 이 겜을 ai학습으로 깨는거라.. 머리 엄청 좋으실 듯
재밌게 봐주셔서 감사합니다! 근데 저는 머리가 좋지는 않습니다 ㅜㅜ
4:55 그러니까 대충 이해해보면
방향키 누르는 매뉴얼을 줬는데 [위 누르고 - 손 떼서 "다음이 뭐였지?" 하며 매뉴얼 보고 - 아래 누르고 - 손 떼서 "다음이 뭐였지?" 하며 매뉴얼 보고 - 왼쪽 누르고] 했다면
이제는 [위 누르고있는 상태에서 매뉴얼 보고 - 아래 누르고있는 상태에서 매뉴얼 보고] 식으로 바뀌었다는 말인가요?
오! 정확합니다!!!!
컨텐츠 되게 흥미롭네요...
헉!!! 흥미롭게 봐주셔서 너무 감사합니다 ㅜㅜ
환경에 대해서 분석하시는 과정을 보니, 정말 정성을 다해 열심히 하신 것 같습니다. 강화학습에 관심이 있어서 그런지 우연히 알고리즘에 떠서 보게 됐는데, 이렇게 좋은 한국어 컨텐츠를 보니 참 좋은 것 같습니다. 앞으로도 꾸준하고 좋은 분석하시길 바랍니다!
헉.. 너무 좋은 말씀 해주셔서 감사합니다 ㅜㅜ 열심히 하겠습니다!
공부를 안해서 크게 이름있는 대학교는 아니지만 인공지능학과 예비번호 좋게 받았습니다.
그래서 아마 추합으로 인공지능학과를 가게 될 것 같은데요,
우연히 버튜버와 게임채널, 가끔씩만 나오는 수학과학채널로 하여금 도파민에 범벅된 제 유튜브 알고리즘에 떠서 무심코 보게 되었는데 게임도 룰이 간단해서 그런지 이해하기도 쉽고 질리지도 않고 본것같습니다.
사실 AI보단 단순히 코드만지는쪽만 했다보니 AI에 익숙하진 않지만 제가.. 대학 공부하면서 다 배워야 할 것들이겠죠..? 더 심화된것도 배우고 다 배우고 하겠죠..?
화이팅입니다!!
진짜 공부를 안 한 사람들은 공부를 안했다고 말을 안할거에요! 원하는 과를 가는 것 부터가 남들보다는 조금이라도 열심히 했다는게 아닐까요? 대학교 가서 열심히 공부하시면 될 것 같아요! (저도 대학교 때 부터 공부를 시작했거든요!) 인공지능학과 합격하시길 바랄게요!!
@MuJiRaengI 응원 감사합니다! 열심히 해보겠습니다ㅋㅋ
계속 느끼지만 이 게임이 사람 심리를 막 반대로 꼬아버리게 때문에 신경쓸 게 굉장히 많아요...😅
막 멈춰야 하고 나중엔 2보 전진을 위해 1보 후퇴를 해서 잠시 거꾸로 가야 하는 부분도 있고...
맞아요!! 저도 그래서 걱정이긴 해요 ㅜㅜ
제가 개발할때도 쉬운 방법 ( 알고리즘), 어려운 방법( ai 사용) 이 있을때 서로 장단점(시간, 배움) 이 확실히 있더라고요. 저는 주로 먼저 쉬운 방법을 먼저 만들어 놓고 어려운 방법이 꼭 필요하면 그 방법을 사용하고 필요하지 않으면 안하는 식으로 하는 게 대부분이에요. 특히 대회나 프로젝트같은 경우는 시간 제한이 있는 경우가 많아서 저는 이런 방식으로 하는 게 그냥 굳어졌어요.
좋은 의견 감사합니다!!! 진짜 알고리즘으로 깰 수 있는 건 알고리즘으로 한번 클리어를 해볼 까 생각도 드네요!!!
우와 알고리즘에 떠서 봤는데 영상 재밌네요!
헉!! 재밌게 봐주셔서 감사합니다!
프로그램을 프레임에 동기화해주는게 좋을것 같습니다. 프레임에 동기화해두고 공의 위치를 예측하는 프로그램은 다른 스레드에서 매번 1프레임 뒤 2프레임 뒤 3프레임 뒤를 계속 예측해서 갱신해주고요. 이동을 결정하는 AI도 마찬가지로 다른 스레드에서 매프레임 1프레임 뒤 어디로 가야하는지 2프레임 뒤 어디로 가야하는지 3프레임 뒤 어디로 가야하는지 예측해서 예측결과를 갱신 해주고요. 메인 스레드는 1프레임 2프레임 3프레임 뒤의 이동해야할 결과를 취합해서 이동플랜을 세우고 다음 프레임에서 나온 새 플랜과 내 현재플랜을 비교해서 끊김없이 이어갈 수 있는 변경플랜을 생성하는 작업정도 해주면 될거 같은데요?
오! 좋은의견 감사합니다!!! 구현이 빡셀 것 같긴 하지만 노력해보겠습니다!
ai가 나보다 잘하네ㅋㅋㅋㅋㅋㅋ 훈련 많이 시키셨네요
감사합니다!! 매 탄마다 1~3일정도 학습시켰습니다!!!!
@@MuJiRaengI 예전에 gen을 이용한 콘텐츠를 생각해본다고 하셨는데, 어떻게 하실건가요?
@@grayliar147 엇 gen이라면 어떤걸 말씀하시는거죠???
@@MuJiRaengI아 죄송합니다. Gen이 아니고, ai를 이용한 콘텐츠 설문조사를 유튜브 커뮤니티를 통해 조사하셨는데 어떻게 하실건지 궁금해서요
@@grayliar147 아! 강화학습을 어떻게 코딩으로 구현하는지 강의영상 비슷하게 만든다는거 말씀하시는 거면 아직도 고민중입니다. 왜냐하면 저는 강화학습을 잘 알지도 못할 뿐 더러 전공 분야도 아니었고, 제가 한건 그냥 구현한 것 밖에 없어서 강화학습에 대한 이해도가 생각보다 깊지 않습니다. 그래서 문제가 강화학습에 대해서 얼마나 자세히 설명해야 하는가, 아니면 구현하는 것만 설명하려면 어떻게 설명하는게 좋을까, 그리고 설명하기 좋은 게임은 어떤게 있을까 등과 같이 생가해야 할게 너무 많더라고요.. 그래서 나중에 언젠가는 할 수 도 있을 것 같은데, 다음달이 될 지, 2년 후가 될 지 아니면 10년 후가 될 지는 저도 잘 모르겠습니다 ㅜㅜ 그런데 구현하는 걸 궁금해하시는 분들이 생각보다 많이 계서서 지금도 고민중인데.... 솔직히 지금도 잘 모르겠습니다.
모르는 분야인데 설명도 이해 잘 되게 정말 잘 하시고, 웃으시는 것도 기분좋게 들리네요ㅎㅎ 응원합니다!!
헉! 너무너무 감사합니다 ㅜㅜ 열심히 하겠습니다!
웃는 거 매력 개터짐... ㅋㅋㅋㅋㅋㅋ 재밌게 보고 갑니다! 구독자 받아랏
구독까지 해주시다니 ㅜㅜ 너무 감사합니다!!!
우와 이걸 AI학습을 시키신다구요?? 신기하네요ㅋㅎㅋㅎㅋㅋㅋ 재밌게 보겠습니다
재밌게 봐주셔서 너무 감사합니다 ㅜㅜ
강화학습을 LSTM과 같은 recurrent 모델로 만들어보는걸 추천드립니다!
오!! LSTM 대학원 과제할 때 한번 들어보긴 했던 것 같아요! 추천해주셔서 감사합니다!
AI의 활용도가 앞으로 무궁무진 해질거같습니다.. 영상 잘 보고갑니다
시청해주셔서 감사합니다! 저도 어디까지 할 수 있을지 너무 궁금해지네요!!!
묘하게 매력있네요 ㅋㅋㅋ 재밌습니다
앗!! 재밌게 시청해주셔서 너무 감사합니다 ㅜㅜ
진짜 아이디어 쉽게 설명 잘하시네요.
쉽게 이해되셨다니 다행이에요! 앞으로도 쉽게 설명할 수 있도록 노력하겠습니다!! 감사합니다!
7:52 오.. 신기하다
기가 막히네요..
혹시 매 스테이지마다 다른 reward function을 사용하신 건가요?
감사합니다! 1탄부터 4탄까지는 제 기억으로는 동일한 reward 사용한 것으로 기억하고 있습니다!! 만약 바뀌었다고 해도 아마 코인 먹으면 0.3점으로 줄 지, 0.5점으로 줄 지 이정도만 바뀌었을 것 같습니다!
@MuJiRaengI 그렇군요.. 장애물을 피해 코인을 먹고 목적지에 도착한다는 전반적인 게임 룰이 있다고 해도 매 스테이지마다 맵이 바뀌니까 사람이 매 스테이지마다 전략이 바뀌는 것처럼 reward function을 다르게 설계하신 점도 납득이 가네요.. 다만 dqn atari games solver처럼 어떤 스테이지에 대해서도 학습을 통해 클리어할 수 있는 하나의 unified된 모델을 만든다면 정말 대단할 것 같네요. 영상 앞으로도 잘 챙겨보도록 하겠습니다 ㅎㅎ
Input layer를 어떻게 구성하시나요?
설마 비전컴퓨팅인가요?
넵 비전정보로만 하고 있습니다! 인풋은 게임 이미지 2프레임 RGB영상 + 가상 코인(gray) 영상 + 파란 공 예측 영상(gray) 이렇게 8channel이 입력으로 들어갑니다!
@@MuJiRaengI 트라이 엔 에러로 본인도 성장하시는 것 같아요.
혹시 이미 진행한 프로젝트를 깃허브에 공개하실 생각 있으신가요? 인공지능은 몇 번 다뤄봤는데 게임 RL을 어떻게 하셨는지 궁금해서요
@@lIIllIIlllIIIllIIllIlllIIIllII 감사합니다!! 아쉽게도 깃허브에 코드를 공개는 생각하고 있지 않습니다!
@@MuJiRaengI 직접 해봐야겠네요
여담으로 골에 도착하는 것을 최종 reward로 하고 그 과정까지의 길에 sub reward를 주신 것 같은데 최종 골에 도달했는지 여부에 따라 sub reward를 변경하는 방법도 생각할 수 있을 것 같습니다.
@@lIIllIIlllIIIllIIllIlllIIIllII 오! 꿀팁 감사합니다!!!
알고리즘으로 깬다는 것과 ai로 클리어한다는건 무슨 차이가있는건가요?(너무 무식항 질문일까요..? 문과생인데 너무 재밋게봐서 질문 드려봐요)
알고리즘이란
특정한 문제를 해결하거나 작업을 수행하기 위해 정해진 일련의 절차나 규칙의 집합인데
이걸 하기 위해서 사람이 직접 어떤 상황에는 어떻게 움직이는 방식으로도 접근할 수 있고(rule-based)
다른 방식으로도 할 수 있을텐데(예를 들어 학습을 통해 AI)
굳이 따지자면 이 영상에서 나온 알고리즘이라는 용어는 사실 상 rule based라는 의미이고
AI도 따지고 보면 알고리즘에 속해 있으나 데이터를 바탕으로 학습을 통해서 output을 뱉는 구조이다 보니
AI 따로 구분 지으신거 같습니다
아뇨!! 무식한 질문이라뇨!! 그런 질문은 없습니다!!!
알고리즘으로 깬다라고 하는거는 3탄 기준으로
3탄에 입장하면->왼쪽위로 0.1초간 움직이고->멈춘다->캐릭터 왼쪽에 움직일 공간이 생기면(파란공이 없으면)->왼쪽위로 0.3초간 움직인다->위로 움직인다(이러면 코인을 여기서 먹습니다)->2.8초간 정지한 후 ->왼쪽아래로 0.3초간 움직인다
이런식으로 제가 어느 방향으로 움직이는지와 몇 초간 움직일 지 등을 제가 직접 계산해서 넣는겁니다!
궁금하신게 있으시면 편하게 댓글달아주세요!
(대신 대댓??이라고 하나? 답글의 답글은 저한테 알람이 안떠서 새로운 댓글로 남겨주셔야해요!)
맞아요! 정확하게 말씀해주셨네요!!! 감사합니다
우와 진짜 신기하다... 뭐라 칭찬을 해야할진 모르겠지만 아무튼 영상 너무 재밌네요
재밌게 시청해주셔서 감사합니다!
진짜 멋있네요 님
좋게 봐주셔서 감사합니다!!!
중간에 reward 이야기 나오는거 보니깐 강화학습으로 하셨나봐요
어떤 강화 학습 모델 기반으로 하셨나요?
일단 목표는 rainbow까지 가는건데... 현재는 dueling까지 적용되었습니다. 그런데 문제가... 다음 단계를 적용하기가 좀 힘든 부분이 조금씩 있어서 고민중입니다... ( 이게 gym라이브러리가 아니고 진짜 실제 게임이다 보니까 막 고려해야 하는게 너무 많아지고 코딩도 제가 직접하다보니까 gym라이브러리 사용하는것과 조금 다르더라고요 ㅜㅜ ) 그리고 또 문제가... 제가 PER이었나? 이런거랑 noisenet? 이런거에 대해서 추가로 공부를 해야 하는데 코드 어떻게 구현하나는 봤는데 논문보고 공부까지는 못하고 있는 것도 문제인 것 같습니다 ㅜㅜ
전공으로 ai 공부하는 대학생인데 재미있게 봤습니다 :)
재밌게 시청해주셔서 감사합니다!!!
아이워너비더가이는 AI가 플레이를 하면 몇 번을 죽게 될지 궁금하네요
아이워너비더 시리즈 중 하나를 어릴 때 조금 했던 것 같은데, 게임이 너무 어려워서 깰 수 있을려나 잘 모르겠네요 ㅜㅜ
웃음소리 호탕하고 좋아요.
좋게 봐주셔서 감사합니다!! 근데 솔직히 말하면 개인적으로는 편집할 때 제 목소리라 그런지 좀 어색하드라구요 ㅋㅋㅋㅋ
강화학습 알고리즘 어떤거 사용하셨나요? dqn? ddpg? ppo?
제가 강화학습은 아직까진 dqn, double dqn dueling dqn밖에 몰라서 ㅜㅜ dueling dqn사용중입니다!
역시 it기술이란 딱딱한 분야를 제대로 사용하려면 유연적인 뇌가 중요한듯 보이네요
물론 그렇지 않은 분야가 없지만 이런분야에서 더더욱 드러나는것 같네용
오!! 저랑 생각이 비슷하신 것 같아요!!! 제가 느끼기에도 연구하는거랑 실제 적용하는거랑 너무 차이가 많아서 엄청 어렵더라고요 ㅜㅜ
tas에 비해선 아직 한참 멀었군요 ㅋㅋ
맞아요 ㅜㅜ tas에 비해서는 아직 한참 멀긴 했는데, 사실 저는 목표가 클리어고 tas는 목표가 타임어택 이라서 사실상 사람으로 치면 목표가 대학교 입학 인 사람과 목표가 서울대인 사람의 차이인 것 같아요 ㅜㅜ 저는 교과서로만 공부하고... tas는 사교육 빵빵하게 듣고... 뭔가 이런느낌인 것 같아요 ㅜㅜㅜ
영상이나 올려라
언젠가 강의도 해주시면 좋을거 같네요!!
감사합니다! 강의는 요즘 고민이 많긴 한데... 현재로선 아쉽지만 안하게 될 가능성이 매우 높습니다 ㅜㅜ 몇 가지 문제가 생길 수 도 있어서요 ㅜㅜ(하지만 확정은 아니라서 뭐라고 드릴 말씀이 없네요 죄송합니다ㅜㅜ)
AI 활용 진짜 쌉간지네 ㄷㄷ
앗! 감사합니다! ㅎㅎ
AI는 무황 ㅋㅋ
???:AI가 세상을 정복한대!!
진짜 언젠가는 트랜스포머가 영화가 아니라 현실이 될 것 같기도 해요... AI+로봇이라면 진짜 세상을 정복할 수 도 있을 것 같아요
이런 ai만들려면 올라와있는 게임 ai만들기 보고 만들면 되나요?
엇... 보고 하셔도 힘들거에요... 제가 코드를 다 올리는 것 도 아니고 이게 생각보다 난이도도 조금 있어서 전공자이셔야 할 수 있을 것 같아요!
@@MuJiRaengI 만약 저런 AI 만들려면 어떻게 뭘 공부해야할까요?
@@행운체리 게임 AI를 만들어보고 싶으시면 강화학습(dqn), pytorch(tensorflow도 가능) 공부하시면 될 것 같습니다!! (키워드만 간단하게 알려드렸습니다!)
@@MuJiRaengI 혹시 깃허브는 없으신가요?
개추를 안누를 수가 없네요
헉!!! 추천까지 눌러주시고 감사합니다!!!
아니 왜 알고리즘에 떠요 진짜?? ㅡㅡ 나도 저저번에 저 게임해봤었어서 그런가
근데 ai가 게임을 하다니 신기하네요
역시 알고리즘은 신기하네요!! 시청해주셔서 감사합니다!!!
가만히있을때 0.5점 움직일때 1점 이렇게 주는것보다
클리어했을때 100점 으로 설정하면
클리어를 하려고하지않을까요
좋은 의견 감사합니다! 아쉽게도 클리어 점수만을 사용하면 클리어 자체를 잘 못하더라고요 ㅜㅜ
쩌네
감사합니다!!!
클리어시간이 길어질수록 최종점수를 퍼센트 단위로 깎아버리는건 안될까요? 그럼 최소한 의미없이 가만있지는 않을것 같은데.
일안하면 퇴사시키는 느낌인거죠
좋은 의견인것같아요!! 지금 클리어 할 때 점수가 기본점수 + 남은 가상코인 비율 이라서 말씀하신 것 처럼 약간?의 조절이 되고 있습니다!!
알고리즘은 어떤 프로그램 사용하셨나요??
그냥 python에서 키보드 누르는 라이브러리 사용했습니다!!! (프로그램은 제가 직접 만들었습니다!)
@MuJiRaengI 아 감사합니다!
우와 ㄷㄷㄷ
감사합니다!!!!
와... 형님이 미래의 제 부인을 만들어주실 분이시군요..
엇!!!!.... 제 분야는 아니긴 한데 노력해보겠습니다!
저는 ai는 전혀 모르는데 가상 점수의 상한을 만들고 클리어 지점에서만 초과하는 점수를 준다고 하면 멈추는 문제가 다르게 해결되지 않을까 하는 뇌피셜...남겨봅니다
오! 좋은 의견 감사합니다!!!
뭔지 잘 모르겠지만, 클리어 시간에 관해서는 보상을 못 주나요?
좋은 의견 감사합니다! 시간에 관해서 줄 수도 있을 것 같아요!
혹시 지오메트리 대쉬에도 적용할수있을까요?
일단 제가 AI학습시키는 방식으로 한다면 사람이 눈으로 보고 하는 게임이면 어떤 게임이든 적용은 할 수 있을거에요! 그런데 문제는 클리어를 할 수 있을지는 장담을 못하겠어요 ㅜㅜ
네 가능할걸요? 이미 그런 해외 동영상도 많던 것 같은걸로 기억합니다
웃는 소리가 이재용씨와 닮았네요
헉.... 그...런가요? 전혀몰랐어요 ㅜㅜ
AI가 무작위로 버튼을 눌러가면서 학습하는건가요?
넵 맞습니다! 처음에는 랜덤하게 누르다가 점점 AI가 학습한 버튼 위주로 눌러가면서 학습하고 있습니다!
뭔가 애키우는 느낌이네요 ㅋㅋ
애기는 귀엽기라도 한데 AI는..... 말은 AI가 더 안듣는것 같기두 해요
내가 이걸 왜 계속 보고있는거지?
재밌게 시청해주셔서 감사합니다! 다음 영상에서도 계속 볼 수 있는 영상 만들 수 있도록 노력하겠습니다!
AI로 웹게임 학습해서 결과 도출하기
나중에 한번 컨텐츠로 고려해보도록 하겠습니다!! 좋은 의견 주셔서 감사합니다!!
알고리즘이란게 결국 무한반복하면서 실패한거를 뺀 경로만 가지고 가는건가요?
알고리즘은 그냥 제가 몇초동안 어디로 움직여라 라는걸 하드코딩으로 입력해준 걸 말하는거였습니다! 예를 들어 '처음 0.1초 왼쪽 위로 움직이고 내 왼쪽 공간에 파란 공이 없으면 왼쪽+위로 움직여라' 이걸 하드코딩으로 한거였습니다!
뭔가 신기하네
저도 볼 떄 마다 신기하더라고요!!!
그래픽카드는 어떤거 쓰고 계세요?
그래픽카드는 4070ti 사용중입니다!
유키 동갑이네 동갑이더라고요
넹????
😮
감사합니다!!!
6:40 쉬는 청년 문제의 해답이 여기 있는게 아닐까?
실수 대비 보상이 자꾸 작아지니까 그냥 가만히 있기를 선택하는게 아닐까??
ai 알못 사회뭐시기 학과였습니다
엇.... 그럴 수 도 있겠네요!!! AI는 참고로 가만히 있는 경우의 보상을 낮추니까 일을 하기 시작하긴 했습니다 ㅋㅋㅋㅋ
그냥 회피하는거죠 뭐 보상이 적어진다기 보단 가만히 있을 때 보상이 훨씬 적어도 그냥 도피할 수단이 너무 많기 때문에 움직이려하지 않는거라고 생각합니다
그냥벽님이랑 목소리가 비슷함
엇 그런가요? 어떤 분이신지 궁금해지네요!!
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 한번 들어봤는데 진짜 비슷하긴 하네욬ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
ai warehouse 랑 비슷한 느낌 이네요
맞습니다! 그 분을 알고 시작한건 아니었는데 하고보니 비슷한 분야이긴 하더라고요!!
ㅋㅋㅋ말하면서 자꾸웃음 ㅋㅋㅋㅋㅋㅋ재밌네요 시간금방가네
앗! 재밌게 시청해주셔서 감사합니다!!!
이거어떻게하나요저도배우고싶어요
감사합니다! 강화학습을 공부하시면 도움이 될 것 같습니다!!
스카이넷나오면 현실서시킬듯
정말로 스카이넷이 나오면 한번 시켜보고싶어요!! 과연 AI는 키보드 샷건을 치는지도 궁금하네요!!
Ai좀 귀여운데?
엇 ㅋㅋㅋ 귀엽게 봐주셔서 감사합니다!
영상 만들지 마세요
어떤 영상을 말씀하시는건가요?? 이해를 못했습니다 ㅜㅜ
그냥 코딩해서 피하는 경로 입력해서 하면 되요... 뭘 그리 힘들게
무작위의 레벨이 주어졌을때 ai가 스스로 풀수 있게 원하는거 같아요
코딩해서 피하는 경로 입력해서 하면 되긴 하는데 AI를 사용해서 클리어 해보고 싶었어요!!! AI를 사용해서 클리어 하는게 뭔가 신기하지 않으신가요?
@@MuJiRaengI 아 그렇군요..
훈수는 과학이네 ㅋㅋ
@@Vtt1200 ㅈㅅ