[NDC22-프로그래밍] Walk Lizzie, walk!
● 발표분야: 프로그래밍
● 발표자: 엠바크 스튜디오 조지 델 발 산토스 / Embark Studios Jorge del Val Santos
● 권장 대상: All levels of AI/Gameplay/Animation programmers and technical animators will probably gain the most value from this talk, although no major prior knowledge is required.
● 키워드: #Machine_Learning #Animation #Reinforcement_Learning #Deep_Learning #Physics
강화 학습을 통한 임의의 생명체의 물리 기반 애니메이션에 대해서
본 강연의 목적은 누구나 이렇게 살아있는 생명체를 만들고 함께 플레이할 수 있도록 하는 것
생명체.. 사용자가 많은 생명체와 물리적으로 상호작용할 수 있어야 한다는 것을 강조함
'물리학'에 기반을 두어야함
일단 똑같이 하고,
역운동학(inverse kinematics) 또는 그와 비슷한 것을 사용하여 움직임을 물리학의 영역으로 옮겨야 함
신경망은 입력-출력 관계
하지만 아주 특별한 종류의 입출력 관계임
입력에 숫자 목록이 있고, 그런 다음 연산을 거쳐 출력에 숫자 목록이 나옴
하지만.. 신경망에는 '매개변수'라는 것이 있음!!
이 매개변수는 본질적으로 네트워크의 화살표이며, 어떤 숫자를 다른 숫자와 곱함
이러한 매개변수를 변경하면 신경망이 수행하는 실제 작업이 변경됨
이것이 특별한 이유는 신경망은 어떠한 입력-출력 관계든지 될 수 있기 때문임
(올바른 매개변수, 올바른 화살표를 찾기만 한다면..)
강화 학습 (Reinforcement Learing)
강화 학습이란 우리가 이러한 매개변수를 계산할 수 있게 해주는 분야
이것은 무의미한 신경망 상자를 유용한 컨트롤러, 즉 두뇌로 변환시켜줌
기억해야 할 것 3가지
첫째, 의사 결정 정책 또는 두뇌를 신경망으로 매개변수화한다는 것
둘째, 두뇌를 훈련시키기 위한 미래의 보상의 가치를 추정할 수 있는 또 다른 네트워크인 가치망이 필요하다는 것
셋째, 우리가 선택한 알고리즘인 소프트 행위자-비평자(soft actor - critic) 알고리즘, 즉 SAC로 두 네트워크가 상호작용하도록 만든다