2022 NDC/프로그래밍

[NDC22-프로그래밍] Walk Lizzie, walk!

서니션 2022. 7. 3. 18:26
728x90
반응형

● 발표분야: 프로그래밍

● 발표자: 엠바크 스튜디오 조지 델 발 산토스 / Embark Studios Jorge del Val Santos

● 권장 대상: All levels of AI/Gameplay/Animation programmers and technical animators will probably gain the most value from this talk, although no major prior knowledge is required.

● 키워드: #Machine_Learning #Animation #Reinforcement_Learning #Deep_Learning #Physics

 

강화 학습을 통한 임의의 생명체의 물리 기반 애니메이션에 대해서

 

본 강연의 목적은 누구나 이렇게 살아있는 생명체를 만들고 함께 플레이할 수 있도록 하는 것

 

생명체.. 사용자가 많은 생명체와 물리적으로 상호작용할 수 있어야 한다는 것을 강조함

 

'물리학'에 기반을 두어야함

 

일단 똑같이 하고,

역운동학(inverse kinematics) 또는 그와 비슷한 것을 사용하여 움직임을 물리학의 영역으로 옮겨야 함

 

 신경망은 입력-출력 관계

하지만 아주 특별한 종류의 입출력 관계임

입력에 숫자 목록이 있고, 그런 다음 연산을 거쳐 출력에 숫자 목록이 나옴

하지만.. 신경망에는 '매개변수'라는 것이 있음!!

이 매개변수는 본질적으로 네트워크의 화살표이며, 어떤 숫자를 다른 숫자와 곱함

이러한 매개변수를 변경하면 신경망이 수행하는 실제 작업이 변경됨

이것이 특별한 이유는 신경망은 어떠한 입력-출력 관계든지 될 수 있기 때문임

(올바른 매개변수, 올바른 화살표를 찾기만 한다면..)

 

강화 학습 (Reinforcement Learing)

강화 학습이란 우리가 이러한 매개변수를 계산할 수 있게 해주는 분야

이것은 무의미한 신경망 상자를 유용한 컨트롤러, 즉 두뇌로 변환시켜줌

 

기억해야 할 것 3가지

첫째, 의사 결정 정책 또는 두뇌를 신경망으로 매개변수화한다는 것

둘째, 두뇌를 훈련시키기 위한 미래의 보상의 가치를 추정할 수 있는 또 다른 네트워크인 가치망이 필요하다는 것

셋째, 우리가 선택한 알고리즘인 소프트 행위자-비평자(soft actor - critic) 알고리즘, 즉 SAC로 두 네트워크가 상호작용하도록 만든다

 

 

728x90
반응형