SO(2) Equivariance RL 구현

idea

RL 은 한 episode에 대해 horizon 내의 time step 마다 action을 하고 reward 를 받아 summation 하게 되는데, 이미 했던 행동 중 낮은 reward를 가진 것은 학습할 때 제외를 시키기 ?