추가 활동/DeepRacer

220121 AWS Deepracer

import ysy 2022. 1. 21. 15:09

1. shortcut vs basic

shortcut eval result
shortcut reward graph
basic eval result
basic reward graph

확실히 공을 드린 보람이 있게도, 2019 track에 대해 eval 결과는 basic이 우수했다. 

주관적이긴 하지만 학습 영상을 봐도 조금 더 똑똑하게 주행하려는 모습을 보였다.

shortcut의 경우 training과 evaluation모두 2019 track을 사용했는데도 너무 완주율이 안나왔다. 

 

다만 그래프는 shortcut이 너무 예쁘게 나와서 우선은 둘 다 clone하여 더 지켜보기로 했다.

 

2. clone하기

둘 다 같은 2019 track에 60분씩 학습했다.

clone한 모델은 모델 이름에 002를 붙여 표시했다. 

이 때 hyper prameter에 조금씩 수정이 들어갔다.

기본 hyper parameter
shortcut002

shortcut model의 경우 학습이 약간의 fluctiation이 있긴 했지만 꾸준한 학습그래프를 그리는 것이 장점이었다.

이에 모델의 학습이 안정적이라고 판단하여 learning rate는 변경하지 않고 학습속도를 과감하게(?) 유지했다.

그리고 모델이 주행의 감을 어느 정도 잡은 것 같아서 entropy를 0.03에서 0.02로 낮추었다.

basic002

basic model의 경우 같은 이유로 entropy를 0.02로 설정하고 

reward graph가 들쭉날쭉하며 불안정하기도 했고 어느 정도 완주율이 나온다는 점에서 learning rate를 소심하게 0.0005에서 0.0004로 소폭 낮추었다. 

 

3. clone결과

shortcut 002 eval result
shortcut 002 reward graph

shortcut 을 버리는 것이 좋을 것 같다.

두 시간을 꼬박 학습하고도 완주율 90%를 넘는 것이 없다니.

basic model만 남겨야겠다.

반응형