사용하지않는공간/Python

[ML-Agent] 기타 공부했던 내용들

반나무 2020. 8. 3. 21:09

AI 인공지능 : 사물을 이해 하고 판단

머신러닝 : 기기가 학습한다(알고리즘) -> 사용자지시

딥러닝 : 사물의 특징을 기기가 학습 -> 스스로 알아서

 

 

머신러닝

지도학습 : 데이터가 어떤것인지 알려주고 데이터를 학습

비지도학습 : 데이터만 주고 스스로 어떤것인지 인지하게끔 함

강화학습 : 반복적으로 똑같은 상황에 주어져, 어떠한 결과를 낼 지 학습 함 Q-Learning

 

자율학습의 분류

0~100사이의 결과 : 회귀분석

Pass / NonPass : 이진분류

A,B,C,D : 다중분류

 

강화학습 

Actor : 행동하는자

Environment : 환경

 

Actor는 환경에서 행동을 하고 관측을 통해 판단해 적절한 보상과 처벌을 받는다. 

 


FrozenLake Game

 

State ->     Q를 반환받는다.

Action -> 

 

Q(s1, Left)

Q(s1, Right)

Q(s1, Up)

Q(s1, Down)

 

최대로 얻을 수 있는 보상 값 MAX = maxQ(s1,a)

최대 보상값인자 argMAX =argmaxQ(s1,a)

 

Q가 이미 있다고 가정했을때

1. 나는 현재 S라는 상태에있다.

2. 내가 a라는 액션을 한다면 S`라는 상태로 갈 것이다.

3. 내가 a라는 액션을 한다면 R이라는 보상을 받는다.

4. 그렇다면 미래에 Q(S`,a)라는 것이 있을것이다.

5. 내가 필요한 Q는? Q(S,a)


Q(S,a) = R + MaxQ(S`,a`)

R : 미래보상

MaxQ : 미래최대보상

 

끝에서 부터 찾아 맵핑하는 방식을 사용한다.

 

 

 

반응형