AI 인공지능 : 사물을 이해 하고 판단
머신러닝 : 기기가 학습한다(알고리즘) -> 사용자지시
딥러닝 : 사물의 특징을 기기가 학습 -> 스스로 알아서
머신러닝
지도학습 : 데이터가 어떤것인지 알려주고 데이터를 학습
비지도학습 : 데이터만 주고 스스로 어떤것인지 인지하게끔 함
강화학습 : 반복적으로 똑같은 상황에 주어져, 어떠한 결과를 낼 지 학습 함 Q-Learning
자율학습의 분류
0~100사이의 결과 : 회귀분석
Pass / NonPass : 이진분류
A,B,C,D : 다중분류
강화학습
Actor : 행동하는자
Environment : 환경
Actor는 환경에서 행동을 하고 관측을 통해 판단해 적절한 보상과 처벌을 받는다.
FrozenLake Game
State -> Q를 반환받는다.
Action ->
Q(s1, Left)
Q(s1, Right)
Q(s1, Up)
Q(s1, Down)
최대로 얻을 수 있는 보상 값 MAX = maxQ(s1,a)
최대 보상값인자 argMAX =argmaxQ(s1,a)
Q가 이미 있다고 가정했을때
1. 나는 현재 S라는 상태에있다.
2. 내가 a라는 액션을 한다면 S`라는 상태로 갈 것이다.
3. 내가 a라는 액션을 한다면 R이라는 보상을 받는다.
4. 그렇다면 미래에 Q(S`,a)라는 것이 있을것이다.
5. 내가 필요한 Q는? Q(S,a)
Q(S,a) = R + MaxQ(S`,a`)
R : 미래보상
MaxQ : 미래최대보상
끝에서 부터 찾아 맵핑하는 방식을 사용한다.
'사용하지않는공간 > Python' 카테고리의 다른 글
[Python] 다양한 파이썬 예제들( print, list ) (0) | 2020.08.04 |
---|---|
[ML-Agent] 아나콘다3 설치 후 환경관리 코드 (0) | 2020.08.03 |
[Python] 자동 판매기 프로그램 (0) | 2020.08.03 |
[Python] 화씨 온도 변환프로그램 (0) | 2020.08.02 |
[Python] Anaconda3 설치해서 쥬피터노트북으로 파이썬 사용하기 (0) | 2020.08.02 |
3년차 WPF 개발자입니다.
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!