컴퓨터공학4학년/인공지능

[Ai강의] 모델 중심관점에서 데이터 중심관점으로.

반나무 2021. 4. 16. 09:54

Bigdata -> GoodData

모델 중심관점에서 데이터 중심관점으로 넘어가야한다.

모델 중심관점 : 알고리즘과 코드를 수정하며 score확인

데이터 중심관점 : 데이터의 크기와 일관성을 수정하며 score확인

 

데이터의 크기가 더 작을 수록 데이터의 일관성은 더욱 중요해진다.

데이터의 크기가 커지면 어느정도 커버가 가능하다.

 

500개의 데이터가 있을때 12%의 노이즈를 수정하는것이 500장의 새사진을 찍는것보다 효율적이였다.

 

  1. 코드 (모델/알고리즘)보다 데이터가 중요하다
  2. 데이터의 양만큼이나 질도 중요하다
  3. 데이터 레이블링의 일관성이 중요하다
  4. 사람은 데이터 테이블링에 일관성이 많이 부족하다.
  5. 그래서 데이터를 관리하는 MLOps가 부상된다
  6. MLOps툴의 혁신이 필요하다.

MLOps란? ML시스템

MLOps는 ML 시스템 개발(Dev)과 ML 시스템 운영(Ops)을 통합하는 것을 목표로 하는 ML 엔지니어링 문화 및 방식입니다.

MLOps을 수행하면 통합, 테스트, 출시, 배포, 인프라 관리를 비롯하여 ML 시스템 구성의 모든 단계에서 자동화 및 모니터링을 지원할 수 있습니다.

 

일반적인 DevOps는 대규모 SW의 개발 주기 단축, 배포 속도 증가, 안정적인 출시 등의 이점을 제공한다.

이러한 이점을 누리려면 소프트웨어 시스템 개발에 다음의 두 가지 개념을 도입한다.

  • 지속적 통합(CI)
  • 지속적 배포(CD)

MLOps는 유사한 방식이지만 다른 방식이 적용된다.

  • CI는 더이상 코드 및 구성 요소만 테스트하고 검증하는 것이 아니라 데이터, 데이터 스키마, 모델도 테스트 하고 검증한다.
  • CD는 더이상 단일 SW패키지 또는 서비스만이 아니라 다른 서비스(모델 예측 서비스)를 자동으로 배포해야 하는 시스템(ML 학습 파이프라인)이다.
  • CT는 MLOps에 고유한 새 속성으로, 모델을 자동으로 재 학습 시키고 제공하는 데 사용한다.

ML에서의 데이터 과학 단계

  1. 데이터 추출
  2. 데이터 분석
  3. 데이터 준비
  4. 모델 학습
  5. 모델 평가
  6. 모델 검증
  7. 모델 제공
  8. 모델 모니터링

참고문헌

강좌요약 : www.youtube.com/watch?v=20PlFERKCyo&t=3s

MLOps에대한 설명 : cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning?hl=ko

 

반응형