컴퓨터공학4학년/인공지능2021. 4. 19. 16:51[Ai] 사이킷런의 변환기(transformer)

사이킷런은 특성을 만들거나 전처리하기 위한 다양한 클래스를 제공한다. 사이킷런에서는 이런 클래스를 변환기(transformer)라고 부른다. transformer 클래스 안에는 fit(), transform() 메서드가 제공된다. fit() : 새롭게 만들 특성 조합을 찾는다. transform() : 실제로 데이터를 변환한다. PolynomialFeatures 클래스는 기본적으로 각 특성을 제곱한 항을 추가하고 특성끼리 서로 곱한 항을 추가한다.

컴퓨터공학4학년/인공지능2021. 4. 16. 09:54[Ai강의] 모델 중심관점에서 데이터 중심관점으로.

Bigdata -> GoodData 모델 중심관점에서 데이터 중심관점으로 넘어가야한다. 모델 중심관점 : 알고리즘과 코드를 수정하며 score확인 데이터 중심관점 : 데이터의 크기와 일관성을 수정하며 score확인 데이터의 크기가 더 작을 수록 데이터의 일관성은 더욱 중요해진다. 데이터의 크기가 커지면 어느정도 커버가 가능하다. 500개의 데이터가 있을때 12%의 노이즈를 수정하는것이 500장의 새사진을 찍는것보다 효율적이였다. 코드 (모델/알고리즘)보다 데이터가 중요하다 데이터의 양만큼이나 질도 중요하다 데이터 레이블링의 일관성이 중요하다 사람은 데이터 테이블링에 일관성이 많이 부족하다. 그래서 데이터를 관리하는 MLOps가 부상된다 MLOps툴의 혁신이 필요하다. MLOps란? ML시스템 MLOps는..

컴퓨터공학4학년/인공지능2020. 11. 19. 11:18[AI] 통계 용어 정리

변수의 종류 연속형 Continuous : 온도처럼 측정한다. 이산형 Dsicrete : 몇개를 팔았는지 갯수를 센다 범주형 Categorical : 어디서? 해변, 공원 모집단과 표본 모집단 (XN), 파퓰레이션: 1년동안 판매된 레몬에이드 표본 (xn), 샘플 : ========= 기술(서술하다)통계학 중심경향성 [central tendency] 계량형 데이터에 있어 분포의 중앙에 집락되는 경향을 말하며, 이때 중앙값으로는 평균, 중앙값, 최빈값 등이 쓰임 평균 : 중앙값 : 값들중에서 가장 가운데 인덱스, 데이터가 정렬이 되어있어야함 최빈값 : 그래프에서 가장 빈번하게 나타나는 수 u같이생긴거 뮤라고 읽고 모집단의 평균 _ x 같이생긴거 x바 라고 읽고 표본의 평균 E처럼 생긴거 시그마라고 읽고 =..

컴퓨터공학4학년/인공지능2020. 11. 3. 11:50[AI, 머신러닝] Regression 회귀 알고리즘

회귀 알고리즘 : 어떤 특정한 숫자 값을 예측하는 문제. y = ax + b y : 종속 변수 x : 독립 변수 a : x의 기울기 b : x의 절편 x에 의해 y가 변함 Regression Ordinal Regression : 데이터 내 상대적 순서나 랭킹 예측 ex) 강연 참석자의 선호도, URL즐겨 찾기 순서 Poisson Regression : 어떤 이벤트가 발생할 횟수 예측, 이산분포를 따르며 음의 정수값, 실수값 안됨 ex) 비행기 탑승에 따른 병원 방문 횟수 Fast Forest Quantile Regression : 값의 분산/분포 예측 ex) 성적 예측을 통한 학생들의 발달 단계 평가 Linear Regression : 일반적인 선형 회귀 Bayesian Linear Regression ..

image