사이킷런은 특성을 만들거나 전처리하기 위한 다양한 클래스를 제공한다. 사이킷런에서는 이런 클래스를 변환기(transformer)라고 부른다. transformer 클래스 안에는 fit(), transform() 메서드가 제공된다. fit() : 새롭게 만들 특성 조합을 찾는다. transform() : 실제로 데이터를 변환한다. PolynomialFeatures 클래스는 기본적으로 각 특성을 제곱한 항을 추가하고 특성끼리 서로 곱한 항을 추가한다.
Bigdata -> GoodData 모델 중심관점에서 데이터 중심관점으로 넘어가야한다. 모델 중심관점 : 알고리즘과 코드를 수정하며 score확인 데이터 중심관점 : 데이터의 크기와 일관성을 수정하며 score확인 데이터의 크기가 더 작을 수록 데이터의 일관성은 더욱 중요해진다. 데이터의 크기가 커지면 어느정도 커버가 가능하다. 500개의 데이터가 있을때 12%의 노이즈를 수정하는것이 500장의 새사진을 찍는것보다 효율적이였다. 코드 (모델/알고리즘)보다 데이터가 중요하다 데이터의 양만큼이나 질도 중요하다 데이터 레이블링의 일관성이 중요하다 사람은 데이터 테이블링에 일관성이 많이 부족하다. 그래서 데이터를 관리하는 MLOps가 부상된다 MLOps툴의 혁신이 필요하다. MLOps란? ML시스템 MLOps는..
변수의 종류 연속형 Continuous : 온도처럼 측정한다. 이산형 Dsicrete : 몇개를 팔았는지 갯수를 센다 범주형 Categorical : 어디서? 해변, 공원 모집단과 표본 모집단 (XN), 파퓰레이션: 1년동안 판매된 레몬에이드 표본 (xn), 샘플 : ========= 기술(서술하다)통계학 중심경향성 [central tendency] 계량형 데이터에 있어 분포의 중앙에 집락되는 경향을 말하며, 이때 중앙값으로는 평균, 중앙값, 최빈값 등이 쓰임 평균 : 중앙값 : 값들중에서 가장 가운데 인덱스, 데이터가 정렬이 되어있어야함 최빈값 : 그래프에서 가장 빈번하게 나타나는 수 u같이생긴거 뮤라고 읽고 모집단의 평균 _ x 같이생긴거 x바 라고 읽고 표본의 평균 E처럼 생긴거 시그마라고 읽고 =..
회귀 알고리즘 : 어떤 특정한 숫자 값을 예측하는 문제. y = ax + b y : 종속 변수 x : 독립 변수 a : x의 기울기 b : x의 절편 x에 의해 y가 변함 Regression Ordinal Regression : 데이터 내 상대적 순서나 랭킹 예측 ex) 강연 참석자의 선호도, URL즐겨 찾기 순서 Poisson Regression : 어떤 이벤트가 발생할 횟수 예측, 이산분포를 따르며 음의 정수값, 실수값 안됨 ex) 비행기 탑승에 따른 병원 방문 횟수 Fast Forest Quantile Regression : 값의 분산/분포 예측 ex) 성적 예측을 통한 학생들의 발달 단계 평가 Linear Regression : 일반적인 선형 회귀 Bayesian Linear Regression ..