자모비에서 Measure type은 데이터의 특성을 나타냄
Nominal, Ordinal, Continuous, ID 네 가지 타입 존재
- Nominal (명목형)
- 정의) 값들이 서로 다른 범주를 나타내지만, 순서나 서열이 없는 데이터 타입
- 특징)
- 범주 간의 크기 비교가 불가능
- 사칙연산이 의미가 없음
- 보통,,, 빈도 분석, 비율 계산 등에 사용됨
- 예시)
- 우편번호, 성별(남성, 여성), 색상(빨강, 주황, 노랑 등등), 국가(한국, 미국, 영국 등등), 종교(불교, 기독교, 천주교 등등)
- 범주의 빈도나 비율을 비교하는데 사용되는 변수들, 보통 막대그래프, 파이 차트 등으로 시각화 하기 좋음
- Ordinal (순서형)
- 정의) 범주 사이에 순서 또는 서열이 있는 데이터 타입, 하지만 범주 간의 차이가 일정하거나 측정 가능하지 않음
- 특징)
- 범주 간의 순서 비교는 가능, but 차이의 정도를 수치화할 수 없음
- 즉, 사칙연산은 의미가 없음
- 중앙값, 최빈값 등을 사용하여 분석
- 예시)
- 학점(A+, A, B+, B, C+, C, F)
- 만족도(매우 만족, 만족, 보통, 불만족, 매우 불만족)
- 교육 수준(초등학교, 중학교, 고등학교, 대학교)
- 선호도 순위
- 소득수준(상, 중, 하)
- Continuous (연속형)
- 값들이 연속적인 척도를 가지며, 범주 사이의 차이가 의미 있는 데이터 타입
- 특징)
- 범주 간의 차이를 수치화 할 수 있음
- 사칙연산이 의미가 있음
- 평균, 표준편차, 분산 등 다양한 통계량 사용 가능
- 예시)
- 키, 몸무게, 나이, 온도, 길이, 가격, 소득
- 보통 히스토그램, 산점도, 박스 플롯, 라인 차트 등으로 시각화, 데이터의 분포, 추세, 상관관계 등 분석
- ID (식별자)
- 정의) 각각의 관측치를 고유하게 식별하는데 사용되는 데이터 타입
- 특징)
- 순서나 크기 비교가 의미 없음
- 사칙 연산이 의미가 없음
- 보통 DB(데이터베이스)에서 각 행을 구분하는데 사용됨
- 예시)
- 주민등록번호, 학번, 제품ID, 거래 ID
- 주로 데이터 필터링이나 그룹화에 사용, 시각화에서는 보통 x축에 사용되어 개별 데이터 포인트를 구분하는데 활용
Data type은 Integer(정수), Decimal(실수), Text
탐색(Exploration)
평균비교(T-test)
분산분석(ANOVA)
회귀분석(Regression)
빈도분석(Frequencies)
요인분석(Factor)
탐색(Exploration)
Statistics
- Central Tendency
- Mode(최빈값)
- Distribution
- 왜도(Skewness)
- 왜도 = 0 : 완벽한 대칭 분포
- 왜도 > 0 : 오른쪽으로 긴 꼬리 (positive skew)
- 왜도 < 0 : 왼쪽으로 긴 꼬리(negative skew)
- 왜도가 큰 경우, 평균은 꼬리가 긴 쪽으로 치우치게 되어 데이터의 중심 경향성을 잘 반영하지 못할 수 있음
- 따라서 중앙값이나 최빈값을 사용하는 것이 더 적절할 수 있음
- 왜도가 큰 데이터는 정규성을 가정하는 통계 검정을 적용하기 어렵기에 비모수적 검정으로 수행해야함.
- 데이터 변환(로그 변환, 제곱근 변환 등)을 통해 왜도를 줄이는 방법도 존재
- 첨도(Kurtosis)
- 첨도 = 0 : 정규분포와 유사한 뾰족함
- 첨도 < 0 : 정규분포보다 뾰족(leptokurtic) - 꼬리가 두껍고 중심에 데이터 집중
- 첨도 > 0 : 정규분포보다 평평(platykurtic) - 꼬리가 얇고 데이터가 고르게 분포
- 첨도가 큰 경우, 이상치에 민감한 통계량(예: 평균, 표준편차)은 영향을 많이 받을 수 있음.
- 따라서 중앙값, IQR(사분위 범위) 등 이상치에 덜 민감한 통계량을 사용하는 것 추천
- 첨도가 큰 데이터는 정규성 가정을 만족하지 못할 수 있으므로, 비모수적 검정으로 수행
- 왜도와 첨도 값이 0에서 크게 벗어나면 데이터가 정규 분포를 따르지 않는다는것을 의미
- Shaprio-Wilk 검정과 같은 정규성 검정을 통해 정규 분포 여부 확인
- 데이터가 정규 분포를 따르지 않는 경우, t-검정과 같은 모수 검정 대신 비모수적 검정(Mann-Whitney U 검정, Wilcoxon 부호 순위 검정)
- 또는 데이터 변환(로그 변환, 제곱근 변환, Box-Cox 변환)
- 일반적으로 왜도와 첨도의 절대값이 2를 초과하면 상당한 왜도or첨도, 1을 초과하면 약간의 왜도or첨도
- 하지만 표본 크기가 작을수록 왜도와 첨도의 값의 변동성이 커짐 -> 왜도 및 첨도 값이 크더라도 정규 분포에서 유의미하게 벗어났다고 단정짓기 어려움
- 왜도(Skewness)
- Dispersion
- IQR
- 데이터의 75번째 백분위수(3사분위수)에서 25번째 백분위수(1사분위수)를 뺀 값
- 데이터의 중간 50%가 얼마나 퍼져 있는지를 나타냄(이상치에 덜 민감하다는 장점)
- IQR
- Normality
- Shapiro-Wilk
- 데이터가 정규분포를 따르는지 검정하는 통계적 검정 방법
- p-value가 0.05보다 작으면 정규분포를 따르지 않는다고 판단(일반적으로 표본 크기가 작을 때 (대략 3~50개) 유용)
- Shapiro-Wilk
- Mean Dispersion
- Std. error of Mean(평균의 표준 오차)
- 표본 평균의 분포가 얼마나 퍼져 있는지를 나타내는 지표
- 표본 크기가 클수록 표준 오차는 작아짐. 모집단 표준편차를 알 수 없을 때, 표본 표준편차를 사용하여 추정
- Confidence interval for Mean(평균의 신뢰 구간)
- 모집단 평균이 포함될 것으로 예상되는 범위를 나타냄
- 일반적으로 95% 신뢰 구간을 사용하며, 이는 100번의 표본 추출 중 95번은 해당 구간 안에 모집단 평균이 포함될 것이라는 의미
- Std. error of Mean(평균의 표준 오차)
- Outliers
- Most extreme
- 데이터에서 가장 크거나 작은 값들을 표시함.
- Most extreme
Plot
- Histogram: 연속형 변수의 분포 확인. 데이터 범위를 구간(bin)으로 나누고, 각 구간 데이터 개수를 막대로 표현.
- Density: 연속형 변수의 분포 확인. 부드러운 곡선으로 분포 표현. 확률 밀도 함수 시각화.
- Box plot: 데이터의 중앙값, 사분위수, 이상치 표현. 여러 그룹 비교에 유용.
- Label outliers 기능으로 이상치 표시.
- Violin: Box plot 이랑 Density Plot 분포 형태를 합쳐서 표현.
- Data
- (Jittered): 데이터 포인트를 흩어지게 표현하여 겹침 방지.
- (Stacked): 데이터 포인트를 쌓아서 표현. 범주형 변수와 함께 사용하여 각 범주 데이터 개수 표현.
- Mean: 데이터의 평균값 표시.
- Bar plot: 범주형 변수의 각 범주 데이터 개수 또는 비율을 막대로 표현.
- Q-Q: 데이터가 특정 분포(예: 정규 분포)를 따르는지 확인. 데이터 분위수와 이론적 분포 분위수 비교.(즉 numeric 데이터만)
https://www.kaggle.com/code/tanmay111999/heart-failure-prediction-cv-score-90-5-models
Heart Failure Prediction:CV Score(90%+)| 5 Models
Explore and run machine learning code with Kaggle Notebooks | Using data from Heart Failure Prediction Dataset
www.kaggle.com
각각의 Measure type 과 Data type 은?
연령 : 환자의 연령 [년]
성별 : 환자의 성별 [M: 남성, F: 여성]
흉통 유형 : 흉통 유형 [TA: 전형적인 협심증, ATA: 비정형 협심증, NAP: 비각성 통증, ASY: 무증상]
휴식 혈압 : 휴식 혈압 [mmHg]
콜레스테롤 : 혈청 콜레스테롤 [mm/dl]
공복 혈당 : [1: 공복 혈당 > 120 mg/dl, 0: 그렇지 않은 경우]
휴식 심전도 결과 : [정상: 정상, ST: ST-T파 이상(T파 역전 및/또는 ST 상승 또는 0.05mV 이상), LVH: 에스테스 기준에 의한 좌심실 비대 가능성 또는 확실성을 보임]
MaxHR : 최대 심박수 달성 [60에서 202 사이의 숫자 값]
운동 협심증 : 운동 유발 협심증 [Y: 예, N: 아니요]
올드 피크 : 올드 피크 = ST [우울증에서 측정된 수치]
ST_Slope : 피크 운동 ST 세그먼트의 기울기 [업: 업슬립, 플랫: 플랫, 다운: 다운슬립]
심장 질환 : 출력 클래스 [1: 심장 질환, 0: 정상]