본문 바로가기

데이터분석

Jamovi Data Variable

자모비에서 Measure type은 데이터의 특성을 나타냄

Nominal, Ordinal, Continuous, ID 네 가지 타입 존재

  1. Nominal (명목형)
    • 정의) 값들이 서로 다른 범주를 나타내지만, 순서나 서열이 없는 데이터 타입
    • 특징)
      • 범주 간의 크기 비교가 불가능
      • 사칙연산이 의미가 없음
      • 보통,,, 빈도 분석, 비율 계산 등에 사용됨
    • 예시)
      • 우편번호, 성별(남성, 여성), 색상(빨강, 주황, 노랑 등등), 국가(한국, 미국, 영국 등등), 종교(불교, 기독교, 천주교 등등)
    • 범주의 빈도나 비율을 비교하는데 사용되는 변수들, 보통 막대그래프, 파이 차트 등으로 시각화 하기 좋음
  2. Ordinal (순서형)
    • 정의) 범주 사이에 순서 또는 서열이 있는 데이터 타입, 하지만 범주 간의 차이가 일정하거나 측정 가능하지 않음
    • 특징)
      • 범주 간의 순서 비교는 가능, but 차이의 정도를 수치화할 수 없음
      • 즉, 사칙연산은 의미가 없음
      • 중앙값, 최빈값 등을 사용하여 분석
    • 예시)
      • 학점(A+, A, B+, B, C+, C, F)
      • 만족도(매우 만족, 만족, 보통, 불만족, 매우 불만족)
      • 교육 수준(초등학교, 중학교, 고등학교, 대학교)
      • 선호도 순위
      • 소득수준(상, 중, 하)
  3. Continuous (연속형)
    • 값들이 연속적인 척도를 가지며, 범주 사이의 차이가 의미 있는 데이터 타입
    • 특징)
      • 범주 간의 차이를 수치화 할 수 있음
      • 사칙연산이 의미가 있음
      • 평균, 표준편차, 분산 등 다양한 통계량 사용 가능
    • 예시)
      • 키, 몸무게, 나이, 온도, 길이, 가격, 소득
    • 보통 히스토그램, 산점도, 박스 플롯, 라인 차트 등으로 시각화, 데이터의 분포, 추세, 상관관계 등 분석
  4. ID (식별자)
    • 정의) 각각의 관측치를 고유하게 식별하는데 사용되는 데이터 타입
    • 특징)
      • 순서나 크기 비교가 의미 없음
      • 사칙 연산이 의미가 없음
      • 보통 DB(데이터베이스)에서 각 행을 구분하는데 사용됨
    • 예시)
      • 주민등록번호, 학번, 제품ID, 거래 ID
    • 주로 데이터 필터링이나 그룹화에 사용, 시각화에서는 보통 x축에 사용되어 개별 데이터 포인트를 구분하는데 활용


Data type은 Integer(정수), Decimal(실수), Text

 

탐색(Exploration)

평균비교(T-test)

분산분석(ANOVA)

회귀분석(Regression)

빈도분석(Frequencies)

요인분석(Factor)

 

 

 

탐색(Exploration)

Statistics

  • Central Tendency
    • Mode(최빈값)
  • Distribution
    • 왜도(Skewness)
      • 왜도 = 0 : 완벽한 대칭 분포
      • 왜도 > 0 : 오른쪽으로 긴 꼬리 (positive skew)
      • 왜도 < 0 : 왼쪽으로 긴 꼬리(negative skew)
        • 왜도가 큰 경우, 평균은 꼬리가 긴 쪽으로 치우치게 되어 데이터의 중심 경향성을 잘 반영하지 못할 수 있음
        • 따라서 중앙값이나 최빈값을 사용하는 것이 더 적절할 수 있음
        • 왜도가 큰 데이터는 정규성을 가정하는 통계 검정을 적용하기 어렵기에 비모수적 검정으로 수행해야함.
        • 데이터 변환(로그 변환, 제곱근 변환 등)을 통해 왜도를 줄이는 방법도 존재
    • 첨도(Kurtosis)
      • 첨도 = 0 : 정규분포와 유사한 뾰족함
      • 첨도 < 0 : 정규분포보다 뾰족(leptokurtic) - 꼬리가 두껍고 중심에 데이터 집중
      • 첨도 > 0 : 정규분포보다 평평(platykurtic) - 꼬리가 얇고 데이터가 고르게 분포
        • 첨도가 큰 경우, 이상치에 민감한 통계량(예: 평균, 표준편차)은 영향을 많이 받을 수 있음.
        • 따라서 중앙값, IQR(사분위 범위) 등 이상치에 덜 민감한 통계량을 사용하는 것 추천
        • 첨도가 큰 데이터는 정규성 가정을 만족하지 못할 수 있으므로, 비모수적 검정으로 수행
    • 왜도와 첨도 값이 0에서 크게 벗어나면 데이터가 정규 분포를 따르지 않는다는것을 의미
      • Shaprio-Wilk 검정과 같은 정규성 검정을 통해 정규 분포 여부 확인
    • 데이터가 정규 분포를 따르지 않는 경우, t-검정과 같은 모수 검정 대신 비모수적 검정(Mann-Whitney U 검정, Wilcoxon 부호 순위 검정)
    • 또는 데이터 변환(로그 변환, 제곱근 변환, Box-Cox 변환)
    • 일반적으로 왜도와 첨도의 절대값이 2를 초과하면 상당한 왜도or첨도, 1을 초과하면 약간의 왜도or첨도
      • 하지만 표본 크기가 작을수록 왜도와 첨도의 값의 변동성이 커짐 -> 왜도 및 첨도 값이 크더라도 정규 분포에서 유의미하게 벗어났다고 단정짓기 어려움
  • Dispersion
    • IQR
      • 데이터의 75번째 백분위수(3사분위수)에서 25번째 백분위수(1사분위수)를 뺀 값
      • 데이터의 중간 50%가 얼마나 퍼져 있는지를 나타냄(이상치에 덜 민감하다는 장점)
  • Normality
    • Shapiro-Wilk
      • 데이터가 정규분포를 따르는지 검정하는 통계적 검정 방법
      • p-value가 0.05보다 작으면 정규분포를 따르지 않는다고 판단(일반적으로 표본 크기가 작을 때 (대략 3~50개) 유용)
  • Mean Dispersion
    • Std. error of Mean(평균의 표준 오차)
      • 표본 평균의 분포가 얼마나 퍼져 있는지를 나타내는 지표
      • 표본 크기가 클수록 표준 오차는 작아짐. 모집단 표준편차를 알 수 없을 때, 표본 표준편차를 사용하여 추정
    • Confidence interval for Mean(평균의 신뢰 구간)
      • 모집단 평균이 포함될 것으로 예상되는 범위를 나타냄
      • 일반적으로 95% 신뢰 구간을 사용하며, 이는 100번의 표본 추출 중 95번은 해당 구간 안에 모집단 평균이 포함될 것이라는 의미
  • Outliers
    • Most extreme
      • 데이터에서 가장 크거나 작은 값들을 표시함.

 

Plot

 

  • Histogram: 연속형 변수의 분포 확인. 데이터 범위를 구간(bin)으로 나누고, 각 구간 데이터 개수를 막대로 표현.
    • Density: 연속형 변수의 분포 확인. 부드러운 곡선으로 분포 표현. 확률 밀도 함수 시각화.
  • Box plot: 데이터의 중앙값, 사분위수, 이상치 표현. 여러 그룹 비교에 유용.
    • Label outliers 기능으로 이상치 표시.
    • Violin: Box plot 이랑 Density Plot 분포 형태를 합쳐서 표현.
    • Data
      • (Jittered): 데이터 포인트를 흩어지게 표현하여 겹침 방지.
      • (Stacked): 데이터 포인트를 쌓아서 표현. 범주형 변수와 함께 사용하여 각 범주 데이터 개수 표현.
    • Mean: 데이터의 평균값 표시.
  • Bar plot: 범주형 변수의 각 범주 데이터 개수 또는 비율을 막대로 표현.
  • Q-Q: 데이터가 특정 분포(예: 정규 분포)를 따르는지 확인. 데이터 분위수와 이론적 분포 분위수 비교.(즉 numeric 데이터만)

    https://www.kaggle.com/code/tanmay111999/heart-failure-prediction-cv-score-90-5-models

 

 

Heart Failure Prediction:CV Score(90%+)| 5 Models

Explore and run machine learning code with Kaggle Notebooks | Using data from Heart Failure Prediction Dataset

www.kaggle.com

 

Heart_Failure_Prediction_Dataset.csv
0.03MB

 

각각의 Measure type 과 Data type 은?

연령 : 환자의 연령 [년]


성별 : 환자의 성별 [M: 남성, F: 여성]


흉통 유형 : 흉통 유형 [TA: 전형적인 협심증, ATA: 비정형 협심증, NAP: 비각성 통증, ASY: 무증상]


휴식 혈압 : 휴식 혈압 [mmHg]


콜레스테롤 : 혈청 콜레스테롤 [mm/dl]


공복 혈당 : [1: 공복 혈당 > 120 mg/dl, 0: 그렇지 않은 경우]


휴식 심전도 결과 : [정상: 정상, ST: ST-T파 이상(T파 역전 및/또는 ST 상승 또는 0.05mV 이상), LVH: 에스테스 기준에 의한 좌심실 비대 가능성 또는 확실성을 보임]


MaxHR : 최대 심박수 달성 [60에서 202 사이의 숫자 값]


운동 협심증 : 운동 유발 협심증 [Y: 예, N: 아니요]


올드 피크 : 올드 피크 = ST [우울증에서 측정된 수치]


ST_Slope : 피크 운동 ST 세그먼트의 기울기 [업: 업슬립, 플랫: 플랫, 다운: 다운슬립]


심장 질환 : 출력 클래스 [1: 심장 질환, 0: 정상]