728x90
제32 회 시험 복원
- 유의수준
- 가설검정 용어
- 귀무가설이 옳은데도 이를 기각하는 확률의 크기
- 리스트
- R에서 데이터 타입이 같지 않은 객체들을 하나의 객체로 묶어놓을 수 있는 자료구조
- 잡음
- 무작위적인 변동
- 원인 알려져있지 x
- (중요) 연관분석
- 카탈로그 배열, 교타판매 등의 마케팅 계획 시 적절한 데이터 마이닝 기법
- 고객과 '연관'된 데이터 분석이 중요하다고 암기
- 혼합 분포 군집
- 모형기반 군집방법
- 모수와 함께 가중치를 자료로부터 추정하는 방법으로 사용
- 카이제곱 검정
- 모수적 검정방법
- cf) 비모수적 검정방법 : 맨-휘트니 U검정, 런 검정, 윌콕슨의 순위합 검정
- 유사도 측도
- 유클리드거리
- 두 점을 잇는 가장 짧은 직선거리
- 공통으로 저수를 매긴 항목의 거리를 통해 판단하는 측도
- 맨하탄 거리
- 각 방향 직각의 이동거리 합으로 계산
- 표준화 거리
- 각 변수를 해당 변수의 표준편차로 변환 --> 유클리드 거리를 계산한 거리
- 왜곡을 피할 수 O
- 유클리드거리
- 군집분석
- 데이터 마이닝 기능 中 1
- 정의 = 이질적인 모집단을 세분화하는 기능
- 비지도학습법에 해당 ==> 종속변수 정의 없이 학습 가능 O
- 거리 측정 방법
- 연속형 변수 = 유클리드, 표준화, 마할라노비스, 체비셔프, 맨하탄, 캔버라 민코우스키
- 범주형 변수 = 자카드
- 계층적 군집분석
- 최단 연결, 최장 연결, 평균 연결, 와드 연결 (정보의 손실 최소화)
- 비계층적 군집분석
- k 평균
- k-medoids clustering
- 혼합 분포 군집
- 모형 기반
- EM 알고리즘
- 확률분포 도입
- 군집 크기가 너무 작으면 추정의 정도가 떨어지거나 어려움
- 사전 조치 필요
- cf) 연관분석 : 상품의 구매, 서비스 등 이련의 거래/사건들 간의 규칙을 발견하기 위한 분석
- 장바구니 분석(장바구니에 뭐가 같이 들어있는지 분석), 순차분석(구매이력 분석)
- 형태 : if - then (조건&반응)
- 측도
- 지지도(A-B 동시에 포함하는 비율)
- 신뢰도(A-B 같이 포함될 확률)
- 향상도(A가 주어졌을 때의 품목 B의 확률의 증가 비율)
- 비표본오차
- 표본오차를 제외한 모든 오차
- 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미
- 조사 대상이 증가하면 오차 커짐
- cf) 표본오차
- 조사대상으로 추출되지 못함으로서 발 생하는 오차
- cf) 표본편의
- 표본추출방법에서 기인하는 오차 -- ex) 모수를 작게/크게 할 때 추정
- 확률화로 최소화하거나 없앨 수 O
- LOOCV : k=n 인 경우
- 주성분분석
- 변수들의 선형결합식
- 원래의 변수들을 선형결합으로 새로운 변수들을 생성
- 차원축소 방법 中 1
- 비지도학습에 해당
- 주성분 간 상관관계 X
- 고차원의 데이터 --> 저차원의 데이터로 변환시키는 통계적 기법
- 변수들의 선형결합식
- 사분위수 범위
- 중앙 50%의 데이터들이 흩어진 정도
- 전체 변수의 사용 대신 도출되는 몇 개의 새로운 변수만의 사용으로 분석 대신 할 수 O
- 시계열 분석 --> 정상성 기준
- 모든 시점에서 일정한 평균 가짐
- 분산도 일정
- 공분산은 시차에만 의존
2023.08.16 - [분류 전체보기] - [ADsP] 데이터분석 기출정리 (1)
728x90
'Study > ADsP' 카테고리의 다른 글
[ADsP] 데이터분석 - 기출정리 (1) (0) | 2023.08.16 |
---|---|
[ADsP] 데이터 분석 기획 - 기출정리 (0) | 2023.08.16 |
[ADsP] 데이터의이해 - 기출정리 (0) | 2023.07.24 |
데이터가 뭔데? (0) | 2023.07.22 |