본문 바로가기
Study/ADsP

[ADsP] 데이터분석 - 기출정리 (2)

by 셀린Celinee 2023. 8. 18.
728x90

제32 회 시험 복원

  1. 유의수준
    1. 가설검정 용어
    2. 귀무가설이 옳은데도 이를 기각하는 확률의 크기
  2. 리스트
    1. R에서 데이터 타입이 같지 않은 객체들을 하나의 객체로 묶어놓을 수 있는 자료구조
  3. 잡음
    1. 무작위적인 변동
    2. 원인 알려져있지 x
  4. (중요) 연관분석
    1. 카탈로그 배열, 교타판매 등의 마케팅 계획 시 적절한 데이터 마이닝 기법
    2. 고객과 '연관'된 데이터 분석이 중요하다고 암기
  5. 혼합 분포 군집
    1. 모형기반 군집방법
    2. 모수와 함께 가중치를 자료로부터 추정하는 방법으로 사용
  6. 카이제곱 검정
    1. 모수적 검정방법
    2. cf) 비모수적 검정방법 : 맨-휘트니 U검정, 런 검정, 윌콕슨의 순위합 검정
  7. 유사도 측도
    1. 유클리드거리
      1. 두 점을 잇는 가장 짧은 직선거리
      2. 공통으로 저수를 매긴 항목의 거리를 통해 판단하는 측도
    2. 맨하탄 거리
      1. 각 방향 직각의 이동거리 합으로 계산
    3. 표준화 거리
      1. 각 변수를 해당 변수의 표준편차로 변환 --> 유클리드 거리를 계산한 거리
      2. 왜곡을 피할 수 O
  8. 군집분석
    1. 데이터 마이닝 기능 中 1 
    2. 정의 = 이질적인 모집단을 세분화하는 기능
    3. 비지도학습법에 해당 ==> 종속변수 정의 없이 학습 가능 O
    4. 거리 측정 방법
      1. 연속형 변수 = 유클리드, 표준화, 마할라노비스, 체비셔프, 맨하탄, 캔버라 민코우스키
      2. 범주형 변수 = 자카드
    5. 계층적 군집분석
      1. 최단 연결, 최장 연결, 평균 연결, 와드 연결 (정보의 손실 최소화)
    6. 비계층적 군집분석
      1. k 평균
      2.  k-medoids clustering
    7. 혼합 분포 군집
      1. 모형 기반
      2. EM 알고리즘
      3. 확률분포 도입
      4. 군집 크기가 너무 작으면 추정의 정도가 떨어지거나 어려움
      5. 사전 조치 필요
  9. cf) 연관분석 : 상품의 구매, 서비스 등 이련의 거래/사건들 간의 규칙을 발견하기 위한 분석
    1. 장바구니 분석(장바구니에 뭐가 같이 들어있는지 분석), 순차분석(구매이력 분석)
    2. 형태 : if - then (조건&반응)
    3. 측도 
      1. 지지도(A-B 동시에 포함하는 비율)
      2. 신뢰도(A-B 같이 포함될 확률)
      3. 향상도(A가 주어졌을 때의 품목 B의 확률의 증가 비율)
  10. 비표본오차
    1. 표본오차를 제외한 모든 오차
    2. 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미
    3. 조사 대상이 증가하면 오차 커짐
  11. cf) 표본오차
    1. 조사대상으로 추출되지 못함으로서 발 생하는 오차
  12. cf) 표본편의
    1. 표본추출방법에서 기인하는 오차 -- ex) 모수를 작게/크게 할 때 추정
    2. 확률화로 최소화하거나 없앨 수 O
  13. LOOCV : k=n 인 경우
  14. 주성분분석
    1. 변수들의 선형결합식
      1. 원래의 변수들을 선형결합으로 새로운 변수들을 생성
    2. 차원축소 방법 中 1
    3. 비지도학습에 해당
    4. 주성분 간 상관관계 X
    5. 고차원의 데이터 --> 저차원의 데이터로 변환시키는 통계적 기법
    6.  
  15. 사분위수 범위
    1. 중앙 50%의 데이터들이 흩어진 정도
    2. 전체 변수의 사용 대신 도출되는 몇 개의 새로운 변수만의 사용으로 분석 대신 할 수 O
  16. 시계열 분석 --> 정상성 기준
    1. 모든 시점에서 일정한 평균 가짐
    2. 분산도 일정
    3. 공분산은 시차에만 의존
    4.  


2023.08.16 - [분류 전체보기] - [ADsP] 데이터분석 기출정리 (1)

 

[ADsP] 데이터분석 기출정리 (1)

제30 회 시험 복원 민코우스키 거리 수식 큰 괄호 안에 시그마 있는 공식 변수의 표준화 + 상관성을 동시에 고려한 통계적 거리 [계층적 군집방법 = 거리에 대한 정의 필요] 마할라노비스 거리 앙

poteuri.tistory.com

 

728x90

'Study > ADsP' 카테고리의 다른 글

[ADsP] 데이터분석 - 기출정리 (1)  (0) 2023.08.16
[ADsP] 데이터 분석 기획 - 기출정리  (0) 2023.08.16
[ADsP] 데이터의이해 - 기출정리  (0) 2023.07.24
데이터가 뭔데?  (0) 2023.07.22