본문 바로가기
Study/ADsP

[ADsP] 데이터분석 - 기출정리 (1)

by 셀린Celinee 2023. 8. 16.
728x90

제30 회 시험 복원

  1. 민코우스키 거리 수식
    1. 큰 괄호 안에 시그마 있는 공식
  2. 변수의 표준화 + 상관성을 동시에 고려한 통계적 거리
    [계층적 군집방법 = 거리에 대한 정의 필요]
    1. 마할라노비스 거리
  3. 앙상블 모형의 특징
    1. 각 모형의 상호 연관성이 높을수록 -- 정확도 하락
  4. k평균 군집
    1. 한번 군집이 형성되더라도 다른 군집으로 이동 가능 O
  5. 로지스틱 회귀모형의 검정 방법
    1. = 카이제곱 검정
  6. 주성분 분석에서 변수의 중요도 기준이 되는 값
    1. = 고윳값
  7. 주성분 개수선택 방법
    1. 평균 고윳값 = 평균 구한 후 평균값 이상이 되는 주성분을 설정하는 것 (제거x)
  8. 잔차분석에서 만족해야 하는 가정 (회귀분석의 결과 中)
    1. 독립성 - 등분산성 - 정규성
  9. 분해요소에 대한 설명 (시계열 요소분해법)
    1. 순환변동 = 알려지지 않은 주기를 가지고 변화하는 자료 (경제/자연적 이유 x)
  10. 확률/확률분포에 대한 설명으로 부적절한 것
    1. 확률변수 X 구간 ~
  11. 연관성분석 측정지표 中 품목 A + 품목 B 가 동시에 포함된 거래의 비중을 나타내는 지표
    1. 지지도 support
  12. 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
    1. 경쟁층
  13. 각 개체의 영향력 진단에 대한 설명으로 부적절한 것
    1. DFFITS (Difference in fits) ~
  14. 데이터의 정규성을 확인하기 위한 방법
    1. 히스토그램
    2. Q-Q plot
    3. Shapiro-Wilk test
    4. 등....
  15. 제 1종 오류
    1. H0가 사실일 때, H0가 사실이 아니라고 판정
      1. 맞는데 아니라고 함
    2. cf) 제 2종 오류
      1. H0가 사실이 아닌데, H0가 사실이라고 판정
        1. 아닌데 맞다고 함
  16. 데이터 전처리 과정에서 ~ ... 상자그림을 이용하여 이상치를 판정하는 방법에 대한 설명으로 가장 부적절 한 것은?
    1. 평균으로부터 3* 표준편차 ~
  17. 70명의 실험자 대상으로 ~ ... 90% 신뢰구간을 구하고자 할 때, (가) (나)에 순서대로 들어갈 숫자
    1. 가 : 0.05 / 나 : 70
  18. 중심화
    1. SNS 내에서 존재하는 가능한 총 관계 수 중에서 실제로 맺어진 관계의 수를 비율로 계산하는 비법
    2. 사회관계망 모형에서 연결망 내 전체 구성원들이 서로 얼마나 많은 관계를 맺고 있는지 나타냄
  19. 시계열 종류
    1. 불안정 시계열 
      1. 현재의 충격은 미래의 y값에 관한 예측치에 아무런 영향 미치지 x
      2. 어느 시기에 충격이 발생하여 y값이 평균 이하로 감소하면
        --> 미래의 어느 기간에 걸쳐서 y의 증가율이 일시적으로 평균 수준보다 더 높아야 y가 평균수준을 회복하여
        --> 현재의 충격이 무한 미래의 y에 미치는 영향이 소멸됨
  20. 앙상블 기법
    1. = 여러 분류기(classifier)들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법
  21. 포아송 분포
    1. 이산형 확률분포 中 주어진 시간/영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포
  22. 오분류표에서 실제/예측 True와 실제/예측 False가 100으로 동일 --> 민감도가 0.8이라고 할 떄 정확도는?
    1. = 0.8
  23. 머신러닝 (기계학습)
    1. 데이터의 패턴을 발견 & 데이터 모델의 매개 변수를 자동으로 학습
    2. 자체 알고리즘을 사용 --> 시간 경과 --> 경험을 축적 --> 작업 성능이 향상됨

제31 회 시험 복원

  1. k-means clustering (비계층적 군집분석) = 군집 경계 설정 어려움
    1. 이를 극복하기 위해 등장한 비계층적 군집 방법 = k-medoids clustering
    2. == k -k 로 암기 
  2. 학습모형의 유연성 큼 => 분산 높음 & 편향 낮음 
  3. 표본 추출 방법
    1. 단순랜덤 : 그냥 랜덤으로
    2. 계통추출 : 번호를 랜덤으로 부여 --> 특정 간격별 추출
    3. 집락 : 군집을 나눔 --> 랜덤추출
    4. 층화 : 소집다느로 나눔 --> 랜덤 추출
  4. 마할라노비스 거리 : 통계적 개념이 포함된 거리 / 변수들의 산포 고려 => 표준화
  5. 군집분석 - 변수거리
    1. 연속형 변수거리
      1. 유클리디안 거리 : 좌표계에서의 거리
      2. 표준화 거리 : 왜곡 피할 수 O
      3. 마할라노비스 : 통계적 개념 포함 & 변수들의 표준화 + 상관성 고려
      4. 맨하탄, 민코우스 거리 
    2. 범주형 변수거리
      1. 자카드 유사도 : 두 객체간의 유사도 측정에 사용 
      2. 코사인 유사도 : 내각의 크기로 유사도 측정
  6. 분류분석 = 사기방지모형, 이탈모형, 고객 세분화 모형 등을 개발할 때 활용
    1. ex) 에어컨 회사에서 지역별 온도, 습도에 따라 고객군을 나눠서 마케팅 전략을 수립할 때 적합
  7. 비지도 학습 = 지가 알아서 하는거 -- ex) 추천, 발행 ==> 실행과 관련됨
  8. 머신러닝
    1. 인공지능의 한 분야 / 스스로 데이터 분석 / 패턴과 규칙 찾아냄 / 분류 및 예측
  9. KMS 지식관리 시스템
    1. 암묵적 지식을 형식지로 표출화 될 수 있도록 지원 / 지식자원을 체계화 및 원활하게 공유될 수 있도록 지원하는 시스템
  10. ISP 정보전략 계획
    1. 시스템의 중장기 로드맵을 정의하기 위한 수행 
  11. IT 인프라
    1. 데이터 분석 도입의 수준을 파악하기 위한 분석 준비도의 6가지 구성요소 中 1
  12. 나이브 베이즈 분류 
    1. 베이즈 정리와 특징에 대한 조건부 독립을 가설로 하는 알고리즘 
  13. 어간추출
    1. 텍스트 마이닝 --> 규칙에 따라 단어에서 어간을 분리하여 공토 어간을 갖는 단어를 묶는 작업
  14. 차분
    1. 시계열 분석 --> 현 시점의 자료값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꿔주는 방법
  15. 배깅
    1. 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출 --> 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법 
      1. cf) 앙상블 기법 (from 분류분석) -- 여러 개의 예측모형들을 만들고 조합 --> 하나의 최종예측모형을 만드는 방법
        1. 배깅 : 크기가 같은 표본을 여러 번 단순 임의 복원추출
        2. 부스팅 : 잘못된 곳에 가중
        3. 랜덤 포레스트 : 배깅 + 랜덤 

2023.07.24 - [분류 전체보기] - [ADsP] 데이터의이해 기출정리

 

[ADsP] 데이터의이해 기출정리

예상문제 암묵지와 형식지의 상화작용 관계 공통화 - 표출화 - 연결화 - 내면화 SQL 집계함수 - 어떤 데이터의 타입에도 사용 가능한 것 (수치형+문자형) COUNT 개인정보 비식별화 기법 설명으로 부

poteuri.tistory.com

 

728x90

'Study > ADsP' 카테고리의 다른 글

[ADsP] 데이터분석 - 기출정리 (2)  (0) 2023.08.18
[ADsP] 데이터 분석 기획 - 기출정리  (0) 2023.08.16
[ADsP] 데이터의이해 - 기출정리  (0) 2023.07.24
데이터가 뭔데?  (0) 2023.07.22