728x90
제30 회 시험 복원
- 민코우스키 거리 수식
- 큰 괄호 안에 시그마 있는 공식
- 변수의 표준화 + 상관성을 동시에 고려한 통계적 거리
[계층적 군집방법 = 거리에 대한 정의 필요]- 마할라노비스 거리
- 앙상블 모형의 특징
- 각 모형의 상호 연관성이 높을수록 -- 정확도 하락
- k평균 군집
- 한번 군집이 형성되더라도 다른 군집으로 이동 가능 O
- 로지스틱 회귀모형의 검정 방법
- = 카이제곱 검정
- 주성분 분석에서 변수의 중요도 기준이 되는 값
- = 고윳값
- 주성분 개수선택 방법
- 평균 고윳값 = 평균 구한 후 평균값 이상이 되는 주성분을 설정하는 것 (제거x)
- 잔차분석에서 만족해야 하는 가정 (회귀분석의 결과 中)
- 독립성 - 등분산성 - 정규성
- 분해요소에 대한 설명 (시계열 요소분해법)
- 순환변동 = 알려지지 않은 주기를 가지고 변화하는 자료 (경제/자연적 이유 x)
- 확률/확률분포에 대한 설명으로 부적절한 것
- 확률변수 X 구간 ~
- 연관성분석 측정지표 中 품목 A + 품목 B 가 동시에 포함된 거래의 비중을 나타내는 지표
- 지지도 support
- 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
- 경쟁층
- 각 개체의 영향력 진단에 대한 설명으로 부적절한 것
- DFFITS (Difference in fits) ~
- 데이터의 정규성을 확인하기 위한 방법
- 히스토그램
- Q-Q plot
- Shapiro-Wilk test
- 등....
- 제 1종 오류
- H0가 사실일 때, H0가 사실이 아니라고 판정
- 맞는데 아니라고 함
- cf) 제 2종 오류
- H0가 사실이 아닌데, H0가 사실이라고 판정
- 아닌데 맞다고 함
- H0가 사실이 아닌데, H0가 사실이라고 판정
- H0가 사실일 때, H0가 사실이 아니라고 판정
- 데이터 전처리 과정에서 ~ ... 상자그림을 이용하여 이상치를 판정하는 방법에 대한 설명으로 가장 부적절 한 것은?
- 평균으로부터 3* 표준편차 ~
- 70명의 실험자 대상으로 ~ ... 90% 신뢰구간을 구하고자 할 때, (가) (나)에 순서대로 들어갈 숫자
- 가 : 0.05 / 나 : 70
- 중심화
- SNS 내에서 존재하는 가능한 총 관계 수 중에서 실제로 맺어진 관계의 수를 비율로 계산하는 비법
- 사회관계망 모형에서 연결망 내 전체 구성원들이 서로 얼마나 많은 관계를 맺고 있는지 나타냄
- 시계열 종류
- 불안정 시계열
- 현재의 충격은 미래의 y값에 관한 예측치에 아무런 영향 미치지 x
- 어느 시기에 충격이 발생하여 y값이 평균 이하로 감소하면
--> 미래의 어느 기간에 걸쳐서 y의 증가율이 일시적으로 평균 수준보다 더 높아야 y가 평균수준을 회복하여
--> 현재의 충격이 무한 미래의 y에 미치는 영향이 소멸됨
- 불안정 시계열
- 앙상블 기법
- = 여러 분류기(classifier)들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법
- 포아송 분포
- 이산형 확률분포 中 주어진 시간/영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포
- 오분류표에서 실제/예측 True와 실제/예측 False가 100으로 동일 --> 민감도가 0.8이라고 할 떄 정확도는?
- = 0.8
- 머신러닝 (기계학습)
- 데이터의 패턴을 발견 & 데이터 모델의 매개 변수를 자동으로 학습
- 자체 알고리즘을 사용 --> 시간 경과 --> 경험을 축적 --> 작업 성능이 향상됨
제31 회 시험 복원
- k-means clustering (비계층적 군집분석) = 군집 경계 설정 어려움
- 이를 극복하기 위해 등장한 비계층적 군집 방법 = k-medoids clustering
- == k -k 로 암기
- 학습모형의 유연성 큼 => 분산 높음 & 편향 낮음
- 표본 추출 방법
- 단순랜덤 : 그냥 랜덤으로
- 계통추출 : 번호를 랜덤으로 부여 --> 특정 간격별 추출
- 집락 : 군집을 나눔 --> 랜덤추출
- 층화 : 소집다느로 나눔 --> 랜덤 추출
- 마할라노비스 거리 : 통계적 개념이 포함된 거리 / 변수들의 산포 고려 => 표준화
- 군집분석 - 변수거리
- 연속형 변수거리
- 유클리디안 거리 : 좌표계에서의 거리
- 표준화 거리 : 왜곡 피할 수 O
- 마할라노비스 : 통계적 개념 포함 & 변수들의 표준화 + 상관성 고려
- 맨하탄, 민코우스 거리
- 범주형 변수거리
- 자카드 유사도 : 두 객체간의 유사도 측정에 사용
- 코사인 유사도 : 내각의 크기로 유사도 측정
- 연속형 변수거리
- 분류분석 = 사기방지모형, 이탈모형, 고객 세분화 모형 등을 개발할 때 활용
- ex) 에어컨 회사에서 지역별 온도, 습도에 따라 고객군을 나눠서 마케팅 전략을 수립할 때 적합
- 비지도 학습 = 지가 알아서 하는거 -- ex) 추천, 발행 ==> 실행과 관련됨
- 머신러닝
- 인공지능의 한 분야 / 스스로 데이터 분석 / 패턴과 규칙 찾아냄 / 분류 및 예측
- KMS 지식관리 시스템
- 암묵적 지식을 형식지로 표출화 될 수 있도록 지원 / 지식자원을 체계화 및 원활하게 공유될 수 있도록 지원하는 시스템
- ISP 정보전략 계획
- 시스템의 중장기 로드맵을 정의하기 위한 수행
- IT 인프라
- 데이터 분석 도입의 수준을 파악하기 위한 분석 준비도의 6가지 구성요소 中 1
- 나이브 베이즈 분류
- 베이즈 정리와 특징에 대한 조건부 독립을 가설로 하는 알고리즘
- 어간추출
- 텍스트 마이닝 --> 규칙에 따라 단어에서 어간을 분리하여 공토 어간을 갖는 단어를 묶는 작업
- 차분
- 시계열 분석 --> 현 시점의 자료값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꿔주는 방법
- 배깅
- 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출 --> 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법
- cf) 앙상블 기법 (from 분류분석) -- 여러 개의 예측모형들을 만들고 조합 --> 하나의 최종예측모형을 만드는 방법
- 배깅 : 크기가 같은 표본을 여러 번 단순 임의 복원추출
- 부스팅 : 잘못된 곳에 가중
- 랜덤 포레스트 : 배깅 + 랜덤
- cf) 앙상블 기법 (from 분류분석) -- 여러 개의 예측모형들을 만들고 조합 --> 하나의 최종예측모형을 만드는 방법
- 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출 --> 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법
2023.07.24 - [분류 전체보기] - [ADsP] 데이터의이해 기출정리
728x90
'Study > ADsP' 카테고리의 다른 글
[ADsP] 데이터분석 - 기출정리 (2) (0) | 2023.08.18 |
---|---|
[ADsP] 데이터 분석 기획 - 기출정리 (0) | 2023.08.16 |
[ADsP] 데이터의이해 - 기출정리 (0) | 2023.07.24 |
데이터가 뭔데? (0) | 2023.07.22 |