[ADsP] 데이터분석 - 기출정리 (1)

728x90

제30 회 시험 복원

민코우스키 거리 수식
1. 큰 괄호 안에 시그마 있는 공식
변수의 표준화 + 상관성을 동시에 고려한 통계적 거리
[계층적 군집방법 = 거리에 대한 정의 필요]
1. 마할라노비스 거리
앙상블 모형의 특징
1. 각 모형의 상호 연관성이 높을수록 -- 정확도 하락
k평균 군집
1. 한번 군집이 형성되더라도 다른 군집으로 이동 가능 O
로지스틱 회귀모형의 검정 방법
1. = 카이제곱 검정
주성분 분석에서 변수의 중요도 기준이 되는 값
1. = 고윳값
주성분 개수선택 방법
1. 평균 고윳값 = 평균 구한 후 평균값 이상이 되는 주성분을 설정하는 것 (제거x)
잔차분석에서 만족해야 하는 가정 (회귀분석의 결과 中)
1. 독립성 - 등분산성 - 정규성
분해요소에 대한 설명 (시계열 요소분해법)
1. 순환변동 = 알려지지 않은 주기를 가지고 변화하는 자료 (경제/자연적 이유 x)
확률/확률분포에 대한 설명으로 부적절한 것
1. 확률변수 X 구간 ~
연관성분석 측정지표 中 품목 A + 품목 B 가 동시에 포함된 거래의 비중을 나타내는 지표
1. 지지도 support
입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
1. 경쟁층
각 개체의 영향력 진단에 대한 설명으로 부적절한 것
1. DFFITS (Difference in fits) ~
데이터의 정규성을 확인하기 위한 방법
1. 히스토그램
2. Q-Q plot
3. Shapiro-Wilk test
4. 등....
제 1종 오류
1. H0가 사실일 때, H0가 사실이 아니라고 판정
  1. 맞는데 아니라고 함
2. cf) 제 2종 오류
  1. H0가 사실이 아닌데, H0가 사실이라고 판정
    1. 아닌데 맞다고 함
데이터 전처리 과정에서 ~ ... 상자그림을 이용하여 이상치를 판정하는 방법에 대한 설명으로 가장 부적절 한 것은?
1. 평균으로부터 3* 표준편차 ~
70명의 실험자 대상으로 ~ ... 90% 신뢰구간을 구하고자 할 때, (가) (나)에 순서대로 들어갈 숫자
1. 가 : 0.05 / 나 : 70
중심화
1. SNS 내에서 존재하는 가능한 총 관계 수 중에서 실제로 맺어진 관계의 수를 비율로 계산하는 비법
2. 사회관계망 모형에서 연결망 내 전체 구성원들이 서로 얼마나 많은 관계를 맺고 있는지 나타냄
시계열 종류
1. 불안정 시계열
  1. 현재의 충격은 미래의 y값에 관한 예측치에 아무런 영향 미치지 x
  2. 어느 시기에 충격이 발생하여 y값이 평균 이하로 감소하면
    --> 미래의 어느 기간에 걸쳐서 y의 증가율이 일시적으로 평균 수준보다 더 높아야 y가 평균수준을 회복하여
    --> 현재의 충격이 무한 미래의 y에 미치는 영향이 소멸됨
앙상블 기법
1. = 여러 분류기(classifier)들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법
포아송 분포
1. 이산형 확률분포 中 주어진 시간/영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포
오분류표에서 실제/예측 True와 실제/예측 False가 100으로 동일 --> 민감도가 0.8이라고 할 떄 정확도는?
1. = 0.8
머신러닝 (기계학습)
1. 데이터의 패턴을 발견 & 데이터 모델의 매개 변수를 자동으로 학습
2. 자체 알고리즘을 사용 --> 시간 경과 --> 경험을 축적 --> 작업 성능이 향상됨

제31 회 시험 복원

k-means clustering (비계층적 군집분석) = 군집 경계 설정 어려움
1. 이를 극복하기 위해 등장한 비계층적 군집 방법 = k-medoids clustering
2. == k -k 로 암기
학습모형의 유연성 큼 => 분산 높음 & 편향 낮음
표본 추출 방법
1. 단순랜덤 : 그냥 랜덤으로
2. 계통추출 : 번호를 랜덤으로 부여 --> 특정 간격별 추출
3. 집락 : 군집을 나눔 --> 랜덤추출
4. 층화 : 소집다느로 나눔 --> 랜덤 추출
마할라노비스 거리 : 통계적 개념이 포함된 거리 / 변수들의 산포 고려 => 표준화
군집분석 - 변수거리
1. 연속형 변수거리
  1. 유클리디안 거리 : 좌표계에서의 거리
  2. 표준화 거리 : 왜곡 피할 수 O
  3. 마할라노비스 : 통계적 개념 포함 & 변수들의 표준화 + 상관성 고려
  4. 맨하탄, 민코우스 거리
2. 범주형 변수거리
  1. 자카드 유사도 : 두 객체간의 유사도 측정에 사용
  2. 코사인 유사도 : 내각의 크기로 유사도 측정
분류분석 = 사기방지모형, 이탈모형, 고객 세분화 모형 등을 개발할 때 활용
1. ex) 에어컨 회사에서 지역별 온도, 습도에 따라 고객군을 나눠서 마케팅 전략을 수립할 때 적합
비지도 학습 = 지가 알아서 하는거 -- ex) 추천, 발행 ==> 실행과 관련됨
머신러닝
1. 인공지능의 한 분야 / 스스로 데이터 분석 / 패턴과 규칙 찾아냄 / 분류 및 예측
KMS 지식관리 시스템
1. 암묵적 지식을 형식지로 표출화 될 수 있도록 지원 / 지식자원을 체계화 및 원활하게 공유될 수 있도록 지원하는 시스템
ISP 정보전략 계획
1. 시스템의 중장기 로드맵을 정의하기 위한 수행
IT 인프라
1. 데이터 분석 도입의 수준을 파악하기 위한 분석 준비도의 6가지 구성요소 中 1
나이브 베이즈 분류
1. 베이즈 정리와 특징에 대한 조건부 독립을 가설로 하는 알고리즘
어간추출
1. 텍스트 마이닝 --> 규칙에 따라 단어에서 어간을 분리하여 공토 어간을 갖는 단어를 묶는 작업
차분
1. 시계열 분석 --> 현 시점의 자료값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꿔주는 방법
배깅
1. 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출 --> 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법
  1. cf) 앙상블 기법 (from 분류분석) -- 여러 개의 예측모형들을 만들고 조합 --> 하나의 최종예측모형을 만드는 방법
    1. 배깅 : 크기가 같은 표본을 여러 번 단순 임의 복원추출
    2. 부스팅 : 잘못된 곳에 가중
    3. 랜덤 포레스트 : 배깅 + 랜덤

2023.07.24 - [분류 전체보기] - [ADsP] 데이터의이해 기출정리

[ADsP] 데이터의이해 기출정리

예상문제 암묵지와 형식지의 상화작용 관계 공통화 - 표출화 - 연결화 - 내면화 SQL 집계함수 - 어떤 데이터의 타입에도 사용 가능한 것 (수치형+문자형) COUNT 개인정보 비식별화 기법 설명으로 부

poteuri.tistory.com

728x90

저작자표시 비영리 변경금지

'Study > ADsP' 카테고리의 다른 글

[ADsP] 데이터분석 - 기출정리 (2) (0)	2023.08.18
[ADsP] 데이터 분석 기획 - 기출정리 (0)	2023.08.16
[ADsP] 데이터의이해 - 기출정리 (0)	2023.07.24
데이터가 뭔데? (0)	2023.07.22

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

포트리 :)

[ADsP] 데이터분석 - 기출정리 (1)

제30 회 시험 복원

제31 회 시험 복원

'Study > ADsP' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[ADsP] 데이터분석 - 기출정리 (1)

제30 회 시험 복원

제31 회 시험 복원

'Study > ADsP' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역