빅데이터분석기사 관련 요약

빅데이터분석기사 데이터자격시험 홈페이지

https://www.dataq.or.kr

결측값 (Missing Value, 결측치)

– 입력이 누락된 값

– NA, 999999, NULL 등으로 표현

이상값 (Outlier, 이상치)

– 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값

단순 대치법의 유형

완전 분석법 (Complete Analysis)

– 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석하는 방법

평균 대치법 (Mean Imputation)

– 관측 또는 실험되어 얻어진 자료의 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만드는 방법

단순 확률 대치법 (Single Stochastic Imputation)

– 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법

매개변수 (Parameter)

– 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값

– 측정되거나 데이터로부터 학습되고, 주로 사람에 의해 수작업으로 측정되지 않는다.

초 매개변수 (Hyper Parameter)

– 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값

– 모델의 파라미터 값을 측정하기 위해 알고리즘 구현 과정에서 사용하며, 주로 알고리즘 사용자에 의해 결정된다.

– 주로 알고리즘 사용자에 의해 생성되고, 경험에 의해 결정 가능한 값

지도 학습 (Supervised Learning)

– 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것에 초점이 있으며, 주로 인식, 분류, 진단, 예측 등의 문제 해결에 적합하다.

– 정답인 레이블(Label)이 포함되어 있는 훈련 데이터를 통해 학습시키는 방법

비지도 학습 (Unsupervised Learning; 자율학습)

– 입력 데이터에 대한 정답인 레이블(Label)이 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 방법

– 목적변수(혹은 반응변수, 종속변수, 목표변수 출력값)에 대한 사전 정보 없이 학습이 이루어지는 방법

준지도 학습

– 정답인 레이블(Label)이 포함되어 있는 훈련 데이터와 레이블(Label)이 없는 훈련 데이터를 모두 훈련에 사용하는 학습 방법

과대 적합 (Over-fitting)

– 제한된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상

– 모델의 매개변수 수가 많거나 훈련 데이터 세트의 양이 부족한 경우 발생

– 과대 적합된 모델은 훈련 데이터에 대해서는 높은 성능을 보이지만, 테스트 데이터에 대해서는 낮은 성능을 보임

변수 선택을 위한 알고리즘 유형

전진 선택법 (Forward Selection)

– 절편만 있는 상수 모형부터 시작해 중요하다고 생각되는 설명변수를 차례로 모형에 추가하는 변수 선택 기법

– 모형을 가장 많이 향상시키는 변수를 하나씩 점진적으로 추가하는 방법

– 비어있는 상태에서 시작하며, 추가 시 선택기준이 향상되지 않을 때는 추가를 중단한다.

후진 소거법 (Backward Elimination)

– 독립변수 후보 모두를 포함한 모형에서 출발해, 제곱 합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서, 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하고 이 때의 모형을 선택하는 변수 선택 방법

– 단계적 회귀 분석 방법의 하나로, 모든 변수가 포함된 모형으로부터 불필요한 독립변수를 하나씩 제거해 나가는 과정을 반복하며 모형을 단순화해 나가는 방법

– 모두 포함된 상태에서 시작하며, 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법

단계별 선택법 (Stepwise Selection)

– 전진 선택과 후진 제거를 함꼐 사용하는 방법

부스팅 (Boosting)

– 잘못 분류된 개체들에 가중치를 적용, 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘

– 예측력이 약한 모형(Weak Learner)들을 결합하여 강한 예측 모형을 만드는 방법

GBM (Gradient Boost Machine)

– 경사 하강법(Gradient Descent)을 이용하여 가중치를 업데이트하여 최적화된 결과를 얻는 알고리즘

– 함수의 기울기(경사)를 구하여 기울기가 낮은 쪽으로 계속 이동시켜서 극값에 이를 때까지 반복시키는 기법

ROC 곡선

– 혼동 행렬의 가로와 세로축을 FPR(False Positive Rate), TPR(True Positive Rate)로 생성된 곡선

– ROC 곡선은 그래프가 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능이 우수

CDC (Change Data Capture)

– 데이터 백업이나 통합 작업을 할 경우, 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 처리 기술

– 실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무시스템에 활용

강화 학습 (Reinforcement Learning)

– 선택 가능한 행동 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 학습 방법

다차원 척도법 (MDS; Multi-Dimensional Scaling)

– 개체들 사이의 유사성, 비유사성을 측정 및 2차원 또는 3차원 공간상에 점으로 표현하여, 개체들 사이의 집단화를 시각적으로 표현하는 분석방법

데이터 비식별화 (Data De-Identification)

– 특정 개인을 식별할 수 없도록 개인정보의 일부 또는 전부를 변환하는 일련의 방법

– 데이터를 안전하게 활용하기 위해서는 수집된 데이터의 개인 정보 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써, 다른 정보와 결합하여도 특정 개인을 식별하기 어렵게 하는 데이터 비식별화 조치를 해야 한다.

임베디드 기법 (Embedded Method)

– 모델 자체에 변수 선택이 포함된 기법

– 모델의 정확도에 기여하는 변수를 학습하고 좀 더 작은 계수를 가지는 회귀식을 찾는 방향으로 제약조건을 주어 이를 제어한다.

DBSCAN 알고리즘

– 개체들의 밀도(Density) 계산을 기반으로 밀접하게 분포된 개체들끼리 그룹핑하는 알고리즘

이익 도표 (Gain Chart) / 이익 곡선 (Gain Curve) / 리프트 곡선 (Lift Curve)

– 분류 모형의 성능을 평가하기 위해서 사용되는 그래프 분석 방법

– 이익(Gain)은 목표 범주에 속하는 개체들이, 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값

연관 규칙 분석 또는 장바구니 분석

– 연관 규칙 분석 혹은 장바구니 분석은 주로 마케팅에 활용되는 기법으로 고객 구매 데이터를 분석하여 어떠한 상품이 또 다른 어떠한 상품과 함께 판매될 확률이 높은가를 보여주는 연관 규칙을 도출하는 기법

데이터 레이크 (Data Lake)

– 정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의 데이터(Raw Data)를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소

– 스키마와 상관없이 저장 가능

LOD (Linked Open Data)

– 웹상에 존재하는 데이터를 개별 URI(Uniform Resource Identifier)로 식별하고, 각 URI에 링크 정보를 부여함으로써 상호 연결된 웹을 지향하는 오픈 데이터

ETL (Extract Transform Load)

– 데이터 분석을 위한 데이터를 데이터 저장소인 DW(Data Warehouse) 및 DM(Data Mart)으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출(Extract)하고 변환(Transform- 변화, 정제)하는 기술

K-평균 군집화 (K-means Clustering)

– 데이터 세분화 방법 중 비 계층적 방법으로, K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트하는 방식으로 군집화하는 방식

– 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.

기술 통계 (Descriptive Statistics)

– 데이터 분석의 목적으로 수집된 데이터를 확률 · 통계적으로 정리, 요약하는 기초적인 통계 방법

– 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출한다.

데이터 프로파일링 (Data Profiling)

– 데이터 현황 분석을 위한 자료 수집을 통해 잠재적 오류 징후를 발견하는 방법

– 메타데이터 수집 및 분석, 대상 및 유형 선정, 프로파일링 수행, 결과 리뷰, 결과 종합 등의 절차로 진행된다.

– 데이터의 저장, 연계, 가공, 활용 등 데이터의 변경이 발생하는 모든 영역에서 수행하여 오류를 사전에 파악할 수 있다.

앙상블 기법 (Ensemble Technique)

– 여러 개의 분류기를 생성하고, 그 예측을 결합함으로써 보다 정확한 예측을 도출하는 기법

– 같거나 서로 다른 여러 가지 모형들의 예측/분류 결과를 종합하여 최종적인 의사 결정에 활용하는 기법

크롤링 (Crawling)

– 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹 문서 및 콘텐츠를 수집하는 기술

메타데이터 (Metadata)

– 자료 그 자체가 아닌 자료의 속성 등을 설명하는 데이터로, 대표적으로 데이터에 관한 정보의 기술, 데이터 구성의 정의, 데이터 분류 등을 위한 데이터 등이 있다.

차원의 저주 (Curse of Dimensionality)

– 데이터의 차원이 증가할수록 해당 공간의 크기(부피)가 기하급수적으로 증가하기 때문에 동일한 개수의 데이터의 밀도는 차원이 증가할수록 급속도로 희박해진다.

– 차원이 증가할수록 데이터의 분포 분석 또는 모델 추정에 필요한 샘플 데이터의 수가 기하급수적으로 증가하게 되는 현상

요인 분석 (Factor Analysis)

– 데이터 안에 관찰할 수 없는 잠재적인 변수(Latent Variable)가 존재한다고 가정하고 모형을 세운 뒤, 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법

– 주로 사회과학이나 설문 조사 등에서 많이 활용된다.

의사결정나무 성장

– 분석의 목적과 자료구조에 따라서 적절한 분리 규칙(Splitting Rule)을 찾아서 나무를 성장시키는 과정

– 적절한 정지 규칙(Stopping Rule)을 만족하면 중단하는 단계

CART (Classification And Regression Tree)

– 각 독립변수를 이분화하는 과정을 반복하여 이진 트리 형태를 형성함으로써 분류를 수행하는 알고리즘

– 지니 지수 또는 분산의 감소량을 이용하여 이분화(Binary Split)를 수행하는 알고리즘

QUEST

– 변수의 선택에서 범주의 개수가 많은 범주형 변수로의 편향(Bias)이 심각한 CART의 문제점을 개선한 알고리즘

– 분리 방법은 이진 분리(Binary Split)를 사용하는 의사결정나무 알고리즘

C4.5와 C5.0

– 가지치기를 사용할 때 학습자료를 사용

– 목표변수가 반드시 범주형이어야 하며, 불순도의 측도로는 엔트로피 지수(Entropy Index) 사용

– CART와는 다르게 각 마디에서 다지 분리(Multiple Split)가 가능하며, 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어남

– C4.5는 ID3 알고리즘의 단점을 보완하고 새로운 기능을 추가한 알고리즘으로, 수치형 속성 처리, 결측치 처리, 속성선택 시 Branch의 수에 대한 가중치 적용, 가지치기(Pruning) 등의 기능을 추가하였다.

– C5.0은 C4.5를 개선한 알고리즘으로, 성능 면에서 C4.5보다 우수하다.

가지치기 (Pruning)

– 의사결정나무의 분석 과정 중 분류 오류(Classification Error)를 크게 할 위험(Risk)이 높거나 부적절한 추론 규칙을 가지고 잇는 가지(Branch) 또는 불필요한 가지를 제거하는 단계

– 최대 크기 나무 모형에서 불필요한 가지를 제거하여, 부분 나무 모형의 집합을 탐색한다.

분포 시각화

– 분류에 따른 변화를 최대, 최소, 전체 분포 등으로 구분하는 방법으로 전체에서 부분 간 관계를 설명한다.

등분산성

– 잔차의 분산이 독립변수와 무관하게 일정해야 한다는 특성

엘보우(Elbow) 기법

– 클러스터 내 오차제곱합이 최소가 되도록 클러스터의 중심을 결정해 나가는 방법

EAI (Enterprise Architecture Integration)

– 기업에서 운영하는 서로 다른 기종의 애플리케이션 및 시스템을 통합하는 솔루션

RDBMS (Relational DBMS)

– 2차원 테이블인 데이터 모델에 기초를 둔 관계형 데이터베이스를 생성하고 수정하고 관리할 수 있는 소프트웨어

NoSQL (Not Only SQL)

– RDBMS 형태의 관계형 데이터베이스가 아닌 다른 형태의 데이터 저장 기술

히스토그램 (Histogram)

– 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것으로, 도수분포표를 그래프로 표현한 형태

– 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 그래프로, 특정 변수에 대해 구간별 빈도수를 나타내는 관계 시각화 기법

인포그래픽 (Infographics)

– Information + Graphic 의 줄임말로, 정보를 빠르고 분명하게 표현하기 위해 정보, 자료, 지식을 시각적으로 표현한 형태

– 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 있도록 만드는 시각화 방법

– 복잡하고 어려운 데이터를 더 쉽고 명확하게 이해할 수 있도록 그래픽과 텍스트를 균형 있게 조합한다.

– 정보를 SNS상에 쉽고 빠르게 전달할 수 있다.

태그 (Tag)

– 어떤 정보에 메타데이터로 부여된 키워드 또는 분류

– 어느 하나의 정보에는 여러 개의 태그가 붙어 그 정보를 다양한 면에서 연관성을 보여줄 수 있고, 태그가 제공된 자료는 손쉽게 검색될 수 있고, 노출이 쉽게 된다.

청크 (Chunk)

– 파일 형식에서 사용되는 정보의 조각

JNI (Java Native Interface)

– 자바 가상 머신(JVM) 위에서 실행되고 있는 자바 코드가 네이티브 응용 프로그램(하드웨어와 운영체제 플랫폼에 종속된 프로그램들) 그리고 C, C++ 그리고 어셈블리 같은 다른 언어들로 작성된 라이브러리들을 호출하거나 반대로 호출되는 것을 가능하게 하는 프로그래밍 프레임워크

깃허브 (GitHub)

– 분산 버전 관리 도구인 깃(Git)을 사용하는 프로젝트를 지원하는 웹호스팅 서비스

– 영리적인 서비스와 오픈 소스를 위한 서비스를 모두 제공

JDBC (Java Databse Connectivity)

– 자바에서 데이터베이스에 접속할 수 있도록 하는 자바 API

포털 (Portal)

– 영어로 ‘정문’, ‘입구’, ‘현관문’이라는 뜻으로, 월드와이드 웹에서 사용자들이 인터넷에 접속할 때 기본적으로 거쳐가도록 만들어진 사이트

공공 데이터 포털 (Data Portal)

– 행정안전부에서 운영하는 공공데이터 통합 제공 시스템으로 대한민국 정부가 보유한 다양한 공공 데이터를 개방하여 누구나 편리하고 손쉽게 활용할 수 있게 하는 것을 목적으로 한다.

Open API (Application Programming Interface)

– 누구나 사용할 수 있도록 공개된 API를 말하며, 개발자에게 응용 소프트웨어나 웹 서비스에 프로그래밍적인 권한을 제공한다.

데이터 마이닝 (Data Mining)

– 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법

XML (Extensible Markup Language)

– W3C에서 개발된 SGML(Standard Generalized Markup Language) 문서 형식을 가진, 다른 특수한 목적을 갖는 마크업 언어를 만드는 데 사용하는 다목적 마크업 언어

제이슨 (JSON)

– 비동기 브라우저/서버 통신(AJAX)을 위해 ‘속성-값 쌍’, ‘키-값 쌍’으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 자바 스크립트를 토대로 개발된 개방형 표준 포맷

스키마 (Schema)

– 데이터베이스에서 자료의 구조, 표현 방법, 관계를 형식 언어로 정의한 구조

트랜잭션 (Transaction)

– 인가받지 않은 사용자로부터 데이터를 보장하기 위해 DBMS가 가져야 하는 특성이자, 데이터베이스 시스템에서 하나의 논리적 기능을 정상적으로 수행하기 위한 작업의 기본 단위이다.

정규 표현식 (Regular Expression)

– 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어

EU GDPR (General Data Protection Regulation)

– 2018년 5월 25일부터 시행되는 EU(유럽연합)의 개인 정보보호법령으로, 정보주체의 권리와 기업의 책임성 강화, 개인 정보의 EU 역외 이전 요건 명확화 등을 주요 내용으로 한다.

연결 공격 (Linkage Attack)

– 개인을 직접 식별할 수 있는 데이터는 삭제되어야 하나, 활용 정보의 일부가 다른 공개되어 있는 정보와 결합하여 개인을 식별하는 것을 악용한 공격

k-익명성 (k-Anonymity)

– 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 모델

– 공개된 데이터에 대한 연결 공격 취약점을 방어하기 위해 제안되었다.

동질성 공격 (Homogeneity Attack)

– k-익명성에 의해 레코드들이 범주화되었더라도 일부 정보들이 모두 같은 값을 가질 수 있기 때문에 데이터 집합에서 동일한 정보를 이용하여 공격 대상의 정보를 알아내는 공격

배경 지식에 의한 공격 (Background Knowledge Attack)

– 주어진 데이터 이외 공격자의 배경 지식을 통해, 공격 대상의 민감한 정보를 알아내는 공격

쏠림 공격 (Skewness Attack)

– 정보가 특정한 값에 쏠려 있을 경우, l-다양성 모델이 프라이버시를 보호하지 못하는 것을 악용한 공격

유사성 공격 (Similarity Attack)

– 비식별 조치된 레코드의 정보가 서로 비슷하다면 l-다양성 모델을 통해 비식별된다고 할지라도 프라이버시가 노출될 수 있음을 악용한 공격

자기 정보결정권

– 자신에 관한 정보를 보호받기 위하여 자신에 관련된 정보를 자율적으로 결정하고 관리할 수 있는 권리

데이터 웨어하우스 (DW; Data Warehouse)

– 사용자의 의사 결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스

– 주제지향적(Subject Oriented), 통합적(Intergrated), 시계열적(Time-variant), 비휘발적(Nonvolatile) 특징이 있음

데이터베이스 파티셔닝 (Database Partitioning)

– 데이터베이스를 여러 부분으로 분할하는 것을 의미하며, 각 분할된 요소는 파티션이라고 한다.

– 각 파티션은 여러 노드로 분할 배치되므로 여러 사용자가 각 노드에서 트랜잭션을 수행할 수 있다.

온톨로지 (Ontology)

– 실세계에 존재하는 모든 개념과 개념들의 속성, 그리고 개념 간의 관계 정보를 컴퓨터가 이해할 수 있도록 서술해 놓은 지식베이스

시맨틱 웹 (Semantic Web)

– 온톨로지를 활용하여 서비스를 기술하고, 온톨로지의 의미적 상호 운용성을 이용해서 서비스 검색, 조합, 중재 기능을 자동화하는 웹

사후분포 (Posterior Distribution)

– 사건 발생 후 그 사건의 원인이 발생할 수 있는 사건이 무엇인지 추정하여 그 가능성을 나타내는 변수 분포를 의미

베이지안 방법 (Bayes’ Theorem)

– 어떤 사건의 관측 전의 원인에 대한 가능성과 관측 후 원인의 가능성 사이의 관계를 설명하는 확률이론

점 추정 (Point Estimation)

– 통계학에서 점 추정은 미지의 분포에 대하여 가장 근사한 단말값을 구하는 기법이다.

샘플링 (Sampling)

– 기존 통계 분석에서 전체 데이터를 얻기 어려울 때 부분 데이터를 추출하여 조사, 분석하고 이를 토대로 전체를 추론하는 분석 방법

사분위수 (Quantile)

– 4등분하는 위치의 수로서 전체 데이터를 순위별로 4등분하는 위치의 수 3개 Q1, Q2, Q3가 있다.

표준편차 (Standard Deviation)

– 분산의 양(+)의 제곱근의 값으로 이 값을 통하여 평균에서 흩어진 정도를 알 수 있다.

정규분포 (Normal Distribution)

– 연속 확률분포의 하나로 일반적으로 발견되는 좌우 대칭의 종 모양으로 생긴 분포

단변량 자료 (Univariable Data)

– 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료

의사결정나무 (Decision Tree)

– 의사 결정 규칙(Rule)을 트리구조로 도표화하여 분류(Classification)와 예측(Prediction)을 수행하는 분석 방법

– 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델

– 판별 분석, 회귀 분석 등과 같은 변수(Parameter) 모형을 분석하기 위해 사전에 이상값(Outlier) 검색할 때 사용

그리디 알고리즘 (Greedy Algorithm)

– 문제를 해결하는 과정에서 그 순간순간마다 최적이라고 생각되는 결정을 하는 방식으로 진행하여 최종 해답에 도달하는 문제해결 방식

서포트 벡터 머신 (SVM; Support Vector Machine)

– 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 주어진 데이터 집합을 바탕으로 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류모델을 만드는 알고리즘

– 결정 경계(Decision Boundary), 즉 분류를 위한 기준선을 정의하는 모델이다. 분류되지 않은 새로운 점이 나타나면 경계의 어느 쪽에 속하는지 확인해서 분류한다.

노름(Norm)

– 벡터의 크기를 측정하는 방법이며, 두 벡터 사이의 거리를 측정하는 방법이기도 하다.

L1-norm

– Norm은 벡터의 크기(혹은 길이)를 측정하는 방법이다. L1-norm은 벡터 p, q 각 원소들의 차이의 절대값의 합이다.

L2-norm

– 벡터 p, q의 유클리디안 거리(직선거리)이다.

모형(Model; 모델)

– 객체, 시스템 또는 개념에 대한 구조나 작업을 보여주기 위한 패턴, 계획, 설명이다.

주성분 변수

– 원래 변수 정보를 축약한 변수

예측 (Prediction)

– 일반적으로 데이터 분석에서 말하는 예측이라는 용어는 시간상으로 미래의 의미를 포함하지는 않는다.

– 시계열 분석에서는 시간상 미래의 데이터를 예측하며, 미래예측(Forecasting)이라는 용어를 사용하기도 한다.

자기 조직화 지도 (SOM; Self-Organizing Map)

– 코호넨에 의해 제시, 개발되었으며 코호넨 맵(Kohonen Maps)으로 알려져 있다.

– 차원 축소(Demensionality Reduction)와 군집화(Clustering)를 동시에 수행하는 기법

– 대뇌피질의 시각피질을 모델화한 인공 신경망의 일종

– 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한다.

– 비지도 학습에 의한 클러스터링 방법을 적용

– 고차원으로 표현된 데이터를 저차원으로 변환해서 보는 데 유용

반응변수 (Response Variable)

– 결과변수, 목적변수, 종속변수라고도 한다.

– 예측 등을 통해 설명되는 결과적인 변수

편향(bias)

– 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차

– 하나의 뉴런에 입력된 모든 값을 다 더한 값(가중합)에 더해주는 상수

– 높은 편향 값은 알고리즘이 데이터의 특징과 결과물과의 관계를 잘못 판단할 수 있는 과소 적합(Under-fitting) 문제를 일으킨다.

퍼셉트론 (Perceptron)

– 입력층과 출력층으로만 구성된 최초의 인공 신경망

순방향 신경망 (Feed Forward Neural Network)

– 입력 데이터가 입력층 → 은닉층 → 출력층의 순서로 전파되어 판별 함수값으로 변환되는 신경망

XOR 선형 분리 불가 문제

– 퍼셉트론은 XOR을 선형 분리할 수 없는 문제로 다층 퍼셉트론을 통해 XOR을 선형 분리가 가능해졌다.

역전파(Back Propagation) 알고리즘

– 역방향으로 가중치 갱신을 통해 오차를 최소화시키도록 학습시키는 알고리즘

기울기 소실 문제 (Gradient Vanishing Problem)

– 시그모이드 함수가 역전파를 위해 미분을 수행하는데, 미분 값을 계속 곱하다 보면 0에 가까워져 기울기가 사라지는 현상

– 전파 과정에서 입력층으로 갈수록 기울기(Gradient)가 점차적으로 작아지며, 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않아 결국 최적의 모델을 찾을 수 없게 되는 문제

– 오차역전파에서 계산 결과와 정답과의 오차를 통해 가중치를 수정하는데, 입력층으로 갈수록 기울기가 작아져 가중치들이 업데이트되지 않아 최적의 모델을 찾을 수 없는 문제

Dying ReLU

– ReLU 함수에서 음의 값을 가지면, 전부 0을 출력하여 일부 가중치들이 업데이트되지 않는 문제이다.

덴드로그램 (Dendrogram)

– 군집의 개체들이 결합되는 순서를 나타내는 트리 형태의 구조

관측되지 않은 잠재변수 (Unobserved Latent Variable)

– 직접적으로 관찰되거나 측정이 되지 않은 변수

최대 가능도 (Maximum Likelihood)

– 어떤 가설을 전제하였을 때, 그 전제하에서 우리에게 주어져 있는 결과가 얼마나 나타날 수 있는가에 대한 정도

– 어떤 사건이 일어날 확률을 가장 높이는 모수를 찾는다.

최대 사후 확률 (Maximum A Posteriori)

– 모수의 사전 확률과 결합된 확률을 고려한다.

기대 빈도 (Expected Counts)

– 두 변수가 독립일 경우에 이론적으로 기대할 수 있는 빈도 분포

차원 축소 (Dimensionality Reduction)

– 목적에 따라 데이터의 양을 줄이는 기법

– 분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석 기법

– 원래의 데이터를 최대한 효과적으로 축약하기 위해, 목표변수(y)는 사용하지 않고 특성 변수(설명변수)만 사용하기 때문에 비지도 학습 머신러닝 기법이다.

고유 벡터 (Eigenvector)

– 행렬 변환 결과가 자기 자신의 상수 배가 되는 0이 아닌 벡터

고유값 (Eigenvalue)

– 고유벡터의 변환되는 스케일 정도를 나타내는 상수값

누적 기여율 (Cumulative Proportion)

– 제1 주성분에서 제k 주성분까지의 주성분을 이용하여 설명할 수 있는 데이터의 전체 정보량의 비율

차분 (Difference)

– 비정상 시계열을 정상 시계열 자료로 바꾸기 위해, 평균이 일정하지 않은 경우 현시점에서 이전 시점의 자료를 빼는 방법이다.

추상화 (Abstractions)

– 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업

자연어 처리 (NLP; Natural Language Processing)

– 인간이 이해할 수 있는 언어를 기계가 이해할 수 있게 하는 기술

장기 의존성 문제 (Long-Term Dependency)

– 현재 노드 위치와 먼 과거 상태를 사용한 문맥 처리가 어려운 문제

확률적 경사 하강법 (Stochastic Gradient Descent)

– 전체 데이터가 아닌 랜덤하게 추출한 일부 데이터를 사용하여 경사(기울기)를 계산하고 경사 하강 알고리즘을 적용하는 방법

– 손실 함수의 기울기를 구하여, 그 기울기를 따라 조금씩 아래로 내려가 최종적으로는 손실 함수가 가장 작은 지점에 도달하도록 하는 알고리즘

– 손실 함수 그래프에서 지역 극소점에 갇혀 전역 극소점을 찾지 못하는 경우가 많고, 손실 함수가 비등방성 함수일 때에서는 최적화에 있어 매우 비효율적이고 오래 걸리는 탐색 경로를 보여준다.

시간 기반 오차 역전파 (Back Propagation Through Time)

– 역전파 알고리즘을 사용하여 모든 네트워크 매개변수와 관련하여 비용의 기울기를 찾는 방법

복원 추출 (Sampling with Replacement)

– 한 번 뽑은 표본을 모집단에 다시 넣고 다른 표본을 추출하는 기법

비복원 추출 (Sampling without Replacement)

– 한 번 뽑은 표본을 모집단에 다시 넣지 않고 다른 표본을 추출하는 기법

부트스트랩 (Bootstrap)

– 주어진 자료에서 단순 랜덤 복원 추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법

– 무작위 복원 추출 방법으로, 전체 데이터에서 중복을 허용하여 데이터 크기만큼 샘플을 추출하고 이를 훈련 데이터(Training Set)로 한다.

– 부트스트랩을 통해 100개의 샘플을 추출하더라도 샘플에 한 번도 선택되지 않는 원 데이터가 발생할 수 있는데 전체 샘플의 약 36.8%가 이에 해당한다.

정규성 가정

– 데이터의 분포가 정규분포를 따른다는 가정을 의미한다.

노이즈 (Noise)

– 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값

인공 신경망 (ANN; Artificial Neural Network)

– 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델

– 기계 학습과 인지과학에서 생물학의 신경망에서 영감을 얻은 통계학적 학습 알고리즘

은닉층 (Hidden Layer)

– 인공 신경망에서 입력층과 출력층 사이에 위치하여 내부적으로만 동작하는 계층

모델의 수용력 (Capacity)

– 인공 신경망에서 모델에 있는 매개변수들의 수

손실 함수 (Loss Function)

– 머신러닝 모델의 출력값과 사용자가 원하는 실제값의 차이인 오차

경사 하강법 (Gradient Descent)

– 함수의 기울기(경사)를 구하여 기울기가 낮은 쪽으로 계속 이동시켜서 극값에 이를 때까지 반복시키는 기법

지역 극소점 (Local Minimum Point)

– 주위의 모든 점의 함수값 이하의 함수값을 갖는 점

전역 극소점 (Global Minimum Point)

– 모든 점의 함수값 이하의 함수값을 갖는 점

비등방성 함수 (Anisotropy Function)

– 방향에 따라 기울기가 달라지는 함수

최적점

– 곡선 위의 평탄한 점

– 각각의 데이터 간의 차이점과 유사성 관계도 확인하는 방법

– 기법에는 플로팅 바 차트, 히트맵, 체르노프 페이스, 스타 차트, 형팽 좌표계가 있다.

관계 시각화

– 집단 간의 상관관계를 확인하여 다른 수치의 변화를 예측하는 방법

– 산점도, 산점도 행렬, 버블 차트, 히스토그램, 네트워크 그래프(Map)가 있다.

분포 시각화

– 분류에 따른 변화를 최대, 최소, 전체 분포 등으로 구분하는 방법으로 전체에서 부분 간 관계를 설명한다.

– 분포 시각화 기법에는 파이 차트, 도넛 차트, 트리맵, 누적 영역 차트가 있다.

카토그램 (Catogram)

– 지역의 값을 표현하기 위해 지리적 형상 크기를 조절하는 공간 시각화 기법으로, 재구성된 지도로 왜곡되고 삐뚤어진 화면으로 표기한다.

버블맵 (Bubble Map) / 버블 플롯맵 (Bubble Plot Map)

– 수치화된 데이터값의 크기를 나타내는 서로 다른 크기의 원형으로 표시하는 공간 시각화 방법

도트맵 (Dot Map)

– 지도상의 위도와 경도에 해당하는 좌표점에 산점도와 같이 점을 찍어 표현하는 공간 시각화 기법으로, 시간의 경과에 따라 점진적으로 확산을 나타내는 경우에 사용

평행 좌표 그래프 (Parallel Coordinates Graph)

– 다변량 데이터를 2차원 평면에 표현하는 효과적인 가시화 방법

– 여러 축을 평행으로 배치하는 비교 시각화 기술로 수직선엔 변수를 배치하고, 측정 대상은 변수값에 따라 위아래로 이어지는 연결선으로 표현하는 그래프

등치 지역도 (Choropleth Map)

– 지리적 단위로 데이터의 의미를 색상으로 구분하여 표시하는 공간 시각화 기법으로, 색상은 수치화된 값을 기반으로 채도, 밝기를 변화하여 나타낸다.

스타 차트 (Star Chart)

– 각 변수를 표시 지점을 연결선을 통해 그려 별 모양의 도형으로 나타낸 차트로, 중심점은 축이 나타내는 값의 최소값, 가장 먼 끝점은 최대값을 의미한다.

체르노프 페이스 (Chernoff Faces)

– 데이터를 눈, 코, 귀, 입 등과 일대일 대응하여 얼굴 하나로 표현하는 비교 시각화 방법

히트맵 (Heat Map)

– 여러 가지 변수를 비교할 수 있는 시각화 그래프로, 칸 별로 색상을 구분하여 데이터값을 표현

플로팅 바 차트 (Floating Bar Chart)

– 막대가 가장 낮은 수치부터 가장 높은 수치까지 걸쳐있게 표현한 차트로, 범주 내 값의 다양성, 중복 및 이상값 파악이 가능하다.

산점도 (Scatter Plot)

– 관계 시각화 기법으로, x축과 y축 각각에 두 변수값의 순서쌍을 한 점으로 표시하여 변수의 관계를 나타낸 그래프

– 상관관계, 군집화, 이상값 패턴을 파악하기에 유용한 그래프

누적 영역 그래프 (Stacked Area Group; 누적 연속 그래프)

– 여러 개의 영역 차트를 겹겹이 쌓아놓은 모양의 시각화 방법으로, 가로축은 시간을 나타내고 세로축은 데이터를 나타낸다.

– 데이터 전체 크기를 표현할 때 적합하다.

트리맵 (Tree Map)

– 여러 계층 구조(트리 구조) 데이터를 표현하는 시각화 방법으로, 서로 다른 크기를 이용해서 비율을 나타내며, 사각형을 겹쳐 놓음으로써 대분류와 하위분류를 나타낸다.

파이 차트 (Pie Chart)

– 원형 모양을 데이터가 차지하는 비율에 따라 여러 조각으로 나누어서 나타내는 시각화 방법

– 부분과 부분의 관계를 알아볼 때 사용되는 그래프로, 모든 조각의 값을 합치면 데이터값 전체의 합이 되며, 비율이 100%가 된다.

추세선 (Trend Line)

– 데이터값의 즉각적인 변화보다는 변화하는 경향성을 보여주는 직선 또는 곡선으로 표현하는 시간 시각화 기법

영역 차트 (Area Chart)

– 선 그래프와 같이 시간에 값에 따라 크기 변화를 보여주는 시간 시각화 기법으로, 색을 채운 영역으로 보여준다는 것과 y축의 값은 0부터 시작해야 하는 것이 특징이다.

투자 회수 기간 (PP; Payback Period)

– 누계 투자금액과 매출금액의 합이 같아지는 기간

– 프로젝트의 시작 시점부터 누적 현금흐름이 흑자로 돌아서는 시점까지의 기간(흑자 전환 시점)이다.

내부 수익률 (IRR; Internal Rate of Return)

– 순 현재가치를 ‘0’으로 만드는 할인율(연 단위 기대수익 규모)

순 현재가치 (NPV; New Present Value)

– 특정 시점의 투자금액과 매출금액의 차이를 이자율을 고려하여 계산한 값

– 예상 투자비용의 할인가치를 예상 수입의 할인가치에서 공제했을 때, 나온 값을 합한 금액(미래시점의 순이익 규모)이다.

투자 대비 효과 (ROI; Return On Investment

– 자본 투자에 따른 순 효과의 비율을 의미(투자 타당성)한다.

총 소유 비용 (TCO; Total Cost of Ownership)

– 비즈니스 기여도 평가지표 중 하나의 자산을 획득하려 할 때 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용되는 지표

에이다 부스트 (AdaBoost)

– 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선하는 부스팅 알고리즘

– 에이다 부스트(AdaBoost)라는 이름은 적응 부스트(Adaptive Boost)라는 용어에서 나왔다.

페이스팅 (Pasting)

– 훈련 데이터를 중복하여 사용하지 않고 훈련 데이터 세트를 나누는 기법으로 비복원 추출 방법이다.

랜덤 포레스트 (Random Forest)

– 의사결정나무의 특징인 분산이 크다는 점을 고려하여, 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법

– 의사결정나무(Decision Tree)를 개별 모형으로 사용하는 모형 결합 방법

– 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 평균 예측치를 출력항으로써 동작한다.

– 모든 독립변수를 비교하여 최선의 독립변수를 선택하는 것이 아니라 독립변수 차원을 랜덤하게 감소시킨 다음 그 중에서 독립변수를 선택하는 방법으로, 개별 모형들 사이의 상관관계가 줄어들기 때문에 모형 성능의 변동이 감소하는 효과가 있다.

모멘텀 (Momentum)

– ‘운동량’을 뜻하는 모멘텀은 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리 법칙을 적용한 알고리즘

– 확률적 경사 하강법(SGD)에 속도라는 개념을 적용한 방법으로, 기울기가 줄어들더라도 누적된 기울기 값으로 인해 빠르게 최적점으로 수렴하게 된다.

– 모멘텀 알고리즘의 최적점 탐색 경로를 보면 알수 있듯이, 공이 구르는 듯한 모습을 보여준다.

AdaGrad (Adaptive Gradient Algorithm)

– 손실 함수의 기울기가 큰 첫 부분에서는 크게 학습하다가, 최적점에 가까워질수록 학습률을 줄여 조금씩 적게 학습하는 방식

– 학습을 진행하면서 학습률을 점차 줄여나가는 학습률 감소 기법을 적용한 최적화 알고리즘으로, 매개변수 전체의 학습률 값을 일괄적으로 낮추는 것이 아니라 각각의 매개변수에 맞는 학습률 값을 만들어주는 방식

Adam (Adaptive Moment Estimation)

– 모멘텀 방식과 AdaGrad 방식의 장점을 합친 알고리즘으로, 최적점 탐색 경로 또한 이 두 방식을 합친 것과 비슷한 양상으로 나타난다.

– 탐새 경로의 전체적인 경향은 모멘텀 방식처럼 공이 굴러가는 듯하고, AdaGrad로 인해 갱신 강도가 조정되므로 모멘텀 방식보다 좌우 흔들림이 덜한 것을 볼 수 있다.

드롭아웃 (Dropout)

– 학습 과정에서 신경망 일부를 사용하지 않는 방법으로 드롭아웃을 사용하여 과대 적합을 방지할 수 있다.

– 신경망 학습 시에만 사용하고, 예측 시에는 사용하지 않는다.

가중치 규제

– 과대 적합 방지방안 중 개별 가중치 값을 제한하여 복잡한 모델을 좀 더 간단하게 하는 방법

L1 노름 규제 (Lasso Regression; 라쏘)

– 기존 비용 함수에 모든 가중치 w들의 절대값 합계를 추가하여 값이 최소가 되도록 하는 방법

라쏘 (LASSO; Least Absolute Shrinkage and Selection Operator)

– 변수 선택 기법 중 임베디드 기법의 세부 기법으로 가중치의 절대값의 합을 최소화하는 것을 추가적인 제약조건으로 하는 방법으로 L1-norm을 통해 제약을 주는 기법

L2 노름 규제 (Ridge Regression; 릿지)

– 가중치 규제 방법 중 기존 비용 함수에 모든 가중치 w들의 ‘제곱합’을 추가하는 방법으로 가중치 감소(Weight Decay)라고도 하며, 가중치가 가장 큰 것은 페널티를 부과하여 과적합 위험을 줄이는 방법이다.

Elastic Net

– 가중치 규제 방법 중 기존 비용 함수에 L1 노름 규제, L2 노름 규제를 추가하는 방법으로, 알파와 베타의 조합에 따라 노름을 조절하여 정규화를 할 수 있는 방법

데이터 증강 (Data Augmentation)

– 훈련 데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대 적합 현상이 발생할 확률이 높으므로, 충분한 데이터 세트를 확보할 수 있도록 데이터를 변형해서 늘려주는 방법이다.

콜모고로프-스미르노프 적합성 검정 (K-S 검정; Kolmogorov-Smirnov Goodness of Fit Test)

– 데이터가 어떤 특정한 분포를 따르는가를 비교하는 검정 기법

– 비교 기준이 되는 데이터를 정규분포를 가진 데이터로 두어서 정규성 검정을 실시할 수 있다.

– 일반적으로 표본의 수가 많을 경우(2,000개 이상)에는 K-S 검정을, 데이터가 적을 경우에는 샤피로-윌크 검정을 사용한다.

Q-Q Plot (Quantile-Quantile Plot)

– 그래프를 이용하여 정규성 가정을 시각적으로 검정하는 방법

– 대각선 참조선을 따라서 값들이 분포하게 되면 정규성 가정을 만족한다고 할 수 있다.

– 한쪽으로 치우치는 모습이라면 정규성 가정에 위배되었다고 볼 수 있다.

카이제곱 검정 (Chi-Square Test)

– 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검정하기 위해 사용되며, 카이제곱 분포에 기초한 통계적 검정 방법

– 단일 표본의 모집단이 정규분포를 따르며 분산을 알고 있는 경우에 적용하고, 두 집단 간 동질성 검정에 활용된다.

다변량 분산 분석 (MANOVA)

– 독립변수가 1개 이상이고 종속변수가 2개 이상일 때, 두 집단 간 평균 차이를 검증하기 위해 사용하는 분석 기법

다원배치 분산 분석 (Multi-way ANOVA)

– 독립변수가 3개 이상이고 종속변수가 1개일 때 분석하는 기법

이원배치 분산 분석 (Two-way ANOVA)

– 종속변수가 1개, 독립변수가 2개일 때 각 독립변수 범주에 대응하는 종속변수 간에 평균의 차이를 검정하는 방법

F-분포

– 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여, 가설 검정을 수행하는 방법

Z-검정 (Z-Test)

– 귀무가설에서 검정 통계량의 분포를 정규분포로 근사할 수 있는 통계 검정

– 정규분포를 가정하며, 추출된 표본이 동일 모집단에 속하는지 가설을 검증하기 위해 사용한다.

– 모집단 분산을 이미 알고 있을 때 분포의 평균을 테스트한다.

Leave-One-Out Cross Validation (LOOCV)

– 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용하고 나머지 (N-1)개는 훈련 데이터로 사용하는 과정을 N번 반복하는 교차 검증 기법

K-fold Cross Validation

– 데이터 집합을 무작위로 동일 크기를 갖는 k개의 부분집합으로 나누고, 그 중 1개의 집합을 평가 데이터(Test Set)로, 나머지 (K-1)개 집합을 훈련 데이터(Training Set)로 선정하여 분석 모형을 평가하는 기법

홀드 아웃 교차 검증 (Holdout Cross Validation)

– 전체 데이터를 비복원 추출 방법을 이용하여 랜덤하게 훈련 데이터(Training Set), 평가 데이터(Test Set)로 나눠 검증하는 기법

– 훈련 데이터로 분석 모형을 구축하고, 평가 데이터를 이용하여 분석 모형을 평가하는 기법

– 계산량이 많지 않아 모형을 쉽게 평가할 수 있으나, 전체 데이터에서 평가 데이터만큼은 학습에 사용할 수 없으므로 데이터 손실이 발생하고, 데이터를 어떻게 나누느냐에 따라 결과가 많이 달라질 수 있다.

일반화 오류 (Generalization Error)

– 데이터 분석 모형 구축 시 발생할 수 있는 오류 중에서, 분석모형을 만들 때 주어진 데이터 집합의 특성을 지나치게 반영하여 발생하는 오류

– 주어진 데이터 집합은 모집단 일부분임에도 불구하고, 그것이 가지고 있는 주변적인 특성, 단순 잡음 등을 모두 묘사하기 때문에 발생하는 오류

카파 통계량 (Kappa Statistic)

– 두 관찰자가 측정한 범주값에 대한 일치도를 측정하는 방법으로, 0~1의 값을 가지며 1에 가까울수록 모델의 예측값과 실제값이 정확히 일치하며, 0에 가까울수록 모델의 예측값과 실제값이 불일치한다.

– 카파 통계량의 계산식: K = (Pr(a) – Pr(e)) / (1 – Pr(e))

– K: 카파 상관 계수, Pr(a): 예측이 일치할 확률, Pr(e): 예측이 우연히 일치할 확률

F-Measure (F1-Score)

– 혼동 행렬을 통한 분류 모형의 평가지표 중에서 정밀도와 민감도(재현율)를 하나로 합한 성능평가 지표

– 정밀도와 민감도 양쪽이 모두 클 때, F-Measure도 큰 값을 가진다.

– F-Measure 계산식: 2 x {(Precision x Recall) / (Precision + Recall)}

정확도 (Accuracy; 정분류율)

– 혼동 행렬 통한 분류 모형의 평가지표 중에서, 실제 분류 범주를 정확하게 예측한 비율

– 전체 예측에서 참 긍정(TP)과 참 부정(TN)이 차지하는 비율

– 정확도의 계산식: (TP + TN) / (TP + TN + FP + FN)

참 긍정률 (TP Rate) / 재현율 (Recall) / 민감도 (Sensitivity)

– 혼동 행렬 통한 분류 모형의 평가지표 중에서, 실제로 ‘긍정’인 범주 중에서 ‘긍정’으로 올바르게 예측(TP)한 비율

– 참 긍정률의 계산식: TP / (TP + FN)

정밀도 (Precision)

– 혼동 행렬 통한 분류 모형의 평가지표 중에서, ‘긍정’으로 예측한 비율 중에서 실제로 ‘긍정'(TP)인 비율

– 정밀도의 계산식: TP / (TP + FP)

특이도 (Specificity)

– 혼동 행렬 통한 분류 모형의 평가지표 중에서, 실제로 ‘부정’인 범주 중에서 ‘부정’으로 올바르게 예측(TN)한 비율

– 특이도의 계산식: TN / (TN + FP)

거짓 긍정률 (FP Rate)

– 혼동 행렬 통한 분류 모형의 평가지표 중에서, 실제로 ‘부정’인 범주 중에서 ‘긍정’으로 잘못 예측(FP)한 비율

– 거짓 긍정률의 계산식: FP / (TN + FP)

결정계수(Coefficient of Determination)

– 회귀 모형이 실제값을 얼마나 잘 나타내는지에 대한 비율로, 결정계수가 1에 가까울수록 실제값을 잘 설명한다.

배깅 (Bagging)

– 훈련 데이터에서 다수의 부트스트랩(Bootstrap) 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 알고리즘

웹 내용 마이닝 (Web Contents Mining)

– 실제 웹 사이트를 구성하고 있는 페이지로부터 의미있는 내용을 추출하는 기법 (ex. 텍스트, 이미지, 사운드 등)

사회 연결망 분석 (SNA; Social Network Analysis)

– 사회 연결망 데이터를 활용하여 사회 연결망과 사회 구조 등을 사회과학적으로 분석하는 하나의 방식

오피니언 마이닝 (Opinion Mining)

– 사람들이 특정 제품 및 서비스를 좋아하거나 싫어하는 이유를 분석하여 여론이 실시간으로 어떻게 변하는지 확인한다.

RNN (Recurrent Neural Network)

– 입력층, 은닉층, 출력층으로 구성되며 은닉층에서 재귀적인 신경망을 갖는 알고리즘

– 음성신호, 연속적 시계열 데이터 분석에 적합하다.

– 장기 의존성 문제와 기울기 소실문제가 발생하여 학습이 이루어지지 않을 수 있다.

CNN (Convolutional Nerual Network)

– 시각적 영상을 분석하는 데 사용되는 인공 신경망

– 딥러닝에서 심층신경망으로 분류되며, 시각적 영상 분석에 주로 적용된다.

계절 요인 (Seasonal Factor)

– 1년의 주기를 가지고 반복되는 변화를 말하며, 계절의 변화, 공휴일의 반복, 추석 명절의 반복과 같은 요인들에 의하여 발생한다.

ARIMA 모형 / 자기 회귀 누적 이동평균모형

– 자신의 과거 값을 사용하여 설명하는 모형으로, 백색 잡음의 현재 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드를 분석하는 기법

– 시계열 분석 기법의 한 종류로, 과거의 관측값과 오차를 사용해서 현재의 시계열 값을 설명하는 ARMA 모델을 일반화한 모델

동질성 검정 (Test of Homogeneity)

– 각각의 독립적인 부모집단으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우에 관측값들이 정해진 범주 내에서 서로 동질한지(비슷하게 나타나고 있는지) 여부를 검정하는 기법

적합도 검정 (Goodness Fitness Test)

– 1개의 요인을 대상으로 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법

– 가정된 확률이 정해져 있을 때와 가정된 확률이 정해져 있지 않을 때, 데이터가 가정된 확률에 적합하게 따르고 있는가를 검정하는 기법

EM (Expectation-Maximization) 알고리즘 / 기대값 최대화 알고리즘

– 관측되지 않는 잠재변수에 의존하는 확률 모델에서 최대 가능도나 최대사후 확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘

자카드(Jaccard) 계수 / 자카드 유사도

– 두 집합 사이의 유사도를 측정하는 방법으로, 0과 1 사이의 값을 가지며 두 집합이 동일하면 1의 값, 공통의 원소가 하나도 없으면 0의 값을 가지는 계수

연관성 분석 (Association Analysis)

– 데이터 간의 관계에서 조건과 반응을 연결하는 분석으로, 장바구니 분석(Market Basket Analysis), 서열 분석(Sequence Analysis)이라고도 함

– 데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종속 관계를 찾아내는 분석 기법

서포트 벡터 머신 (SVM; Support Vector Machine)

– 벡터 공간에서 훈련 데이터가 속한 2개의 그룹을 분류하기 위해 선형 분리자를 찾는 지도 학습 모델

– 기계 학습의 한 분야로 사물 인식, 패턴 인식, 손 글씨 숫자 인식 등 다양한 분야에서 활용되는 지도 학습 모델

– 훈련 시간이 상대적으로 느리지만, 정확성이 뛰어나며 다른 방법보다 과대 적합의 가능성이 낮은 모델

슬랙 변수 (Slack Variables; 여유변수)

– 서포트 벡터 머신에서 완벽한 분리가 불가능할 때, 선형적으로 분류를 위해 허용된 오차를 위한 변수

– 소프트 마진 SVM에서 사용한다.

하드 마진 SVM (Hard Margin SVM)

– 서포트 벡터 머신에서 마진(Margin) 안쪽이나 바깥쪽에 절대로 잘못 분류된 오 분류를 허용하지 않는 SVM 종류

– 매우 엄격하게 두 개의 클래스를 분리하는 초평면을 구하는 방법으로, 모든 입력은 초평면을 사이에 두고 무조건 하나의 클래스에 속해야 하는 방법

시그모이드 함수

– 로지스틱 함수라고 불리기도 하며, X의 값에 따라 0~1의 값을 출력하는 S자형 함수이다.

ReLU (Rectified Linear Unit) 함수

– 가장 많이 사용되는 활성화 함수 중 하나로, 시그모이드와 tanh가 갖는 기울기 소실 문제를 해결하기 위한 함수

다층 퍼셉트론 (MLP; Multi-Layer Perceptrons)

– 입력층과 출력층 사이에 하나 이상의 중간층이 존재하는 신경망으로, 전 방향(Feedforward) 인공 신경망(ANN)의 한 종류

역전파(Backpropagation) 알고리즘 / 오류 역전파 알고리즘

– 역방향으로 오차를 전파하면서 각 층의 가중치를 업데이트하고 최적의 학습 결과를 찾아가는 방법

– 다층 퍼셉트론 학습에 사용되는 통계적 기법을 의미

– 기계 학습에서 사용되는 학습 구조로 다층 퍼셉트론이 있다.

과소 적합 (Under-Fitting)

– 분석 모형을 구축할 때 적정 수준의 학습이 부족하여 모델이 단순해지는 현상으로, 훈련 데이터와 테스트 데이터에 잘 동작하지 않는 것

판별 분석 (Discriminant Analysis)

– 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계 기법

– 집단을 구분할 수 있는 설명변수를 통하여 판별식을 도출하고, 소속된 집단을 예측하는 목적으로 사용하는 기법

주성분 분석 (PCA; Principal Component Analysis)

– 많은 변수의 분산 방식(분산 · 공분산)의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계 기법

– 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석 방법

분산 분석 (ANOVA; Analysis of Variance)

– 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 분포를 이용하여 가설 검정을 수행하는 방법

– 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석 방법

회귀 분석 (Regression Analysis)

– 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법

– 독립변수와 종속변수 간에 선형적인 관계를 도출해서 하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고, 독립변수를 통해 종속변수를 예측하는 분석 기법

– 변수들 사이의 인과관계를 밝히고 모형을 적합(Fit)하여, 관심 있는 변수를 예측하거나 추론하기 위한 분석 방법

상관 분석 (Correlation Analysis)

– 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법

– 변수의 개수 및 데이터 속성에 따라서 세부 모델들로 분류

– 단순 상관 분석, 다중 상관 분석, 변수 간의 상관 분석 등이 있다.

과대 표집 (Over-Sampling)

– 소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞추는 방법으로 정보가 손실되지 않는다는 장점이 있으나, 과적합을 초래할 수 있다.

– 알고리즘의 성능은 높으나, 검증의 성능은 나빠질 수 있다.

SMOTE (Synthetic Minority Over-sampling TEchnique)

– 과대 표집(Over-Sampling) 기법 중 소수 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가하는 방법

과소 표집 (Under-Sampling)

– 불균형 데이터 처리 기법 중 다수 클래스의 데이터를 일부만 선택하여 데이터의 비율을 맞추는 방법

-데이터의 소실이 매우 크고, 때로는 중요한 정상 데이터를 잃게 될 수 있다.

ENN (Edited Nearest Neighbor)

– 과소 표집(Under-Sampling) 기법 중 소수 클래스 주위에 인접한 다수 클래스 데이터를 제거하여 데이터의 비율을 맞추는 기법

비닝 (Binning)

– 데이터값을 몇 개의 Bin으로 분할하여 계산하는 방법으로 데이터 평활에서도 사용되는 기술이며, 기존 데이터를 범주화하기 위해서도 사용한다.

파생변수 (Derived Variable)

– 기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 재정의한 변수

특이값 분해 (SVD; Singular Value Decomposition)

– M x N 차원의 행렬데이터에서 특이값을 추출하고, 이를 통해 주어진 데이터 세트를 효과적으로 축약할 수 있는 차원 축소 기법

mRMR (Minimum Redundancy Maximum Relevance)

– 래퍼 기법의 세부 기법 중 특성 변수의 중복성을 최소화하는 방법으로 종속 변수를 잘 예측하면서, 독립변수들과도 중복성이 적은 변수들을 선택하는 방법

SFS (Sequential Feature Selection)

– 문제를 해결하는 과정에서 그 순간순간마다 최적이라고 생각되는 결정을 하는 방식으로 진행하여 최종 해답에 도달하는 문제 해결 방식인 그리디 알고리즘(Greedy Algorithm)을 이용하여 빈 부분 집합에서 특성 변수를 하나씩 추가하는 방법

RFE (Recursive Feature Elimination)

– 래퍼 기법의 세부 기법 중 서포트 벡터 머신을 사용하여 재귀적으로 제거하는 방법

– 전진 선택, 후진 소거, 단계적 방법을 사용한다.

피셔 스코어 (Fisher Score)

– 필터 기법을 적용한 사례 중에서, 최대 가능성 방정식을 풀기 위해 통계에 사용되는 뉴턴(Newton)의 방법

필터 기법 (Filter Method)

– 변수 선택 기법에는 필터 기법, 래퍼 기법, 임베디드 기법이 있다.

– 특정 모델링 기법에 의존하지 않고, 데이터의 통계적 특성으로부터 변수를 택하는 기법

래퍼 기법 (Wrapper Method)

– 변수의 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 선택해나가는 기법

극단 값 조정 (Winsorizing)

– 데이터의 이상값을 제거하기 위해서 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용하는 방법

iForest (Isolation Forest)

– 의사결정나무 기법으로 분류 모형을 생상하여 모든 관측치를 고립시켜나가면서 분할 횟수로 이상값을 탐색한다.

– 데이터의 평균적인 관측치와 멀리 떨어진 관측일수록 적은 횟수의 공간 분할 통해 고립시킬 수 있다.

LOF (Local Outlier Factor)

– 관측치 주변의 밀도와 근접한 관측치 주변의 밀도의 상대적인 비교를 통해 이상값을 탐색하는 방법

– 각 관측치에서 k번째 근접이웃까지의 거리를 산출하여 해당 거리 안에 포함되는 관측의 개수를 나눈 역수 값으로 이상값을 산출한다.

마할라노비스 거리 (Mahalanobis Distance)

– 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량 기법

– 이상값 탐색을 위해 고려되는 모든 변수 간에 선형관계를 만족하고, 각 변수들이 정규분포를 다르는 경우에 적용할 수 있는 전통적인 접근법이다.

그럽스 T-검정 (Grubbs T-Test)

– 정규분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법

사분위수 (Quartile) : 4등분하는 위치의 수로서, 각 위치의 수 Q1, Q2, Q3가 있다

제1 사분위수 (Q1)

– 누적 백분율이 25%에 해당하는 값, 25번째 백분위 수

제2 사분위수 (Q2)

– 누적 백분율이 50%에 해당하는 값, 50번째 백분위 수

제3 사분위수 (Q3)

– 누적 백분율이 75%에 해당하는 값, 75번째 백분위 수

딕슨의 Q 검정 (Dixon Q-Test)

– 오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이에 대한 비율을 활용하여 이상값 여부를 검정하는 방법으로 데이터 수가 30개 미만인 경우에 적절한 방법

완전 무작위 결측 (MCAR)

– 변수 상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우의 데이터 결측값

비 무작위 결측 (MNAR)

– 누락된 값(변수의 결과)이 다른 변수와 연관 있는 경우의 데이터 결측값

ESD (Extreme Studentized Deviation)

– 통계 기법을 이용한 데이터 이상값 검출 기법 중 평균(μ)으로부터 3 표준편차(σ) 떨어진 값(각 0.15%)을 이상값으로 판단하는 검출 기법

핫덱(Hot-Deck) 대체

– 무응답을 현재 진행 중인 연구에서 ‘비슷한’ 성향을 가진 응답자의 자료로 대체하는 방법

– 표본조사에서 흔히 사용된다.

콜드덱(Cold-Deck) 대체

– 단순 확률 대치법의 종류 중 핫덱과 비슷하나, 대체할 자료를 현재 진행 중인 연구에서 얻는 것이 아니라 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법

완전 무작위 결측 (MACR; Missing Completely At Random)

– 변수 상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우의 데이터 결측값

무작위 결측 (MAR; Missing At Random)

– 누락된 자료가 특정 변수와 관련되어 일어나지만 그 변수의 결과는 관계가 없는 경우의 결측값으로, 누락된 자료가 전체 정보가 있는 변수로 설명이 될 수 있는 데이터 결측값

데이터 세분화 (Data Segmentation)

– 데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있도록 사용하는 프로세스

응집분석법

– 데이터 세분화 방법 중 계층적 방법으로, 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법

분할분석법

– 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 계층적 방법

파싱 (Parsing)

– 데이터 일관성 유지를 위한 정제 기법으로, 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업

데이터 정제 (Data Cleaning)

– 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업

트랙잭션 (Transaction)

– 데이터베이스 시스템에서 하나의 논리적 기능을 정상적으로 수행하기 위한 작업의 기본 단위

구글 파일 시스템 (GFS; Google File System)

– 구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템

– 파일을 고정 크기(64MB)의 청크들로 나누고, 청크와 여러 개의 복제본을 청크 서버에 분산하여 저장하는 시스템

하둡 분산 파일 시스템 (HDFS; Hadoop Distributed File System)

– 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 분산 파일 시스템

– 블록 구조의 파일 시스템으로 파일을 특정 크기의 블록으로 나누어 분산된 서버에 저장된다.

– 블록 크기는 64MB에서 하둡 2.0부터는 128MB로 증가되었다.

맵리듀스 (MapReduce)

– 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리 또는 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크

– 모든 데이터를 키-값(Key-Value) 쌍으로 구성하고, 데이터를 분류 및 처리한다.

– Map → Shuffle → Reduce 순서대로 데이터를 처리한다.

하둡 에코 시스템 (Hadoop Ecosystem)

– 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임으로 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술을 포함한 용어

아파치 스파크(Apache Spark) 또는 스파크

– 인 메모리(In-Memory) 기반으로 빅데이터 워크로드에 주로 사용되는 오픈 소스 분산 처리 시스템

– 빠른 성능을 위해 인 메모리 캐싱을 사용하고, 스트리밍 데이터 처리, 온라인 러닝머신, SQL 질의 처리, 그래프 라이브러리 처리 등 실시간 데이터 처리가 가능한 하둡 에코 시스템

하이브 (Hive)

– 하둡 기반의 DW(Data Warehouse) 솔루션으로, 사용자가 SQL(Simple Query Language)로 쿼리를 작성하면 내부적으로 맵리듀스로 변환되어 실행된다.

타조 (Tajo)

– 하둡 기반의 대용량 데이터를 SQL 형태의 명령을 통해 분산 분석 작업을 지원하는 대용량 데이터 웨어하우스

– 하둡의 HDFS을 메인 저장소로 활용하고, 다양한 파일 형태와 압축을 지원한다.

– ANSI-SQL 표준 준수 및 자동 최적화를 지원하는 하둡 에코 시스템

우지 (Oozie)

– 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템으로 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버

– 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우를 제어하는 하둡 에코 시스템

피그 (Pig)

– 대용량 데이터 집합을 분석하기 위한 플랫폼

– 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어 제공

– 맵리듀스 API를 매우 단순화시키고, SQL과 유사한 형태로 설계된다.

얀 (YARN)

– 리소스 관리와 컴포넌트 처리를 분리한 하둡 2.0에 도입된 분산 클러스터 리소스 관리 플랫폼

– 얀 자체로 맵리듀스를 구동할 수 있으며, 추가로 다른 분산 처리 프레임워크를 사용자의 인터페이스 개발만으로 구동할 수 있는 기능을 제공한다.

쿠두 (Kudu)

– 오픈 소스 소프트웨어로 제작된 컬럼 기반 스토리지

– 아파치 하둡 환경의 데이터 처리 프레임워크 대부분과 호환이 가능하고, 특정 컬럼에 대한 데이터 읽기를 고속화할 수 있는 특징이 있는 하둡 에코 시스템

Column Family Data Store

– Key 안에 (Column, Value) 조합으로 된 여러 개의 필드를 갖는 DB

– 테이블 기반, 조인 미지원, 컬럼 기반, 구글의 Bigtable 기반으로 구현된다.

– 주요 제품으로는 HBase, Cassandra 등이 있다.

HBase

– NoSQL 제품 중 하둡 분산 파일 시스템(HDFS)을 기반으로 구현된 컬럼 기반의 분산 데이터베이스

– 비관계형이며 SQL을 지원하지 않는 특성이 있고, 관계형 데이터베이스(RDBMS)와 달리 수평적으로 확장성이 있어 큰 테이블에 적합한 제품

Graph Store

– 시맵틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현하는 DB

– NoSQL의 유형으로서, Neo4j, AllegroGraph 등의 제품이 있다.

데이터베이스 클러스터(Database Cluster)

– 하나의 데이터베이스를 여러 개의 서버 상에 분산하여 구축하는 저장 기술

– 데이터를 통합할 때, 성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 등을 이용한다.

러스터 (Lustre)

– 리눅스와 클러스터의 합성어로, 고성능 컴퓨팅을 위한 대용량 분산 파일 시스템이다.

– 고속 네트워크로 연결된 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장 서버들로 구성된 시스템

NoSQL

– 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어

– 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인(Join) 연산을 사용할 수 없으며, 수평적으로 확장이 가능한 DBMS이다.

– 비관계형 데이터베이스 관리 시스템으로, 스키마가 없고 ACID 요건을 완화하거나 제약하는 형태의 저장 시스템

마이데이터

– 개인이 자신의 정보를 관리, 통제할 뿐만 아니라 이러한 정보를 신용이나 자산관리 등에 능동적으로 활용하는 일련의 과정

– 개인은 데이터 주권인 자기 정보결정권으로 개인 데이터의 활용과 관리에 대한 통제권을 개인이 가진다는 것이 핵심 원리

l-다양성 (l[엘]-Diversity)

– 프라이버시 보호 모델에서 주어진 데이터 집합에서 함께 비식별되는 레코드들은(동질 집합에서) 적어도 l개의 서로 다른 민감한 정보를 가져와야 하는 프라이버시 모델

가명 정보

– 추가 정보의 사용 없이는 특정 개인을 알아볼 수 없게 조치한 정보이고, 익명 정보는 더 이상 개인을 알아볼 수 없게(복원 불가능한 정도로) 조치한 정보

– 통계작성(상업적 목적 포함), 연구(산업적 연구 포함), 공익적 기록보존 목적 등에 동의 없이 활용 가능 (EU GDPR 반영)

범주화(Data Suppression) 기법

– 은폐화 방법이라고도 하며, 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주의 값으로 변환하는 방식

– 랜덤 올림 방법, 범위 방법, 세분 정보 제한 방법, 제어 올림 방법의 세부 기술을 가지고 있다.

총계 처리(Aggregation) 기법

– 수집된 정보에 민감한 개인 정보가 있을 경우, 데이터 집합 또는 부분으로 집계 처리를 하여 민감성을 낮추는 방법

데이터 마스킹(Data Masking)

– 개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값(공백, ‘*’, 노이즈 등)으로 변환하는 기법

– 완전 비식별화가 가능하며, 원시 데이터의 구조에 대한 변형이 적다.

평활화 (Smoothing)

– 일반적인 데이터 변환 기술에는 평활하, 집계, 일반화, 정규화, 속성 생성 등이 있다.

– 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법

– 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만들기 위해 구간화, 군집화 등의 기법을 적용하는 데이터 변환 기술

정규화 (Normalization)

– 데이터를 정해진 구간 내에 들도록 하는 기법

– 최단 근접 분류와 군집화와 같은 거리 측정 등을 위해 특히 유용하다.

스키마 (Schema)

– 데이터베이스에서 자료의 구조, 자료의 표현 방법, 자료 간의 관계를 형식 언어로 정의한 구조

스트림 데이터 (Stream Data)

– 빅데이터 수집 시스템에서 수집 대상이 되는 데이터를 저장 형태 관점에서 분류했을 때 분류하면, 파일 데이터, 데이터베이스 데이터, 콘텐츠 데이터, 스트림 데이터 등으로 나눌 수 있다.

– 센서 데이터, HTTP 트랜잭션, 알람 등과 같이 네트워크를 통해서 실시간으로 전송되는 데이터의 유형

반정형 데이터 (Semi-structured Data)

– 스키마(형태) 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식에서 일관성을 가지지 않는 데이터

– XML, HTML과 같은 웹 데이터가 Node 형태의 구조를 가짐

비정형 데이터 (Unstructured Data)

– 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터

– SNS, 오디오, 이미지, 비디오

척와 (Chuckwa)

– 대규모 분산 시스템 모니터링을 위해 에이전트와 컬렉터 구성을 통해 데이터를 수집하고, 수집된 데이터를 하둡 파일 시스템(HDFS)에 저장하는 기능을 제공하는 데이터 수집 기술

스크라이브 (Scribe)

– 다수의 수집 대상 서버로부터 실시간 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술

카프카(Kafka) 또는 아파치 카프카(Apache Kafka)

– 대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행(Publish), 구독(Subscribe)하는 방식의 분산 스트리밍 플랫폼 기술

데이터 마이닝 (Data Mining)

– 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법

스크래파이 (Scrapy)

– 웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬(Python) 기반의 애플리케이션 프레임워크

– 데이터 마이닝, 정보 처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 비정형 데이터 수집 기술

하둡 (Hadoop)

– 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하고, 분산 응용 프로그램을 지원하는 오픈 소스 자바 소프트웨어 프레임워크

스쿱 (Sqoop)

– 커넥터(Connector)를 사용하여 관계형 데이터베이스 시스템(RDBMS)에서 하둡 파일 시스템(HDFS)으로 데이터를 수집하거나, 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기능을 수행하는 대용량 데이터 전송 시스템

CEP (Complex Event Processing)

– 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리 기술

– 실시간 상황에서 의미 있는 이벤트를 파악하고 가능한 빨리 대응할 수 있다.

Rsync (Remote Sync)

– 서버-클라이언트 방식으로 로컬 또는 원격의 수집 대상 시스템과 1:1로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술