본 아티클은 데이터 마이닝에 대한 개인적인 연구를 위해 책에 대한 요약 및 관련 자료 정리의 목적으로 작성되었습니다.

데이터 마이닝 탄생 배경
- 데이터 수집과 저장 기술의 급속한 발전으로 대규모 데이터 축적.
- 유용한 정보 추출의 어려움.
- 기존의 분석 도구와 기법은 대규모 데이터에 적용 불가능.
데이터 마이닝
기존의 데이터 분석 기법과 대규모 데이터 처리를 위한 정교한 알고리즘을 합성한 기법.
데이터 마이닝 응용
- 비즈니스
- 소매상들은 전자상거래 웹사이트의 웹로그와 콜센터의 고객서비스 기록 등을 유용한 데이터를 활용하여 고객의 요구 이해, 영업관련 의사결정 내림.
- 고객 프로필 작업, 맞춤형 마케팅, 워크플로우 관리, 진열장 배치, 사기(fraud) 탐지 등에 적용.
- 예, “누가 가장 이익을 많이 주는 고객들인가?”, “교차판매, 상향 판매 된 제품은 무엇인가?”, “회사의 내년도 수입 전망은?” 과 같은 질문에 대한 답.
- 의학, 과학, 공학
- 중요한 새로운 발견들을 가능하게 하는 데이터의 축적을 급속도로 진행.
- 방대한 데이터의 크기와 시공간적 특성으로 인하여 기존의 방법은 분석에 적합하지 않음.
- 예, “가뭄이나 허리케인에서 지구온난화와 같은 에코 시스템 저해 요인의 빈도와 강도 사이의 관계는 무엇인가?”, “지표강수량과 기온은 해양 표면온도에 어떻게 영향을 받는가?”, “우리는 어떻게 하면 특정 지역의 성장 시기가 시작되고 종료되는 것을 잘 예측할 수 있을까?” 와 같은 질문에 대한 답.
1.1 데이터 마이닝이란 무엇인가?
데이터 마이닝(data minig)은 대규모 데이터 저장소에서 유용한 정보를 자동적으로 탐색하는 과정.
데이터 마이닝과 지식탐사
- 입력 데이터(input data) - 다양한 형식(일반 파일, 스프레드시트, 관계 테이블)으로 저장.
- 전처리(preprocessing) – 입력 데이터를 분석에 적합한 형식으로 변환, 다양한 소스 데이터의 병합, 데이터 정제를 통한 잡음과 중복 제거, 데이터 마이닝 작업과 관련된 레코드와 특징들만 선택.
- 데이터 마이닝(data mining) - 의사결정 시스템으로 활용, 영업 관리 도구와 통합되어 효과적인 마메팅 홍보에 적용되고 결과 검증.
- 후처리(postprocessing) - 통합 과정 중 타당성 있고 유용한 결과만을 의사결정 시스템에 통합되도록 보장.
1.2 계기가 된 도전들
- 확장성 – 데이터 마이닝 알고리즘이 대규모 데이터 집합을 다루기 위한 확장성(scalability) 필요.
- 고차원 - 저차원 데이터를 위해 개발된 기존의 데이터 분석 비법은 고차원(high-dimensionality) 데이터에는 잘 동작하지 않음.
- 이질 복잡 데이터 - 기존의 데이터 분석 방법은 연속형이나 범주형의 동일한 유형의 속성을 가진 데이터 집합을 다룸. 이질 속성을 처리하는 기법 필요.
- 예, 준구조(semi-structured) 텍스트, 하이퍼링크를 가지는 웹 페이지의 모음, 순차와 3차원 구조를 가지는 DNA 데이터, 지구 표면의 다양한 위치에 대한 시계열 측정치 (온도, 압력 등).
- 데이터 소유 및 분산 - 한 장소에 저장되거나 한 기관이 소유하지 않고, 분산되어 있는 데이터.
- 분산 데이터 마이닝 알고리즘
- 분산 컴퓨팅을 수행하는 데 필요한 통신량을 감소하는 방법.
- 다양한 자원으로부터 입수한 데이터 마이닝 결과를 효과적으로 통합하는 방법.
- 데이터 보안 문제를 해결하는 방법.
- 새로운 분석 - 기존의 통계 접근 방식은 가설-검증 패러다임에 기초. 새로운 분석 방식 필요.
1.3 데이터 마이닝의 기원
여러 학문 분야의 연구자들은 다양한 데이터를 처리하는 효과적이고 확장성 있는 도구들을 개발하는 데 초점을 두기 시작. 이전에 사용한 방법론과 알고리즘 위에 구축되어 데이터 마이닝 분야 탄생.
데이터 마이닝 관련 분야
- 통계학의 샘플링, 추정, 가설 검증
- 인공지능 패턴 인식, 기계 학습에서 비롯된 탐색 알고리즘, 모델링 기법, 학습 이론
- 최적화, 진화적 컴퓨팅, 정보 이론, 신호 처리, 가시화, 정보 검색
1.4 데이터 마이닝 작업
- 예측 작업(predictive tasks) - 다른 속성의 값들을 기반으로 하여 특정 속성의 값을 예측.
- 목표(target), 종속변수(dependent variable) – 예측해야 하는 속성.
- 설명적(explanatory), 독립변수(independent variable) - 예측을 만드는 데 사용하는 속성.
- 서술 작업(descriptive tasks) - 데이터에 숨어있는 관련성을 요약하는 패턴(상관성, 경향, 군집, 궤적, 이상치) 검출.
네 가지 핵심 데이터 마이닝 작업
- 예측 모델링(predictive modeling) - 목표 변수를 설명 변수의 함수 모델로 생성하는 작업.
- 분류(classification) - 이산형 목표 변수에 사용.
- 예, 웹 사용자가 온라인 서점에서 구입 할 것인가를 예측. (목표 변수가 이산형)
- 회귀(regression) - 연속형 목표 변수에 사용.
- 예, 주식의 미래 가격을 예측. (가격이 연속형 값)
- 연관 분석(association analysis) - 데이터에 강하게 연관된 특징을 설명하는 패턴 발견.
- 예, 관련 기능을 가지는 유전자 그룹 검색, 함께 접근되는 웹 페이지 식별, 지구 기후 시스템의 상이한 요소들 간의 관련성 이해.
- 군집 분석(cluster analysis) - 동일한 군집에 속하는 관측들은 다른 군집에 속하는 관측보다 더 유사하도록 긴밀하게 관련된 관측의 그룹 탐색.
- 예, 지구 기후에 현저한 영향을 미치는 바다의 지역 검색, 데이터 압축에 활용.
- 이상치 탐지(anomaly detection) - 특징이 다른 나머지 데이터들과 현저히 다른 관측들을 식별하는 작업.
- 예, 사기 탐지, 네트워크 침입, 질병의 특이 패턴 및 지구환경 혼란.
1.5 이 책의 범위와 구성
정리에서 제외.
1.6 참고문헌 설명
정리에서 제외.
1.7 연습문제
정리에서 제외.
Leave your greetings.