수안이의 컴퓨터 연구실

  • Mainpage
  • About Me
  • Tags
  • Metapage
  • Notice
  • Location
  • Keywords
  • Guestbook
  • Admin
  • Write an Article
  • Total | 1693857
  • Today | 208
  • Yesterday | 588

1 Articles, Search for '군집 분석'

  1. 2009/02/08 데이터 마이닝 (Data Mining) - 제1장. 서론 (2)
Data Mining2009/02/08 17:22

데이터 마이닝 (Data Mining) - 제1장. 서론

본 아티클은 데이터 마이닝에 대한 개인적인 연구를 위해 책에 대한 요약 및 관련 자료 정리의 목적으로 작성되었습니다.

  • Amazon.com - INTRODUCTION TO DATA MINING
  • Kangcom.com - 데이터 마이닝
  • 저자 홈페이지 - http://www-users.cs.umn.edu/~kumar/dmbook/index.php

데이터 마이닝 탄생 배경

  • 데이터 수집과 저장 기술의 급속한 발전으로 대규모 데이터 축적.
  • 유용한 정보 추출의 어려움.
  • 기존의 분석 도구와 기법은 대규모 데이터에 적용 불가능.

데이터 마이닝

기존의 데이터 분석 기법과 대규모 데이터 처리를 위한 정교한 알고리즘을 합성한 기법.


데이터 마이닝 응용

  • 비즈니스
    • 소매상들은 전자상거래 웹사이트의 웹로그와 콜센터의 고객서비스 기록 등을 유용한 데이터를 활용하여 고객의 요구 이해, 영업관련 의사결정 내림.
    • 고객 프로필 작업, 맞춤형 마케팅, 워크플로우 관리, 진열장 배치, 사기(fraud) 탐지 등에 적용.
    • 예, “누가 가장 이익을 많이 주는 고객들인가?”, “교차판매, 상향 판매 된 제품은 무엇인가?”, “회사의 내년도 수입 전망은?” 과 같은 질문에 대한 답.
  • 의학, 과학, 공학
    • 중요한 새로운 발견들을 가능하게 하는 데이터의 축적을 급속도로 진행.
    • 방대한 데이터의 크기와 시공간적 특성으로 인하여 기존의 방법은 분석에 적합하지 않음.
    • 예, “가뭄이나 허리케인에서 지구온난화와 같은 에코 시스템 저해 요인의 빈도와 강도 사이의 관계는 무엇인가?”, “지표강수량과 기온은 해양 표면온도에 어떻게 영향을 받는가?”, “우리는 어떻게 하면 특정 지역의 성장 시기가 시작되고 종료되는 것을 잘 예측할 수 있을까?” 와 같은 질문에 대한 답.

1.1 데이터 마이닝이란 무엇인가?

데이터 마이닝(data minig)은 대규모 데이터 저장소에서 유용한 정보를 자동적으로 탐색하는 과정.


데이터 마이닝과 지식탐사

사용자 삽입 이미지

  • 입력 데이터(input data) - 다양한 형식(일반 파일, 스프레드시트, 관계 테이블)으로 저장.
  • 전처리(preprocessing) – 입력 데이터를 분석에 적합한 형식으로 변환, 다양한 소스 데이터의 병합, 데이터 정제를 통한 잡음과 중복 제거, 데이터 마이닝 작업과 관련된 레코드와 특징들만 선택.
  • 데이터 마이닝(data mining) - 의사결정 시스템으로 활용, 영업 관리 도구와 통합되어 효과적인 마메팅 홍보에 적용되고 결과 검증.
  • 후처리(postprocessing) - 통합 과정 중 타당성 있고 유용한 결과만을 의사결정 시스템에 통합되도록 보장.

1.2 계기가 된 도전들

  • 확장성 – 데이터 마이닝 알고리즘이 대규모 데이터 집합을 다루기 위한 확장성(scalability) 필요.
  • 고차원 - 저차원 데이터를 위해 개발된 기존의 데이터 분석 비법은 고차원(high-dimensionality) 데이터에는 잘 동작하지 않음.
  • 이질 복잡 데이터 - 기존의 데이터 분석 방법은 연속형이나 범주형의 동일한 유형의 속성을 가진 데이터 집합을 다룸. 이질 속성을 처리하는 기법 필요.
    • 예, 준구조(semi-structured) 텍스트, 하이퍼링크를 가지는 웹 페이지의 모음, 순차와 3차원 구조를 가지는 DNA 데이터, 지구 표면의 다양한 위치에 대한 시계열 측정치 (온도, 압력 등).
  • 데이터 소유 및 분산 - 한 장소에 저장되거나 한 기관이 소유하지 않고, 분산되어 있는 데이터.
    • 분산 데이터 마이닝 알고리즘
      • 분산 컴퓨팅을 수행하는 데 필요한 통신량을 감소하는 방법.
      • 다양한 자원으로부터 입수한 데이터 마이닝 결과를 효과적으로 통합하는 방법.
      • 데이터 보안 문제를 해결하는 방법.
  • 새로운 분석 - 기존의 통계 접근 방식은 가설-검증 패러다임에 기초. 새로운 분석 방식 필요.

1.3 데이터 마이닝의 기원

여러 학문 분야의 연구자들은 다양한 데이터를 처리하는 효과적이고 확장성 있는 도구들을 개발하는 데 초점을 두기 시작. 이전에 사용한 방법론과 알고리즘 위에 구축되어 데이터 마이닝 분야 탄생.

사용자 삽입 이미지

데이터 마이닝 관련 분야

  • 통계학의 샘플링, 추정, 가설 검증
  • 인공지능 패턴 인식, 기계 학습에서 비롯된 탐색 알고리즘, 모델링 기법, 학습 이론
  • 최적화, 진화적 컴퓨팅, 정보 이론, 신호 처리, 가시화, 정보 검색

1.4 데이터 마이닝 작업

  • 예측 작업(predictive tasks) - 다른 속성의 값들을 기반으로 하여 특정 속성의 값을 예측.
    • 목표(target), 종속변수(dependent variable) – 예측해야 하는 속성.
    • 설명적(explanatory), 독립변수(independent variable) - 예측을 만드는 데 사용하는 속성.
  • 서술 작업(descriptive tasks) - 데이터에 숨어있는 관련성을 요약하는 패턴(상관성, 경향, 군집, 궤적, 이상치) 검출.

네 가지 핵심 데이터 마이닝 작업

사용자 삽입 이미지
 

  • 예측 모델링(predictive modeling) - 목표 변수를 설명 변수의 함수 모델로 생성하는 작업.
    • 분류(classification) - 이산형 목표 변수에 사용.
      • 예, 웹 사용자가 온라인 서점에서 구입 할 것인가를 예측. (목표 변수가 이산형)
    • 회귀(regression) - 연속형 목표 변수에 사용.
      • 예, 주식의 미래 가격을 예측. (가격이 연속형 값)
  • 연관 분석(association analysis) - 데이터에 강하게 연관된 특징을 설명하는 패턴 발견.
    • 예, 관련 기능을 가지는 유전자 그룹 검색, 함께 접근되는 웹 페이지 식별, 지구 기후 시스템의 상이한 요소들 간의 관련성 이해.
  • 군집 분석(cluster analysis) - 동일한 군집에 속하는 관측들은 다른 군집에 속하는 관측보다 더 유사하도록 긴밀하게 관련된 관측의 그룹 탐색.
    • 예, 지구 기후에 현저한 영향을 미치는 바다의 지역 검색, 데이터 압축에 활용.
  • 이상치 탐지(anomaly detection) - 특징이 다른 나머지 데이터들과 현저히 다른 관측들을 식별하는 작업.
    • 예, 사기 탐지, 네트워크 침입, 질병의 특이 패턴 및 지구환경 혼란.

1.5 이 책의 범위와 구성

정리에서 제외.


1.6 참고문헌 설명

정리에서 제외.


1.7 연습문제

정리에서 제외.

"Data Mining" 카테고리의 다른 글
  • 데이터 마이닝 (Data Mining) - 제2장. 데이터 (0)2009/12/18
  • 데이터 마이닝 (Data Mining) - 제1장. 서론 (2)2009/02/08
  • 데이터 마이닝 관련 동영상 모음 (0)2009/02/08
  • 비트 파워프로젝트/자동차보험사의 데이터 마이닝... (0)2005/07/31
2009/02/08 17:22 2009/02/08 17:22
Posted by webdizen
Tags Data Mining, 고차원, 군집 분석, 데이터 마이닝, 데이터 분산, 데이터 소유, 서술 작업, 연관 분석, 예측 모델링, 예측 작업, 이상치 탐지, 이질 복잡 데이터, 전처리, 지식탐사, 확장성, 후처리
No Trackback 2 Comments

Trackback URL : http://www.webdizen.net/blog/trackback/3330

Leave your greetings.

  1. 김형수

    안녕하십니까 저는 사관학교에 다니는 학생입니다.

    현재 운영분석학과를 전공으로 하고 있으며 배우는 과목으로 지금 홈피에 있는 데이터 마이닝을 공부하고 있습니다.

    현재 진도는 2장을 하고 있으며 원문을 보고 있어서 조금 뎌디게 지나가고 있습니다.

    연습문제를 풀면서 답을 찾는 과정에서 현재 여기 홈피까지 들어오게 되었습니다.

    혹시 연습문제를 풀어보셨으면 저에게 정보를 공쥬해 주셨으면 감사하겠습니다.

    혼자 할려니 많은 어려움이 많습니다.

    데이터 마이닝 관련 동영상 잘봤습니다. 감사합니다.

    좋은하루 되세요.

    2009/04/20 17:22 [ Permalink : Modify/Delete : Reply ]
    • webdizen

      안녕하세요. 김형수님.
      제가 도움을 드리고 싶지만, 제가 블로그에 올린 데이터 마이닝 책은 단순히 정리를 위한 목적으로 보고 있고, 실제적으로 저는 Han, Kamber의 Data Mining 책으로 공부하고 있습니다. 도움을 드리지 못하게 되어 죄송합니다.

      2009/04/28 12:41 [ Permalink : Modify/Delete ]
[로그인][오픈아이디란?]

«Prev  1  Next»

RSS HanRSS
Blog Image
webdizen
이곳은 컴퓨터에 대해 연구하고, 공유하고, 소통하기 위한 연구실입니다. 개인적으로는 OLAP, Data Mining, Semantic Web, Data Modeling에 대해서 연구하고 있습니다.

Categories

전체 (3009)
Webdizen (141)
Life (6)
Diary (16)
Blog (9)
IDEA (2)
Travel (10)
Book (16)
Photo (7)
Movie (8)
Music (14)
Leisure Sports (10)
Funny (6)
Hardware (121)
Software (120)
Windows (5)
Unix & Linux (120)
Installation (5)
Kernel (10)
System (34)
Develop (22)
X-Window (0)
Applicaton (31)
Security (4)
Framework (2)
Hadoop (2)
Programming (804)
Algorithm & Data Structure (1)
Assembly (38)
UNIX/Linux C (95)
C++ (128)
STL (4)
Java (38)
Win32 API (92)
ATL/COM (44)
MFC (151)
.NET (26)
WCF/WPF (4)
C# (28)
Network Programming (17)
Database Programming (12)
OpenGL / DirectX (13)
Multimedia Programming (0)
Game Programming (21)
Parallel Distributed Progra... (0)
Reverse Engineering (0)
Debugging (9)
Python (1)
Ruby (1)
Ruby on Rails (1)
QT (4)
GTK (0)
JSP (0)
PHP (6)
ASP.NET (6)
ASP (2)
Development (28)
Useful Library (2)
Data Modeling (0)
Database (105)
Oracle (4)
MSSQL (41)
MySQL (2)
Data Warehouse (2)
Data Mining (4)
Network (66)
Web (79)
DHTML (4)
XHTML (1)
Javascript (1)
CSS (1)
AJAX (9)
XML (11)
Flex (1)
Silverlight (3)
Security (91)
DoS (1)
Kernel (10)
Scanning (3)
Sniffing (0)
Spoofing (4)
Overflow (28)
Web (11)
Shell (10)
Format String (14)
Window (2)
Embedded (70)
Multimedia (27)
Mobile (14)
Graphic (24)
Management (633)
Knowledge (581)
Hadoop (0)

Notice

  • 메타 블로그 사이트에 등록
  • 새해 맞이 블로그의 변화
  • 블로그 명칭 변경
  • 도메인(www.webdizen.net) 구...
  • TEXTCUBE 1.6.1로 업그레이드...

Tags

  • find
  • 탁구
  • dBASE
  • 버전 관리
  • 프로그래머
  • 쿼리 커버
  • 보안 솔루션
  • 발성
  • 교착상태
  • 클립보드
  • 슬로코도
  • 안내도
  • TCP/IP
  • Unix 시간
  • 데이터 분산
  • 스키점프
  • Python
  • 프로세스 정보
  • ie
  • 가상 메모리 크기

Recent Articles

  • 트위터(Twitter)의 시작!.
  • 청년 리더의 조건.
  • 애플의 타블렛 PC - 아이패드....
  • 미래의 인터페이스 - 육감 기....
  • 기초발성법 동영상 강좌.

Recent Comments

  • 학교 과제물중 쓰레드에 대하....
    장진혁 03/17
  • 관리자만 볼 수 있는 댓글입....
    비밀방문자 03/12
  • 상대방의 이야기를 열심히 경....
    DoNuts 03/03
  • Lots of students know techn....
    Bobbi35Shannon 02/25
  • 좋은글 잘 보고 갑니다..
    Und_hacker 01/08

Recent Trackbacks

  • printf,scanf를 이용한 형식....
    yundream의 프로그래밍 이야기 03/10
  • 파일 열기/저장하기 CFileDialog.
    은마군의 나태블록 2009
  • World IT Show 2008.
    상우 :: Oranzie's BLOG 2008
  • cvs서버 설치하기.
    3인3색 2008
  • 속속 공개되는 Google Chart....
    PHP와 Web 2.0 2007

Archive

  • 2010/02 (1)
  • 2010/01 (6)
  • 2009/12 (5)
  • 2009/09 (3)
  • 2009/08 (1)

Calendar

«   2010/03   »
일 월 화 수 목 금 토
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      

Bookmarks

    • Administration
      • IIS.NET
      • NTFAQ
      • OS의 모든 것
      • 리눅스포털
    • Database
      • SQL Server Central
      • SQL Team
    • Development
      • .NET Heaven
      • ASP Alliance
      • ASP.NET 2.0
      • Bullog.net
      • C# Corner
      • C++ (C PlusPlus.com)
      • C++ Reference
      • CodeGuru
      • CodePlex
      • DebugLab
      • Dev Articles
      • Devpia
      • DotNet Junkies
      • DotNet Zone
      • Driver Online
      • GOSU.NET
      • HOONS 닷넷
      • Joinc 팀블로그
      • KOSR
      • MSDN Home Page
      • OSR Online
      • Sky.ph - 개발자 커뮤니...
      • TAEYO.NET
      • The Code Project
      • WindowsClient.net
      • 김상욱의 개발자 Side
      • 조인시 위키
    • Human Networks
      • belief21c's e-space
      • I think I can
      • Invisible Rover's Blog :D
      • Rodman®
      • ■ Feel So Good~! ■
      • 까만 나비
      • 나를 가꾸는 시간.
      • 나만의 즐거움~~!
      • 단녕
      • 상우 :: Oranzie's BLOG
    • Information Technology
      • Microsoft TechNet
      • 지디넷코리아 - 글로벌...
    • Security
      • FoundStone
      • milw0rm
      • NewOrder
      • OpenRCE
      • Phrack.org
      • Reverse Engineering b1...
      • Reverse Engineering Team
      • RootKit
      • SecurityFocus
      • SecurityXploded by Nag...
      • Wow Hacker
      • Zone-H
Textcube
Louice Studio Inc.
Powered by Textcube. Original designed by Tistory.