데이터 처리
데이터를 분석한다는 것은 통계에 기반을 두고 있지만, 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야입니다. 대기업의 경우 데이터마트와 데이터웨어하우스를 통해 분석 데이터를 가져와서 사용하고 있습니다. 데이터웨어하우스나 신규 시스템에 없는 자료의 경우 DOS나 스테이징 영역, 기존 운영시스템에서 데이터를 가져와 데이터웨어하우스에서 가져온 내용과 융합하여 활용할 수 있습니다.
그러나 운영시스템에 직접 접근하여 데이터를 활용한다는 것은 매우 리스크가 큰 일이므로 거의 활용하지 않고 있으며, 스테이징 영역 데이터는 운영시스템에서 임시로 저장된 데이터이기 때문에 가급적이면 클린징 영역인 ODS에서 데이터의 전처리를 하고 데이터웨어하우스나 데이터마트와 혼합하여 활용하는 것이 가장 이상적이라고 할 수 있습니다.
시각화 그래프
시각화는 수준으로 따지면 가장 낮은 분석이지만, 잘 사용한다면 복잡한 분석보다도 더 효율적이라고 할 수 있습니다. 따라서 대용량의 데이터를 다루는 분야인 빅데이터 분석에서는 시각화가 필수적입니다. 특히 탐색적 분석과 SNA분석을 할 때는 시각화가 필수적입니다.
공간분석
공간분석은 공간적인 차원과 함께 관련된 속성들을 모두 시각화하는 분석입니다. 맵 위에 관련된 속성들을 나타내고 모양, 크기, 굵기, 선 등으로 구분하여 인사이트를 얻습니다.
탐색적 자료 분석
탐색적 분석은 여러가지 차원과 값을 조합하는 방식으로 특이한 점이나 의미 있는 사실들을 추출하고 분석의 궁극적인 목적을 달성해가는 과정입니다. 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭이며, 프린스톤 대학의 튜키교수가 1977년 저서를 발표하여 EDA가 등장합니다.
탐색적 자료 분석은 데이터이해 단계와 변수생성 단계, 변수선택 단계에서 활용하고 있습니다.
통계분석
어떤 현상을 통합적으로 한눈에 알아보기 쉽게 일정한 시스템에 따라 숫자와 표, 그림의 형태로 나타내는 것을 말합니다. 통계에는 기술통계와 추측통계로 나눌수 있는데, 기술통계는 모집단으로부터 표본을 샘플링하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 요약, 정리하기 위해 하나의 숫자 또는 그래프 형태로 표현하는 절차입니다. 반면 추측통계는 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 철차를 말합니다.
통계분석의 활용분야는 여러가지가 있습니다. 정부의 경제정책 수립과 평가의 잣대로 활용하기도 하며, 농업, 의학, 경영, 스포츠 등 자연재해에 대한 대비나 신약 개발 및 제품 개발 등 수 많은 분야에서 활용되고 있습니다.
데이터마이닝
고급 데이터 분석법의 대표적인 예로써 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 위해 자료에 존재하는 관계, 규칙, 패턴 등을 탐색하고 이를 모형화하는 것을 말합니다. 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법입니다.
기계학습이란 인공지능의 한 분야로, 컴퓨터가 스스로 학습할 수 있도록 알고리즘과 기술을 개발하는 분야로 의사결정나무, 클러스터링, 베이지안 분류 등이 있습니다. 또한, 패턴인식은 원자료를 이용하여 사전지식과 패턴에서 추출된 통계 정보를 통해 자료 또는 패턴을 분류하는 방법으로 장바구니분석, 연관규칙 등이 있습니다.
데이터마이닝의 활용분야는 데이터베이스 마케팅, 신용평가 및 조기경보 시스템, 텍스트마이닝, 생물정보학 등이 있습니다.
'빅데이터' 카테고리의 다른 글
ADsP(데이터 분석 준전문가) - 암기노트2 (0) | 2020.04.10 |
---|---|
ADsP(데이터 분석 준전문가) - 암기노트 1 (0) | 2020.04.09 |
ADsP(데이터 분석 준전문가) - 분석 프로젝트의 특성 및 관리방안 (0) | 2020.04.08 |
ADsP(데이터 분석 준전문가) - 분석과제 관리 (0) | 2020.04.08 |
ADsP(데이터 분석 준전문가) - 분석 과제 발굴 (0) | 2020.04.08 |
댓글