빅데이터 = 거래 + 상호작용 + 관찰
빅데이터의 특징
Gartner(미국의 IT 리서치 회사)
1.크기(Volume) : 일반적으로 수십 테라 바이트 혹은 수십 페타바이트 이상 규모의 데이터 속성을 의미
2.속도(Velocity) : 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성
3.다양성(Variety) : 다양한 종류의 데이터를 의미
McKinsey & Company(미국의 경영컨설팅 회사인 맥킨지앤컴퍼니)
일반적인 데이터베이스 관리도구가 저장·관리·분석할 수 있는
범위를 초과하는 규모의 데이터
IDC(미국의 IT 마켓리서치 회사 International Data Corporation)
다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고
데이터의 초고속 수집·발굴·분석을 지원하도록 고안된
차세대 기술 및 아키텍처
최근에는 정확성(Veracity) , 가변성(Variability) , 시각화(Visualization) 가
추가로 제시되고 있다.
빅데이터분석: 최적화기법이 들어감 , 머신러닝 , AI ,
블랙박스테스트를 이용해 결과를 도출,
예측가능한 정보 제공 가능, 모델(빅데이터의 필수요소)을 제공
분석주제 : 이런 대응을 할 경우 반응은?
일어날 일중 최상의 것은 무엇인가?
이런 시도를 한다면 결과는?
다음에 무엇이 일어날 것인가?
인과관계는 무엇인가?
전통적인분석: 통계적인 모델, 모니터링, 조건에 따른 질의(QUERY),
, DRILL DOWN(누가누구의 아들인가처럼 원인분석에 사용하는 기술)
, 지표를 숫자로 출력하여 분석 출력
분석주제 : 현재 어떤 대응을 해야 하는가?
정확히 어디에 문제가 있는가?
어떤 정보가 정말 중요한 것인가?
무엇이 일어나고 있는가?
*데이터 마이닝이란?
조직에서 규칙과 패턴을 찾는것
데이터 추출->정제->바꾼다->분석->통계정보추출,번역->레포트제출
*클러스터기법
밀도가 높은곳을 특정하는것
*머신러닝이란?
컴퓨터과학의 한분야(사람이나 동물처럼 컴퓨터가 학습하는것)
*지도학습(SUPERVISED) : 문제와 답을 주고 공부해라하는것
*비지도학습(UNSUPERVISED) : 규칙도 알아서 찾으라고 그냥 던져줌
(바나나를 잘랐을 경우도 바나나로 인지하도록하는것)
*마이닝VS머신러닝
마이닝은 데이터의 알려지지 않은 속성 즉 규칙을 찾는다.
머신러닝은 알려진 속성을 학습한 거에 기반하여 예측한다.
찾은 규칙에 입각해서 머신러닝을 시키기 때문에 둘은 겹치기도 겹치지 않기도 한다.
인공지능의 한영역으로 머신러닝(AI를 이루는 한가지 방식,특징을 추측하는 걸 사람이함), 딥러닝(머신러닝을 하는 많은 접근법, 고양이인지 개인지 식별하는것)이 있다.
범위는 인공지능>머신러닝>딥러닝