본문 바로가기

개발하자/빅데이터

빅데이터 5/23 수업내용

빅데이터 = 거래 + 상호작용 + 관찰


빅데이터의 특징


Gartner(미국의 IT 리서치 회사)

1.크기(Volume) : 일반적으로 수십 테라 바이트 혹은 수십 페타바이트 이상 규모의 데이터 속성을 의미

2.속도(Velocity) : 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성

3.다양성(Variety) : 다양한 종류의 데이터를 의미


McKinsey & Company(미국의 경영컨설팅 회사인 맥킨지앤컴퍼니)

일반적인 데이터베이스 관리도구가 저장·관리·분석할 수 있는 

범위를 초과하는 규모의 데이터


IDC(미국의 IT 마켓리서치 회사 International Data Corporation)

다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 

데이터의 초고속 수집·발굴·분석을 지원하도록 고안된 

차세대 기술 및 아키텍처


최근에는 정확성(Veracity) , 가변성(Variability) , 시각화(Visualization) 가

추가로 제시되고 있다.





빅데이터분석: 최적화기법이 들어감 , 머신러닝 , AI ,

블랙박스테스트를 이용해 결과를 도출,

예측가능한 정보 제공 가능, 모델(빅데이터의 필수요소)을 제공

분석주제 : 이런 대응을 할 경우 반응은?

   일어날 일중 최상의 것은 무엇인가?

   이런 시도를 한다면 결과는?

   다음에 무엇이 일어날 것인가?

   인과관계는 무엇인가?


전통적인분석: 통계적인 모델, 모니터링, 조건에 따른 질의(QUERY),

, DRILL DOWN(누가누구의 아들인가처럼 원인분석에 사용하는 기술)

, 지표를 숫자로 출력하여 분석 출력

분석주제 : 현재 어떤 대응을 해야 하는가?

   정확히 어디에 문제가 있는가?

   어떤 정보가 정말 중요한 것인가?

   무엇이 일어나고 있는가?



*데이터 마이닝이란?

조직에서 규칙과 패턴을 찾는것

데이터 추출->정제->바꾼다->분석->통계정보추출,번역->레포트제출



*클러스터기법

밀도가 높은곳을 특정하는것



*머신러닝이란?

컴퓨터과학의 한분야(사람이나 동물처럼 컴퓨터가 학습하는것)



*지도학습(SUPERVISED) : 문제와 답을 주고 공부해라하는것

*비지도학습(UNSUPERVISED) : 규칙도 알아서 찾으라고 그냥 던져줌

(바나나를 잘랐을 경우도 바나나로 인지하도록하는것)



*마이닝VS머신러닝

마이닝은 데이터의 알려지지 않은 속성 즉 규칙을 찾는다.

머신러닝은 알려진 속성을 학습한 거에 기반하여 예측한다.

찾은 규칙에 입각해서 머신러닝을 시키기 때문에 둘은 겹치기도 겹치지 않기도 한다.


인공지능의 한영역으로 머신러닝(AI를 이루는 한가지 방식,특징을 추측하는 걸 사람이함), 딥러닝(머신러닝을 하는 많은 접근법, 고양이인지 개인지 식별하는것)이 있다.


범위는 인공지능>머신러닝>딥러닝