가상머신을 분리해 생성하는 이유

안녕하세요! 빅디 입니다.

관련 질문은 빅데이터의 분산 아키텍처에 관한 내용입니다.

파일럿 단계가 진행 되면서 자연 스럽게 이해 되는 내용이기도 합니다.

그전에 간단히 설명 드리면요...

저희가 사용하는 소프트웨어(하둡, 주키퍼, Hbase, 카푸카 등)는 모두 분산 환경에서 작동하는 아키텍처를 갖고 있습니다. 여기서 핵심은 "분산환경" 이고, 이를 하둡 하나만 예를 들면 다음과 같습니다.

< 서버 10대 (Server01 ~ Server10) 환경 >

* 하둡 네임노드 구성: 2대(Server01, Server02)

* 하둡 저널노드 구성: 3대(Server03, Server04, Server05)

* 하둡 데이터노드 구성: 5대(Server06, Server07, Server08, Server09, Server10)

* 주키퍼 노드 구성: 3대(Server03, Server04, Server05)

10대의 서버로 하둡 클러스터를 아주 간단하게 구축 한다면 위처럼 구성해 볼 수 있습니다.
(실환경의 하둡 데이터 노드는 필요시 수십~수백(천)대로 구성 합니다.)

동일 역할을 하는 서버를 여러대 구성하여 가용성을 높이고, 데이터를 여러 노드에 분산 저장하여 안정성을 강화 하고, 분산 된 데이터를 분석 할땐 여러 데이터 노드의 컴퓨팅 파워로 병렬 처리해 빅데이터를 분석 할 수 있게 됩니다.

하지만 저희는 개인 PC에서 위와 같은 분산 환경을 구성할 수 없기 때문에, 2개의 가상머신을 이용해 최소사양의 아키텍처로 빅데이터 파일럿 프로젝트를 진행 하는 것 입니다.

Technical Architecture 또는 Application Architecture 분야의 전문가들도 분산 환경을 처음에 이해 하는것이 쉽지 않습니다. 모든것을 한번에 다 이해 하려 하지 마시고 조금씩 단계별로 알아 가시는 것을 추천 드립니다.

글을 쓰다 보니 위 내용은 별도의 강의로 보강해서 올려야 겠다는 생각이 드네요..ㅎㅎ

조만간 해당 강의를 올려 놓도록 하겠습니다. -빅디 올림

인프런 커뮤니티 질문&답변