'Data' 카테고리의 글 목록

Hadoop - 읽기 쓰기 Data 흐름

Data 2024. 4. 3. 00:49

들어가기 앞서, 데이터를 읽고 쓰는 명령을 받는 역할은 Name node가 아닌 Data node에서 수행한다. 그리고 데이터를 읽고 쓰는 명령을 받은 Node를 Client node라고 칭한다. 데이터 읽기 사용자가 데이터 읽기 명령어를 입력하면 Client node에서 수신하고 데이터 읽기를 처리하는 과정을 알아보자. (JVM Client 예시) HDFS JVM Client를 통해서 읽고자하는 파일을 여는 명령을 날린다. (Client node 영역) Client node에서 파일 읽기에 대한 명령을 받는 주체는 DistributedFileSystem이다. DistributedFileSystem은 명령을 받은 파일의 위치를 알아내기 위해서 Name node에 질의한다. 블록의 위치를 얻은 Distri..

Hadoop - Name node, Data node, HDFS 클라이언트

Data 2024. 3. 25. 23:09

Name Node, Data Node, HDFS 클라이언트 들어가며 Hadoop HDFS 클러스터는 마스터 노드, 워커 노드로 분리되어 관리하고있다. 마스터 노드를 Name Node라고 칭하고, 워커 노드를 Data Node라고 칭한다. Name Node Name Node에서는 HDFS에서 메타 데이터를 관리하는 노드이다. 메타 데이터에는 네임스페이스 이미지와 에디트 로그 두가지 파일로 저장된다. 또한 Data Node의 블록 데이터 위치를 저장하는데 이거는 메모리에 저장되기 때문에 Name Node가 재시동되면 Data Node의 블록 위치가 다 날라가서 재구성해야한다. Data Node Data Node에는 실질적인 파일이 물리적으로 저장되는 곳이다. Data Node는 클라이언트 혹은 Name No..

Hadoop - HDFS 알아보기

Data 2024. 3. 25. 03:29

HDFS (하둡 분산 파일 시스템) 분산 파일 시스템이란? 물리 디스크에 저장되어있는 파일을 각각의 서버들이 데이터셋을 나눠가져 저장/관리함. 그러므로 데이터를 가지고있는 머신들이 네트워크로 연결되어야함. 네트워크 문제와 디스크 문제를 모두 가지고있어 관리가 복잡하다. 그 중 가장 큰 문제는 분산된 데이터를 가진 노드가 죽었을 때 복구를 하는 것이 가장 난제이다. HDFS의 설계와 실무 적용시 고려사항 고가용성을 가지고있기 때문에 데이터셋 볼륨 자체가 매우 클 때 유용함 HDFS는 "쓰는 것"보다 "읽는 것"에 더욱 집중을하였음. 읽는 것 중에서도 전체 데이터셋을 읽는 것에 중심을 두었음. HDFS는 특정 노드가 죽더라도 복구가 가능하도록 구성되어있다. 최종 사용자는 이를 보고 장애에 대한 판별을 할 수..

ABOUT ME

악스아의 고찰구역 악스아의 고찰구역

티스토리툴바