2️⃣

챕터 02 대규모 데이터 처리 입문

강의 5 대규모 데이터 처리의 어려운 점

메모리는 전기적인 부품이므로 물리적 구조는 탐색속도와 그다지 관계없다.

마이크로초(10^-6초)단위의 포인터 이동으로 탐색이 수행된다.

한편 디스크는 헤드의 이동, 원반(디스크)의 회전 이라는 물리적인 동작을 수반한다.

각각 수 밀리초(10^-3초)가 걸리는 동작이다.

다음으로 탐색에 사용되는 것이 CPU 의 캐시에 올리기 쉬운 알고리즘이나 데이터 구조라면 메모리 내용이 CPU캐시에 올라가므로 더욱 빨라져 나노초(10^-9초) 단위로 처리할 수 있다.

os 는 디스크의 단저인 물리적 동작에 따른 시간 소요를 커버하기 위해 연속된 데이터를 같은 위치에 쌓고 데이터를 읽을때 페이지 단위로 읽음으로써 디스크의 회전을 최소화 합니다.

규모조정 (Scaling)

1 프로그램을 작성할 때의 요령

1) 메모리에서 처리를 마칠 수 있도록

2) 데이터량 증가에 강한 알고리즘을 사용

3) 데이터 압축, 정보검색 기술

2 프로그램 개발의 근간이 되는 기초

1) OS 캐시 - 3장

2) 분산을 고려한 RDBMS - 4장

3) 대규모 환경에서 알고리즘과 데이터 구조 - 5장