B+ Tree

2 minute read

Published: July 07, 2022

LSM 트리에 관한 지난 포스트에서 B+ 트리에 대한 언급이 있었습니다. LSM 트리를 이해하는 데에 도움이 되지만 추가하기 너무 길어져서 별도의 포스팅으로 정리한다는 것이었는데요. 이 포스팅에서는 B+ 트리에 대해서 다뤄보고자 합니다. 기본적인 구조에서부터 어떻게 삽입, 삭제, 업데이트가 이루어지는지, 그리고 왜 B+ 트리가 효과적인지에 대해 살펴볼 예정입니다.

대부분의 논문과 책에서 B+ 트리를 말할 때 일반적으로 B 트리라고 부릅니다. 엄밀히 말하면 B 트리와 B+ 트리는 다른 자료구조이지만 많은 자료에서 B 트리는 다루지 않고 B+ 트리를 다루고, B+ 트리를 B 트리로 부르기 때문에 이 포스팅에서도 B 트리로 부르도록 하겠습니다.

이 문서는 A. Silberschatz의 Database System Concepts와 A. Petrov의 Database Internals에서 일부 발췌하였습니다.

Binary Tree

학부 1학년 혹은 2학년때 배우는 트리의 가장 기본적인 변형이 이진 트리(binary tree)입니다. 이진 트리는 하나의 루트 노드(root node)를 가지며, 모든 노드는 0개, 1개, 혹은 2개의 자식 노드를 가집니다. 새로운 값이 삽입될 때는 해당 값이 노드에 저장된 값보다 작으면 왼쪽 노드를, 크면 오른쪽 노드를 탐색하는 식으로 트리를 탐색해 탐색되는 노드가 없을 때 해당 위치에 새로운 값을 저장하는 방식으로 진행합니다.

Advantages?

이진 트리의 장점은 이상적인 상황에서 이론적인 탐색 시간이 $O(log_2N)$이라는 점입니다 ($N$은 노드의 개수). 어떤 값을 탐색할 때, 루트 노드 기준으로 절반은 찾는 쪽의 반대편 서브트리에 위치해 있으므로 탐색할 필요가 없고, 다음 노드에서도 절반은 반대편 서브트리에 있어서 탐색할 필요가 없고… 해서 매 레벨을 내려갈 때마다 탐색할 양이 절반으로 감소합니다. 탐색할 양이 exponential하게 감소하기 때문에 탐색 시간이 $O(log_2N)$이 나오는 것이죠.

Disadvantages!

간단한 자료구조인 만큼 단점도 명확합니다. 여기서는 왜 이진 트리와 비슷한 트리들이 디스크 기반 데이터베이스 시스템에서 사용되지 않는지 간단하게 살펴보겠습니다.

우선 앞서 말씀드린 장점은 이상적인 상황에서의 이진 트리의 장점입니다. 극단적인 상황을 예로 들자면, 트리에 입력되는 값들이 계속 증가한다면 이진 트리의 오른쪽 노드에만 새로운 노드들이 추가될 것입니다. 이렇게 극단적인 경우에서 이진 트리는 일종의 리스트로 볼 수 밖에 없고 탐색 시간은 $O(N)$으로 수렴합니다. 이런 상황을 방지하기 위해 이진 트리는 노드의 삽입 혹은 삭제가 발생할 때 트리를 회전하는 등의 방식으로 트리의 균형을 유지하고자 노력합니다. 하지만 이런 트리의 밸런싱 작업들은 하나하나가 추가적인 비용입니다.

디스크 기반 시스템에서 이진 트리가 사용되지 않는 이유는 크게 두 가지가 있습니다.

첫 번째는 지역성(spatial locality)입니다. 이진 트리에 값들이 추가될 때 특정한 순서를 따르지 않고 임의로 추가가 되기 때문에 값이 가까운 노드들이 실제로 디스크에 가깝게 위치한다는 보장이 없습니다. 즉 어떤 노드의 두 자식 노드들이 여러 디스크 페이지에 걸쳐 위치할 수 있다는 의미입니다.

두 번째는 트리의 높이입니다. 이진 트리에서 하나의 노드는 단 두 개의 자식 노드를 가지기 때문에, 하나의 노드를 찾기 위해서는 $O(log_2N)$개의 노드를 찾아 내려가야 할 수 있습니다.

이렇듯 최악의 경우 이진 트리는 하나의 노드를 찾을 때 $O(log_2N)$개의 디스크 페이지를 읽어와야 할 수 있습니다. $O(log_2N)$개의 레벨을 탐색해야 하고, 각 노드가 모두 다른 디스크 페이지에 위치한다면 해당하는 모든 디스크 페이지를 살펴야 하기 때문입니다. 이런 문제들을 통해 우리는 다음과 같은 자료구조를 필요로 한다는 것을 알 수 있습니다.

노드가 가질 수 있는 자식 노드의 수가 많다 (= fanout이 크다)
트리의 높이가 낮다

이런 특성을 만족하는 대표적인 자료구조가 이번 포스팅에서 다루는 B 트리입니다.

Share on

Twitter Facebook LinkedIn

WSL Username Configuration

2 minute read

Published: August 08, 2022

잠깐동안 우분투를 네이티브로 설치했다가 다시 윈도우로 회귀했습니다. 너무 윈도우가 느려지고 계속 오류가 나서 어차피 컴퓨터에 내용도 별로 없고 중요한 자료는 다 클라우드에 올라가있겠다, 그냥 포맷을 시켜버리기로 마음먹었습니다. 포맷을 시키고 나니 이것저것 설정할 것이 조금 있더군요.

가장 먼저 한 것은 git이나 vscode, Windows Terminal, WSL2 등을 설치한 것이었습니다. 하지만 이 포스팅은 그런 큼직한 내용을 다루기 위한 것이 아닙니다. 정말 사소한, WSL에서 구동하는 우분투 내의 기본 사용자 이름을 바꾸는 것에 관한 것입니다.

우선 WSL을 설치하는 것은 정말 간단합니다. 제가 예전에 할 때는 더 복잡했던 것 같은데, 이제는 PowerShell에 다음 명령어 한 줄만 쳐도 가능합니다.

# PowerShell
$ wsl --install

그러면 설정부터 우분투 설치까지 알아서 다 해 줍니다. 그리고 난 뒤, 컴퓨터를 재부팅을 하고 터미널을 키면 우분투 설정을 마무리하게 되죠. 유저명과 비밀번호를 설정하는 것으로 말입니다.

그런데 저는 여기서 정말 멍청한 실수를 했습니다. 아무런 생각 없이 유저명을 user로 해 버린 것입니다. 그래서 너무 늦기 전에 유저명을 바꾸기로 했습니다.

Changing Username (Unnecessary)

출처: https://www.linuxuprising.com/2019/04/how-to-change-username-on-ubuntu-debian.html

위 링크의 설명을 하나하나 따라가면 쉽습니다. 먼저 임시 유저를 하나 만들고 sudo 권한을 부여합니다. 저는 tempuser라는 유저를 새로 만들었습니다.

# Ubuntu
$ sudo adduser tempuser

그러면 여기서 이름이나 부서나 이메일같이 지금 저희에게는 쓸모없는 설정을 마구 물어봅니다. 모두 설정할 필요 없이 엔터키를 눌러 스킵합니다. 그리고 해당 유저에게 sudo 권한을 부여합니다.

# Ubuntu
$ sudo usermod -aG sudo tempuser

이 다음에는 새로운 유저인 tempuser로 로그인을 해야 합니다. 저는 WSL에서 우분투를 쓰면서 이 부분이 조금 곤란했습니다. 어떻게 유저를 변경해야 하는지 몰랐기 때문입니다.

Changing Current User

WSL 우분투에서 사용자를 바꾸기 위해서는 다시 윈도우 명령 프롬프트로 들어가야 합니다. 명령 프롬프트에서 다음 명령어를 쳐 봅시다.

# CMD Prompt
$ ubuntu config --default-user root

그러면 WSL에서 우분투 터미널을 킬 때 로그인되는 사용자가 root일 것입니다. 여기서 앞서서 tempuser 사용자를 만드는 것이 왜 불필요한 것인지 알 수 있습니다. 어차피 우리가 사용하는 WSL에 대한 루트 권한이 있기 때문에 굳이 별도의 유저를 만들 필요가 없는 것입니다.

Changing Username

그러면 이제 root 사용자로 우분투를 켠 뒤 어떻게 설정하면 되는지 알아보도록 하겠습니다.

가장 먼저 기존 사용자 이름으로 실행되고 있던 프로세스를 죽여야 합니다. 다음 명령어를 통해 현재 실행되고 있는 프로세스를 찾습니다.

# Ubuntu
$ ps -ef

그러면 현재 실행되고 있는 프로세스를 실행시킨 사용자 이름(UID)와 프로세스 번호(PID)를 비롯한 정보를 확인할 수 있습니다. 여기서 우리가 바꾸고자 하는 사용자가 실행중인 프로세스 번호를 죽입니다. 다음 명령어를 실행하면 됩니다.

# Ubuntu
$ kill <pid>

애초에 우리는 지금 루트 권한으로 로그인한 것이기 때문에 권한을 획득할 필요가 없습니다. 바꾸고자 하는 사용자가 실행중인 프로세스를 위 명령어를 통해 모두 죽여서 해당 사용자가 실행중인 프로세스가 없을 때 비로소 사용자 이름을 바꿀 수 있습니다.

# Ubuntu
$ usermod -l <newusername> -d /home/<newusername> -m <oldusername>

그러면 비로소 사용자 이름을 바꿀 수 있는 것입니다. 잊지 말고 명령 프롬프트에서 기본 접속 아이디를 바꿔놓도록 합시다.

# CMD Prompt
$ ubuntu config --default-user <newusername>

이렇게 설정하면 우리가 바꾼 사용자 이름으로 로그인할 수 있게 됩니다.

Ubuntu Setup

9 minute read

Published: August 04, 2022

많은 시행착오를 거쳐서 데스크탑에 우분투를 설치했습니다. 참고로 우분투 버전은 20.04, 리눅스 커널 버전은 5.4.0-21-generic입니다. 이번 포스팅에서는 우분투를 처음 설치했을 때 환경설정 과정을 기록하고자 합니다.

Windows/Ubuntu Dual Booting

less than 1 minute read

Published: August 03, 2022

GPUDirect Storage를 사용해보기 위해서는 조건이 몇가지 있습니다. 그 중에서는 NVMe가 사용 가능한 SSD가 필요하다는 조건이 있습니다. 제가 당장 쓸 수 있는 조건을 만족하는 SSD는 제 운영체제가 설치된 SSD 하나밖에 없었습니다. 그래서 남는 용량을 파티션해서 우분투를 설치해 사용하려고 계획했습니다. 유튜브 영상과 블로그를 몇가지 참조했는데, 이전 포스팅과 같이 문제가 잘 풀렸으면 포스팅을 작성하지 않았을 것입니다.

GPU Acceleration