p. iii [책], p. 4 [PDF]
Foundations of Large Language Models에서 사용되는 수학적 기호와 표기법에 관한 설명이다.
Notation (표기법) | Meaning (의미) | Translated Meaning (한국어 의미) |
$a$ | variable | 변수 |
$\mathbf{a}$ | row vector or matrix | 행 백터 또는 행렬 |
$f(a)$ | function of $a$ | $a$의 함수 |
$\max f(a)$ | maximum value of $f(a)$ | $f(a)$의 최대값 |
$\arg\max_{a} f(a)$ | value of $a$ that maximizes $f(a)$ | $f(a)$를 최대화하는 $a$의 값 |
$\mathbf{x}$ | input token sequence to a model | 모델 입력 토큰 시퀀스 |
$x_{j}$ | input token at position $j$ | $j$번째 입력 토큰 |
$\mathbf{j}$ | output token sequence produced by a model | 모델 출력 토큰 시퀀스 |
$y_{i}$ | output token at position $i$ | $i$번째 출력 토큰 |
$\theta$ | model parameters | 모델 파라미터 |
$\Pr(a)$ | probability of $a$ | $a$의 확률 |
$\Pr(a \mid b)$ | conditional probability of $a$ given $b$ | $b$가 주어졌을 때 $a$의 조건부 확률 |
$\Pr(\cdot \mid b)$ | probability distribution of a variable given $b$ | $b$가 주어졌을 때의 확률 분포 |
$\Pr_{\theta}(a)$ | probability of $a$ as parameterized by $\theta$ | $\theta$로 정의된 $a$의 확률 |
$h_{t}$ | hidden state at time step $t$ in sequential models | 시점 $t$의 은닉 상태 |
$\mathbf{H}$ | matrix of all hidden states over time | 전체 시점의 은닉 상태 행렬 |
$\mathbf{Q}$, $\mathbf{K}$, $\mathbf{V}$ | query, key, and value matrices in attention | 어텐션의 쿼리, 키, 값 행렬 |
$\text{Softmax}(\mathbf{A})$ | Softmax function that normalizes $\mathbf{A}$ | $\mathbf{A}$를 정규화하는 소프트맥스 함수 |
$\mathcal{L}$ | loss function | 손실 함수 |
$\mathcal{D}$ | dataset used for training or fine-tuning | 학습/파인튜닝용 데이터셋 |
$\frac{\partial \mathcal{L}}{\partial \theta}$ | gradient of the loss function w.r.t.* $\theta$ | $\theta$에 대한 손실 함수의 그래디언트 |
$\mathrm{KL}(p \parallel q)$ | KL divergence between distributions $p$ and $q$ | 분포 $p$와 $q$ 사이의 KL 발산 |
* w.r.t. : with respect to
📎 참고 문헌
- 저자: Tong Xiao, Jingbo Zhu
- 출판일: 2025년 1월 16일
- 라이선스: CC BY-NC 4.0 (비상업적 이용 허용)
- 원문 링크: https://arxiv.org/abs/2501.09223
이 글은 “Foundations of Large Language Models” (Tong Xiao, Jingbo Zhu, arXiv:2501.09223, 2025년 1월 16일 제출)을 기반으로 작성되었습니다.
'AI(인공지능) > Foundations of Large Language Models' 카테고리의 다른 글
1장. Pre-training | 사전학습 (1) (0) | 2025.05.12 |
---|---|
소개글 (Introduction) (0) | 2025.05.07 |