표기법 (Notation)
본문 바로가기
AI(인공지능)/Foundations of Large Language Models

표기법 (Notation)

by cheongsin 2025. 5. 9.
p. iii [책], p. 4 [PDF]

Foundations of Large Language Models에서 사용되는 수학적 기호와 표기법에 관한 설명이다.

Notation (표기법) Meaning (의미) Translated Meaning (한국어 의미)
$a$ variable 변수
$\mathbf{a}$ row vector or matrix 행 백터 또는 행렬
$f(a)$ function of $a$ $a$의 함수
$\max f(a)$ maximum value of $f(a)$ $f(a)$의 최대값 
$\arg\max_{a} f(a)$ value of $a$ that maximizes $f(a)$ $f(a)$를 최대화하는 $a$의 값
$\mathbf{x}$ input token sequence to a model 모델 입력 토큰 시퀀스
$x_{j}$ input token at position $j$ $j$번째 입력 토큰
$\mathbf{j}$ output token sequence produced by a model 모델 출력 토큰 시퀀스
$y_{i}$ output token at position $i$ $i$번째 출력 토큰
$\theta$ model parameters 모델 파라미터
$\Pr(a)$ probability of $a$ $a$의 확률
$\Pr(a \mid b)$ conditional probability of $a$ given $b$ $b$가 주어졌을 때 $a$의 조건부 확률
$\Pr(\cdot \mid b)$ probability distribution of a variable given $b$ $b$가 주어졌을 때의 확률 분포
$\Pr_{\theta}(a)$ probability of $a$ as parameterized by $\theta$ $\theta$로 정의된 $a$의 확률
$h_{t}$ hidden state at time step $t$ in sequential models 시점 $t$의 은닉 상태
$\mathbf{H}$ matrix of all hidden states over time 전체 시점의 은닉 상태 행렬
$\mathbf{Q}$, $\mathbf{K}$, $\mathbf{V}$ query, key, and value matrices in attention 어텐션의 쿼리, 키, 값 행렬
$\text{Softmax}(\mathbf{A})$ Softmax function that normalizes $\mathbf{A}$ $\mathbf{A}$를 정규화하는 소프트맥스 함수
$\mathcal{L}$ loss function 손실 함수
$\mathcal{D}$ dataset used for training or fine-tuning 학습/파인튜닝용 데이터셋
$\frac{\partial \mathcal{L}}{\partial \theta}$ gradient of the loss function w.r.t.* $\theta$ $\theta$에 대한 손실 함수의 그래디언트
$\mathrm{KL}(p \parallel q)$ KL divergence between distributions $p$ and $q$ 분포 $p$와 $q$ 사이의 KL 발산
* w.r.t. : with respect to

📎 참고 문헌

  • 저자: Tong Xiao, Jingbo Zhu
  • 출판일: 2025년 1월 16일
  • 라이선스: CC BY-NC 4.0 (비상업적 이용 허용)
  • 원문 링크: https://arxiv.org/abs/2501.09223

이 글은 “Foundations of Large Language Models” (Tong Xiao, Jingbo Zhu, arXiv:2501.09223, 2025년 1월 16일 제출)을 기반으로 작성되었습니다.


TOP

Designed by 티스토리