티스토리 뷰
[arXiv] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
공부하는묵 2025. 2. 6. 17:53최근 중국에서 혜성같이 등장하면서 주식 시장에 큰 파장을 끌고 왔던 DeepSeek 논문에 대해서 리뷰
1. Introduction
- 최근 모델의 성능을 높이기 위해서 모델 학습을 길게 가져가게 하기 보다는 모델이 Chain-of-Thought(COT) 과정을 길게 가져가도록 하는 방향이 연구
- COT는 사고가 필요한 태스크(수학, 코딩 등)의 성능 향상에 효과적
- 본 논문에서는 COT를 통한 모델 사고 능력의 확장을 강화학습을 통해 이뤄내고자 한다
논문에서 비슷한 이름의 모델이 등장해서 먼저 정리하고 들어가자면
DeepSeek-V3-Base: 강화학습을 진행하기전의 모델
DeepSeek-R1-Zero: DeepSeek-V3-Base에 강화학습을 적용하여 학습한 모델
DeepSeek-R1: DeepSeek-R1-Zero를 통해 생성된 데이터를 통한 supervised fine-tuning과 강화학습을 진행한 모델, 자세한 내용은 이후 서술
DeepSeek-R1-Distill-**-$$B: DeepSeek-R1을 teacher로 하고 **-$$B 크기의 모델을 student로 하여 STF distillation을 수행한 모델 (Qwen과 Llama를 student 모델로 진행)

2. Approach
2.1 DeepSeek-R1-Zero
- DeepSeek-V3-Base에 강화학습을 적용
- 강확학습 알고리즘은 Group Relative Policy Opimization(GRPO)를 사용
GRPO의 objective 식은 다음과 같다.

식 자체는 PPO나 TRPO와 유사

모델이 G개의 샘플을 샘플링하고 각 샘플의 reward를 기반으로 advantage A를 계산한다.
일반적으로 reward을 얻기 위해 reward model을 따로 학습시키지만, 여기서는 rule-base로 reward를 준다.
1. Accuracy rewards: 모델이 생성한 답변이 올바른 정답을 포함하고 있는가
2. Format rewards: 모델이 사고 과정을 거쳐서 <think>와 </think> 태그를 생성하면서 생성을 진행하는가

모델은 학습할수록 reasoning이 필요한 태스크에 대한 성능이 지속적으로 상승하였다.

또한 모델은 학습이 진행될수록 COT를 길게 진행하였다.
이 과정에서 모델은 자신이 생성하고 있는 답변을 다시 확인하며 수정하는 과정(reflection)을 거치는 현상도 확인하였다고 한다.
특히 모델이 생성을 하면서 aha moment를 가지면서 자신이 생성했던 접근 방식을 다시 돌아보며 더욱 올바른 방향으로 생성을 진행하였다고 한다.

하지만, DeepSeek-R1-Zero는 낮은 가독성, 두 가지 이상의 언어를 섞어서 생성하는 현상이 발생
2.2 DeepSeek-R1
- DeepSeek-R1-Zero의 단점을 보완하기 위한 학습과정 도입
1. Cold Start
DeepSeek-R1-Zero모델을 통해 long COT 데이터 수집, human annotator를 통해 필터링
long COT 데이터를 통해 DeepSeek-V3-Base 모델 SFT
2. 강화학습 진행
GRPO를 통해 1단계에서 학습된 모델 다시 학습
단, 두가지 언어를 섞어서 생성하는 것을 방지하기 위해 language consistency reward 추가
3. Supervised Fine-Tuning
2단계에서 학습한 모델을 기반으로 학습 데이터 생성
학습 데이터는 Reasoning 데이터와 Non-Reasoning 데이터를 구분하여 생성
생성된 데이터를 기반으로 다시 DeepSeek-V3-Base를 STF
4. 모든 상황에 대한 강화학습
3번에서 학습된 모델을 바탕으로 다시 강화학습 진행
기본적으로 GRPO를 이용하여 학습하지만 추가적인 reward signal 전달
human preference, helpfulness, harmlessness를 위한 reward 모델을 학습시켜 사용
2.3 Distillation
학습된 DeepSeek-R1을 teacher 모델로 하여 student 모델 SFT
student 모델은 Qwen, Llama 모델 사용
3. Experiment

DeepSeek R1은 DeepSeek-V3와 비교했을 때 더 향상된 성능을 보였고, 특히 reasoning이 필요한 태스크 (Code, Math)에서는 OpenAI의 모델들과 동등하거나 그 이상의 성능을 나타냄

Distillation을 통해 학습된 모델은 모델의 파라미터에 비해 좋은 성능 (QwQ-32B-Preview vs DeepSeek-R1-Distill-Qwen-14B)
심지어 DeepSeek-R1-Distill-Qwen-7B은 GPT-4o-0513 모델에 비해서도 더 좋은 성능을 보여줌

그렇다면 작은 모델도 강화학습으로 학습하면 좋지 않을까? 라는 생각에 작은 모델에 대해서도 강화학습을 통한 실험 진행
하지만 큰 모델에서 Distillation을 하는 것이 작은 모델의 학습에는 더 효과적
'논문 리뷰' 카테고리의 다른 글
- Total
- Today
- Yesterday
- #BOJ #알고리즘 #1034번
- #BOJ #2467번 #투포인터알고리즘
- 베르누이분포
- LeetCode
- KL_Divergence
- python
- llm agent
- #information_retrieval
- Rag
- PyTorch
- LLM
- 조건부확률
- emnlp2024
- 인과관계추론
- directives
- #BOJ
- DECI
- #브루트포스
- #1405번
- 파이토치
- iclr
- emnlp
- #BOJ #유클리드호제법
- two-pointers
- CoT
- javascript
- sliding window
- NAACL21
- GCN
- #BOJ #그리디알고리즘
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
