[arXiv] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

티스토리 뷰

논문 리뷰

[arXiv] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

공부하는묵 2025. 2. 6. 17:53

최근 중국에서 혜성같이 등장하면서 주식 시장에 큰 파장을 끌고 왔던 DeepSeek 논문에 대해서 리뷰

1. Introduction

최근 모델의 성능을 높이기 위해서 모델 학습을 길게 가져가게 하기 보다는 모델이 Chain-of-Thought(COT) 과정을 길게 가져가도록 하는 방향이 연구
COT는 사고가 필요한 태스크(수학, 코딩 등)의 성능 향상에 효과적
본 논문에서는 COT를 통한 모델 사고 능력의 확장을 강화학습을 통해 이뤄내고자 한다

논문에서 비슷한 이름의 모델이 등장해서 먼저 정리하고 들어가자면

DeepSeek-V3-Base: 강화학습을 진행하기전의 모델

DeepSeek-R1-Zero: DeepSeek-V3-Base에 강화학습을 적용하여 학습한 모델

DeepSeek-R1: DeepSeek-R1-Zero를 통해 생성된 데이터를 통한 supervised fine-tuning과 강화학습을 진행한 모델, 자세한 내용은 이후 서술

DeepSeek-R1-Distill-**-$$B: DeepSeek-R1을 teacher로 하고 **-$$B 크기의 모델을 student로 하여 STF distillation을 수행한 모델 (Qwen과 Llama를 student 모델로 진행)

출처: https://www.youtube.com/watch?v=UzFgT2PSDso&ab_channel=JoonHoLEE

2. Approach

2.1 DeepSeek-R1-Zero

DeepSeek-V3-Base에 강화학습을 적용
강확학습 알고리즘은 Group Relative Policy Opimization(GRPO)를 사용

GRPO의 objective 식은 다음과 같다.

식 자체는 PPO나 TRPO와 유사

모델이 G개의 샘플을 샘플링하고 각 샘플의 reward를 기반으로 advantage A를 계산한다.

일반적으로 reward을 얻기 위해 reward model을 따로 학습시키지만, 여기서는 rule-base로 reward를 준다.

1. Accuracy rewards: 모델이 생성한 답변이 올바른 정답을 포함하고 있는가

2. Format rewards: 모델이 사고 과정을 거쳐서 <think>와 </think> 태그를 생성하면서 생성을 진행하는가

모델은 학습할수록 reasoning이 필요한 태스크에 대한 성능이 지속적으로 상승하였다.

또한 모델은 학습이 진행될수록 COT를 길게 진행하였다.

이 과정에서 모델은 자신이 생성하고 있는 답변을 다시 확인하며 수정하는 과정(reflection)을 거치는 현상도 확인하였다고 한다.

특히 모델이 생성을 하면서 aha moment를 가지면서 자신이 생성했던 접근 방식을 다시 돌아보며 더욱 올바른 방향으로 생성을 진행하였다고 한다.

하지만, DeepSeek-R1-Zero는 낮은 가독성, 두 가지 이상의 언어를 섞어서 생성하는 현상이 발생

2.2 DeepSeek-R1

DeepSeek-R1-Zero의 단점을 보완하기 위한 학습과정 도입

1. Cold Start

DeepSeek-R1-Zero모델을 통해 long COT 데이터 수집, human annotator를 통해 필터링

long COT 데이터를 통해 DeepSeek-V3-Base 모델 SFT

2. 강화학습 진행

GRPO를 통해 1단계에서 학습된 모델 다시 학습

단, 두가지 언어를 섞어서 생성하는 것을 방지하기 위해 language consistency reward 추가

3. Supervised Fine-Tuning

2단계에서 학습한 모델을 기반으로 학습 데이터 생성

학습 데이터는 Reasoning 데이터와 Non-Reasoning 데이터를 구분하여 생성

생성된 데이터를 기반으로 다시 DeepSeek-V3-Base를 STF

4. 모든 상황에 대한 강화학습

3번에서 학습된 모델을 바탕으로 다시 강화학습 진행

기본적으로 GRPO를 이용하여 학습하지만 추가적인 reward signal 전달

human preference, helpfulness, harmlessness를 위한 reward 모델을 학습시켜 사용

2.3 Distillation

학습된 DeepSeek-R1을 teacher 모델로 하여 student 모델 SFT

student 모델은 Qwen, Llama 모델 사용

3. Experiment

DeepSeek R1은 DeepSeek-V3와 비교했을 때 더 향상된 성능을 보였고, 특히 reasoning이 필요한 태스크 (Code, Math)에서는 OpenAI의 모델들과 동등하거나 그 이상의 성능을 나타냄

Distillation을 통해 학습된 모델은 모델의 파라미터에 비해 좋은 성능 (QwQ-32B-Preview vs DeepSeek-R1-Distill-Qwen-14B)

심지어 DeepSeek-R1-Distill-Qwen-7B은 GPT-4o-0513 모델에 비해서도 더 좋은 성능을 보여줌

그렇다면 작은 모델도 강화학습으로 학습하면 좋지 않을까? 라는 생각에 작은 모델에 대해서도 강화학습을 통한 실험 진행

하지만 큰 모델에서 Distillation을 하는 것이 작은 모델의 학습에는 더 효과적

'논문 리뷰' 카테고리의 다른 글

[ICLR 2025 Under Review] Optimizing Inference-Time Reasoning in LLMs via Retrieval-Augmented Reflection (1)	2025.04.25
[EMNLP 2024] Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation (0)	2025.03.26
[ICLR 2023] PROMPTGATOR: Few-shot dense retrieval from 8 example (0)	2025.02.26
[EMNLP 2024] PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval (0)	2025.02.13
[NAACL21] [Graph Convolutional Networks for Event Causality Identification with Rich Document-level Structures] (0)	2022.06.26

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

공부방

티스토리 뷰