본문 바로가기
NLP

[논문 뜯어보기] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

by se0_ing 2025. 2. 14.
반응형

 

오늘은 Deepseek 연구팀의 R1 모델과 paper review 를 해보고 이를 둘러싼 controversies, discussions에 대해 알아보겠다.

 

논문 발제, 리뷰는 공동 발제로 빅데이터 연합 동아리 BOAZ에서 이루어졌다. 

 

 

 

 

DeepSeek-V3 키포인트 잡기

 

DeepSeek-V3는 671억 개의 하이퍼 파라미터를 가진 MOE(Mixture of Experts) 기반의 대규모 언어모델이다. 이 모델로 pre-training 을 진행하면 일반적인 텍스트 생성 등 뛰어난 NLP task들을 처리 할 수 있다.

 

V3는 R1을 리뷰할때의 필요한 요소에 대해서만 간단히 짚고 넘어가겠다.

 

 

 

 

 

 

다음은 DeepSeek-V3의 아키텍처인데, 기존 MoE 모델과의 차이점이 존재한다.

 

FFN 블럭은 종래 MoE(Mixture of Experts)에서 개량된 DeepSeekMoE(Mixture of Experts) 아키텍처를 기반으로 작동한다. 기존 MoE보다 더 정밀한 전문가(Finer-grained Experts) 를 사용하며, 일부 전문가를 공유(Shared Experts) 로 설정하여 일관된 성능을 유지한다. 입력에 따른 전문가 선택 gating은 토큰과 전문가 간 연관도를 Sigmoid 함수로 계산하고, 정규화를 적용하여 최적의 전문가를 선택한다. 이러한 개선 덕분에 inference 및 train efficiency가 over quadratic 하게 증가하고, MoE 아키텍처의 단 점인 불균형 로드를 완화 할 수 있다.

 

 

 

 

 

 

 

또한 DeepSeek-V3에서 선택한 attention mechanism도 주목을 해봐야한다. 위 그림은 Attention 블럭에 채용된 Multi-Head Latent Attention (MHLA) 아키텍처를 설명한다. 기존의 attention이 입력 토큰 간의 관계를 직접 계산하는 Multi-Head Self-Attention(MHSA) 방식에서 발전하여, 잠재(latent) 공간에서 추가적인 추론을 수행하는 메커니즘을 추가한다. 이 방식은 일반적인 Self-Attention보다 계산량이 줄어들어 O(N²) → O(N logN) 수준으로 최적화 가능하다. 대용량 데이터에서 더 안정적으로 학습이 가능해지고 보다 강력한 문맥 이해 및 추론 능력 확보하게 한다.

 

 

 

 

 

 

 

 

다음 그림은 DeepSeek-V3의 사전학습의 특징을 보여주는데 위 그림은 FP8 Training을 나타낸다. 8비트 부동소수점(FP8) 정밀도를 활용하여 계산 효율성을 극대화하는 학습 기법이다. FP8 Training의 흐름도는 아래와 같습니다. 학습에서 FP32  BF16  FP8 순으로 정밀도를 낮춰가며 연산 최적화와 메모리 절약을 추구하였다.

 

 

이 외에도 데이터 구축할때의 패킹 기법을 도입하거나 토크나이저 최적화를 통해 기존 LLM과의 차별점을 두며 자연어처리 커뮤니티에 많은 질문과 future direction을 제시하였다.

 

 

 

 

DeepSeek-R1

 

서론 (Introduction)

 

최근 대규모 언어 모델(LLM) 분야에서 모델의 추론 능력을 극대화하기 위한 다양한 기법이 제안되고 있다. 특히 OpenAI의 O1 시리즈는 최초로 Chain of Thought(이하 CoT) 길이를 확장하여 스케일링(scaling)에 성공함으로써 모델 성능을 비약적으로 향상시켰다. 그러나 이러한 시도에도 불구하고 테스트 시점에서의 스케일링(test-time scaling) 문제는 여전히 완전히 해결되지 못했다.

 

 

이와 함께 보상 모델, 강화학습, 탐색 알고리즘 등 여러 방법을 통해 모델의 추론 성능을 높이려는 연구가 꾸준히 진행되고 있다. 하지만 기존 기법만으로는 기존 모델과 동등 이상의 추론 능력을 달성하기가 쉽지 않았다. 최근에는 포스트 트레이닝(post-training) 기법이 비교적 적은 연산 비용으로 모델을 재조정(fine-tuning)할 수 있어, 대규모 언어 모델 학습 파이프라인에서 핵심 요소로 부상하고 있다.

 

이번 연구에서는 기존 DeepSeek V3 Base 모델을 기반으로 포스트 트레이닝 기법을 활용해 추론 성능을 극대화하고자 한다. 먼저 소개하는 모델은 DeepSeek-R1-Zero이며, 이는 지도학습(Supervised Fine-Tuning, SFT) 없이 오직 **GRPO(Group Related Policy Optimization)**라는 강화학습 알고리즘만으로 모델 성능을 향상한 사례이다. 

 

R1-Zero의 문제점을 보완하고 장점을 강화한 모델이 DeepSeek-R1 이고 이는 다단계 파이프라인을 통해 성능을 개선한다. DeepSeek V3 Base 모델을 기반으로 다음 단계를 거쳐 최종 모델을 완성한다. 

 

 

 

GRPO(Group Related Policy Optimization) 알고리즘

 

DeepSeek-R1의 핵심 알고리즘은 GRPO이다. 이는 기존 PPO(Proximal Policy Optimization)를 개선한 방식으로, 다음과 같은 특징을 가진다.

 

 

 

 

위 그림은 PPO의 수식 및 설명이다. PPO의 한계를 설명하자면, Actor-Critic 구조로 인해 PPO는 Actor(정책 모델)와 Critic(가치 함수 모델)을 동시에 학습해야 하므로, 대규모 모델에서는 계산량이 방대해진다. Value Function 학습의 어렵다. LLM(대규모 언어 모델)의 경우 보상이 마지막 토큰에만 부여되는 형태가 많아, 중간 토큰에 대한 Value Function을 학습하기가 어렵다.

 

 

 

 

 

 

위 두 그림은 GRPO의 수식 및 설명이다. 

 

GRPO의 아이디어는 다음과 같다: 

 

Value Function 제거

  • GRPO는 Value Function 대신 그룹 샘플링으로 얻은 답변들의 평균 보상을 기준(Baseline)으로 삼는다.

Group Relative Advantage

  • 하나의 질문 q에 대해 여러 개(G개)의 답변 o_i을 샘플링하고, 이 답변들로부터 보상의 평균값을 Baseline으로 삼은 뒤, 개별 답변이 Baseline보다 얼마나 우수한지를 Advantage로 계산한다.

Policy Ratio 클리핑(Clipping)

  • 현재 정책과 이전 정책 간의 비율(policy ratio)이 과도하게 변하지 않도록, 특정 구간(1 ± ε) 내에서만 업데이트하도록 클리핑을 적용한다. 이를 통해 학습 과정을 안정화한다.

KL Divergence 페널티

  • 기존 정책과의 분포 차이가 지나치게 커지지 않도록, KL Divergence 항을 페널티로 추가한다. 실제 계산량을 줄이기 위해 피셔 정보 행렬을 이용한 근사치(K3)를 사용한다.

 

 

학습 구조 및 보상 설계

 

DeepSeek-R1에서의 학습 구조 및 보상 설계를 알아보자. 규칙 기반 보상 모델을 사용한다 Rule-based Reward 이므로 이는 신경망 기반 보상 모델에 비해 보상 해킹(reward hacking) 위험을 줄이고, 명확한 판단 기준을 제공한다. 크게 두 가지 유형의 보상이 존재한다.

 

1. 정확도 보상

예) 수학 문제: 모델이 특정 형식에 따라 답을 출력하면, 정답 여부를 쉽게 판정할 수 있다.

예) 코딩 문제: 모델이 생성한 코드를 컴파일러로 실행해 테스트 케이스와 결과를 비교해 정답 여부를 평가한다.

 

2. 형식 보상

모델이 <think></think> 태그 사이에 사고 과정을 작성하도록 유도한다. 이는 구조적으로 Chain of Thought(COT)를 생성하도록 하여, 모델이 명시적인 추론 과정을 거치도록 한다.

 

Training Template은 모델이 답변을 내기 전에, <think>...</think> 구간에 사고 과정을 먼저 작성하게 한 뒤 최종 답변을 출력하게 한다. 이를 통해 CoT 형태의 추론 과정을 구조적으로 수집하고, 모델 출력 형식을 일관성 있게 유지한다.

 

 

 

 

 

다음 그림은 DeepSeek-R1-Zero 성능을 시각화 한 것이다.

 

 

 

 

이 부분은 Aha Moment 을 설명한다. 강화학습 과정에서 모델이 기존 답변을 검토하고 스스로 다른 방식을 시도해 최적화 전략을 찾아내는 Aha Moment 가 관찰된다. Aha Moment란 위에서 보이는것 처럼 모델이 스스로 추론을 멈추고 "wait, wait" 라고 말하며 flag를 세우고 지금까지의 논리를 다시 한번 검사해보는 시간을 가지게 된다. 여기서 재밌는 점은 anthropomorphic tone 이라는 것인데, "잠깐, 잠깐" 이 부분의 출력이 굉장히 human-like, 사람같이 말 한다는 것이다.

 





DeepSeek-R1

R1-Zero의 결과로 강화학습의 잠재력을 확인 했다. 하지만 여러가지 Drawbacks 또한 존재했다. Language Mixing Problem, Poor readability. 이 두 가지 치명적인 단점들을 확인 하였다.

 

이러한 결과에 DeepSeek 연구팀은 두 가지 핵심 질문을 바탕으로 DeepSeek-R1 개발에 착수하였다.

 

 

첫 번째 질문은, less quantity, high quality 적지만 질이 좋은 지도 학습 데이터(supervised fine-tuning, SFT)를 cold start에 도입하면 추론 성능이 더 향상되거나 수렴 속도가 빨라질수 있지 않을까?

둘째, 명확하고 논리에 강한 강화학습 기반의 Chain of Thought(CoT)를 생성할 뿐만 아니라, 전반적인 일반화 성능까지 겸비한 사용자 친화적 모델을 어떻게 설계할 수 있지 않을까?



이 두 질문을 해결하기 위해, 연구팀은 지도 학습과 강화 학습이 공존하는 다단계 학습, Multi Stage Training Pipeline을 구축하는데에 성공했다.

 

 

 

 

DeepSeek-R1의 다단계 학습 과정 (Multi-Stage Training Pipeline) 

 

DeepSeek-R1의 다단계 학습 과정 (Multi-Stage Training Pipeline) 을 요약해둔 그림이다.

 

가장 첫 번째 블록을 보게 되면, 수 천 개 규모의 Chain of Thought(CoT) 데이터를 수집해 DeepSeek-V3-Base를 초기 미세 조정한다. 이 과정을 “Cold Start”라고 하며, 모델이 짧은 추론 과정을 자연스럽게 출력하도록 지도 학습을 수행한다. 원래 강화학습은 가장 첫 번째 단계에서 많이 struggle 하는 모습을 보인다. 하지만 초기의 SFT를 통해 모델이 RL 이전부터 일정 수준의 형식과 추론 능력과 빠른 수렴 속도를 갖추게 된다.

 

 

 

두 번째 블록에선, DeepSeek-R1-Zero와 동일한 방식으로 GRPO를 적용해 추론 능력을 극대화한다. 수학·코딩 문제처럼 정답 여부가 명확한 태스크에 규칙 기반 보상을 부여해, 논리적 사고 과정을 강화한다. 이 시점에서 모델은 강력한 reasoning 능력을 얻게 되지만, 일반 대화나 글쓰기 등의 범용 태스크 처리 성능이 상대적으로 약해지거나 언어가 혼합되는 문제(Language Mixing) 등의 이슈가 발생하기 쉽다.

 

 

셋째, Rejection Sampling을 통해 RL 과정에서 생성된 답변 중 고품질 응답만 선별해 추가 SFT 데이터를 만든다. Rejection 샘플링은 간단하게 소개하자면, 모델을 통해 뽑아낸 10개의 샘플 중에서 가장 뛰어나고 정답에 가까운 샘플을 몇 개만 추려서 다시 학습에 이용하는 방법이다.

 

이때 Rejection sampling 을 통해서 600k 정도의 Reasoning(수학, 논리, 코딩) 데이터와 기존의 DeepSeek-V3 pipeline을 활용하여 200k 정도의 Non-Reasoning(일반 대화, 지식질문, 번역 등) 데이터를 합쳐 총 800k 규모의 지도 학습 세트를 구축한다. 이를 다시 모델에 미세 조정, Supervised fine-tuning 하여, 수학·코딩에만 편향된 성능을 완화하고 다양한 도메인 적응력을 회복한다.

 

 

 

 

 

 

Distillation: 소형 모델로의 추론 능력 전이

 

 

 

DeepSeek-R1은 학습된 고급 추론 패턴을 소형 모델(Dense Models)에도 전이(지식 증류)하는 방법을 제안한다. Qwen2.5-32B, Llama 시리즈 등 다양한 모델(1.5B~70B)에 대해 증류를 수행한 결과, 대형 모델에서 학습된 Reasoning Pattern을 그대로 물려받아 작은 모델에서도 뛰어난 추론 성능을 구현한다.

 

Distilled 14B 모델이 QwQ-32B-Preview를 능가하는 성능을 보일 만큼, 증류를 통한 효율 향상이 효과적이라는 점이 확인되었다. 특히 이때 작은 모델에는 별도의 강화 학습을 적용하지 않고 오직 SFT만 진행했음에도, 직접 RL을 수행한 소형 모델보다 좋은 결과가 나오는 경우도 있었다. 이는 대형 모델에서 획득된 고급 추론 패턴을 정제하고 옮겨오는 과정이, 비용 대비 성능을 극대화할 수 있다는 사실을 보여준다.

 

 

 

 

실험(Experiment) 및 평가(Evaluation)

 

DeepSeek-R1의 성능은 수학, 코딩, 논리 추론 등 고난도 태스크부터 일반 대화(QA, 글쓰기 등)에 이르기까지 폭넓은 벤치마크를 통해 검증한다. MMLU, MATH-500, Codeforces, GPQA Diamond와 같은 추론 중심 문제부터, SimpleQA 등 사실성 QA, 그리고 C-Eval(중국어), SWE-Bench, LiveCodeBench 등 다양한 언어·도메인을 아우르는 평가가 진행된다.

 

평가 환경에서는 최대 생성 길이를 32,768 토큰으로 설정하고, 샘플링 온도 0.6과 top-p 0.95로 464개의 응답을 생성한 뒤 pass@1 등 지표를 산출한다. AIME 2024 기준으로 약 7980% 정확도를 기록해 OpenAI-o1-1217에 근접한 성능을 보였다. 특히 Distilled Model 평가에서 Qwen, Llama 등 7B~8B 모델 규모에서도 추론 능력이 크게 향상됨을 확인해, 지식 증류의 비용 대비 효율성을 입증했다.

 

 

 

Conclusion

DeepSeek-R1은 수학, 코딩, 논리 추론 문제에서 높은 성능을 달성하고, 사람 선호(Helpfulness)와 무해성(Harmlessness)을 동시에 고려한 이중 보상 설계를 구현한 점이 특징이다. 거대 파라미터 모델들과 견줄 만한 추론 능력을 보이며, 대규모 RL, Rejection Sampling, Distillation을 결합해 고난도 추론뿐 아니라 다양한 일반 태스크에서도 우수한 결과를 낸다.

 

앞으로 해결해야 할 과제는 다국어 지원 범위를 확대하고, 매우 긴 입력이나 복잡한 상황에서도 안정적인 답변을 유지하도록 Prompt 안정성을 높이는 것이다. 또한 SW 엔지니어링 전체 프로세스 지원, 장기 상태 추론, 자동 문서화 등 추가 태스크로 모델을 확장하는 방향도 제시된다.

 

 

 

 

 

이 다음 부턴 논문의 내용이 아닌 현재 DeepSeek의 획기적인 비용절감과 여러 논란 거리들에 대해 다뤄보려 한다.

 

 

Discussion - Computational Overhead Reduction

먼저 DeepSeek 연구에 환경에 대해 설명 해보려 한다.

 

 

DeepSeek 연구팀은 미국 엔비디아의 수출 규제 때문에 SOTA GPU인 H100 GPU가 아닌 H800을 사용했다.

 

H100 vs H800

일반적으로 대규모 분산 학습 환경에서 H100은 높은 NVLink 대역폭 덕분에 빠른 통신을 지원해 유리하다.

DeepSeek는 H800 같은 비교적 저렴한 옵션을 병행해, 필요한 연산 성능을 확보하면서도 전체 예산을 낮추는 전략을 활용했다.

단일 GPU 환경에서 H800이 H100 대비 큰 성능 열세를 보이지 않는 점을 파악하고, 대규모 클러스터 대신 상대적으로 소규모(또는 분산 방식 최적화) 시스템에 프로젝트를 맞췄다.

 

 

 

 

DeepSeek-R1은 제한된 예산과 하드웨어 환경에서 고성능 LLM을 개발하기 위해 여러 가지 비용 절감 기법을 활용한다. 연구팀은 약 2개월 간의 개발에 557만 달러 규모의 비용을 투자했다고 발표했는데, 이는 비슷한 규모의 미국 AI 기업 대비 최대 10분의 1 수준이라는 점이 부각된다. 그렇다면 DeepSeek는 어떻게 이정도 수준의 비용 절감에 성공할 수 있었을까?

 

글 초반의 V3 architecture과 지금까지 설명한 R1 architecture 를 보면 모든 부분 하나하나가 비용감소 문제에 굉장히 신경을 많이 썼다는 것을 알 수 있다. 하지만 가장 중요한 비용절감 기법은 TTC이다.

 

Test-Time Compute(TTC)

 

DeepSeek가 도입한 TTC 기법은 AI가 실시간으로 연산을 수행하며 추가적으로 최적의 답을 찾는 방식이다. 이걸 통해 deepseek는 좋은 성능이 나오기 위해 학습과정에서 필 요했던 연산량을 실시간 처리로 분산하여 비용 절감할 수 있게된다.

 

 

 

Few Controversies

 

개인정보 수집 문제와 OpenAI API 약관 위반 의혹이 주요 이슈다. DeepSeek의 개인정보 약관에 따르면, 사용자 입력 프롬프트뿐 아니라 기기 정보, 키보드 입력 패턴, 쿠키 정보 등을 추가로 수집한다는 점이 지적된다. 한국 일부 정부 기관은 보안상의 이유로 DeepSeek 접근을 차단했고, 호주와 대만(중국)도 제재나 경고 조치를 취했다. 또한 OpenAI와 마이크로소프트(MS)가 DeepSeek 측의 대규모 데이터 수집이 약관 위반인지 조사 중이라는 소식이 전해진다.

 

보안 취약성 측면에서는 프롬프트 인젝션 공격, 악성 코드 생성 요청 등에 대해 높은 성공률을 보여 우려를 낳는다. JSON 기반 공격에 82%, 역할극(Role-Playing) 기반 공격에 83% 성공률을 기록했으며, 한국어 기반 공격 성공률이 평균보다 더 높아 다국어 보안 대응이 미흡하다는 지적이 나온다.

 

개인적인 견해로는, 기존의 LLM이 모델 개발자들의 의도에 의해 움직였던 이유는 Supervised 된 학습과정을 통해 변동성이 심해지면 그에 맞는 Policy들이 모두 있기 때문이다. 하지만 DeepSeek-R1은 TTC 기법으로 인해 원래 학습도중에 필요했던 연산량을 실시간으로 돌려버리면서 실시간 최적화 연산을 진행할때는 감독학습이 되지 않기 때문에 모델 개발자의 손을 벗어나는 상황 때문에 취약성이 더 강하다고 생각이 든다.

 

 

 

 

 

...오늘은 발제를 했던 DeepSeek 팀의 연구와 DeepSeek-R1에 대해 알아보았다.

 

 

 

 

 

 

 

논문 발제, 리뷰는 공동 발제로 빅데이터 연합 동아리 BOAZ에서 이루어졌습니다. 
해당 블로그 중간중간에 나오는 ppt 자료는 본인이 직접 제작하였습니다.
반응형