انتشار سورس کد دیپ سیک توسط huginface با نام Open-R1

DeepSeek-R1 چیست؟

اگر تا به حال با یک مسئله سخت ریاضی دست‌وپنجه نرم کرده باشید، می‌دانید که چقدر مفید است کمی بیشتر فکر کنید و با دقت آن را حل کنید. مدل o1 شرکت OpenAI نشان داد که وقتی مدل‌های زبانی بزرگ (LLM) به همین شیوه آموزش ببینند – یعنی با استفاده بیشتر از محاسبات در زمان استنتاج – عملکردشان در حل وظایف استدلالی مانند ریاضیات، کدنویسی و منطق به‌طور چشمگیری بهبود می‌یابد. راز پشت پرده مدل های openAI تنها تا زمان رونمایی دیپ سیک از مدل DeepSeek-R1 مخفی بود. 

علاوه بر اینکه مدل  DeepSeek-R1  عملکردی هم‌سطح یا بهتر از مدل o1، داشت. این مدل همراه با یک گزارش فنی دقیق منتشر شد. این گزارش مراحل کلیدی آموزش این مدل را تشریح می‌کرد. همچنین این گزارش و دستورالعمل های آن شامل چندین نوآوری بود. مهم‌ترین نوآوری آن  استفاده از یادگیری تقویتی خالص برای آموزش یک مدل زبان پایه جهت استدلال، بدون هیچ نظارت انسانی بود. 
در حال حاضر ساخت یک مدل استدلال قدرتمند اکنون بسیار ساده است، به شرط آنکه به یک مدل پایه توانمند و ترکیبی از داده‌های باکیفیت دسترسی داشته باشید.

با  انتشار DeepSeek-R1 چندین پرسش بی‌پاسخ باقی میماند:  

  • جمع‌آوری داده: مجموعه داده‌های برای استدلال چگونه گردآوری شده‌اند؟  
  • آموزش مدل: کد آموزشی توسط DeepSeek منتشر نشده است، بنابراین مشخص نیست که کدام هایپرپارامترها بهترین عملکرد را دارند و چگونه در خانواده‌ها و مقیاس‌های مختلف مدل متفاوت هستند.  
  • قوانین مقیاس‌پذیری: چه توازن‌هایی میان محاسبات و داده‌ها در آموزش مدل‌های استدلال وجود دارد؟

این پرسش‌ها باعث شد پروژه Open-R1 توسط Huginface راه‌اندازی شود؛ در این طرح تلاش شده است بر بازسازی دقیق داده‌ها و فرآیند آموزشی DeepSeek-R1، بررسی صحت ادعاهای آن و پیشبرد مرزهای مدل‌های استدلال بازمتن تمرکز شود. 
هدف از ساخت Open-R1 این است که نشان داده شود یادگیری تقویتی چگونه می‌تواند توانایی استدلال را بهبود دهد، بینش‌های قابل استفاده را در اختیار جامعه open source گذاشته است. بدین ترتیب پایه‌ای برای مدل‌های آینده فراهم شود و یتوانند با استفاده از این تکنیک‌ها به آورده های حدید در دنیای هوش مصنوعی برسند.  
در این پست وبلاگ، نگاهی به اجزای کلیدی DeepSeek-R1 خواهیم داشت.

چگونه این کار را انجام دادند؟

مدل DeepSeek-R1 یک مدل استدلال است که بر پایه DeepSeek-V3 ساخته شده. همان‌طور که هر مدل استدلال خوبی نیاز به یک مدل پایه قوی دارد، DeepSeek-V3 دقیقاً همین نقش را ایفا می‌کند. این مدل 671 میلیارد پارامتری از نوع **Mixture of Experts (MoE)** عملکردی در حد مدل‌های قدرتمندی مانند Sonnet 3.5 و GPT-4o دارد.  

آنچه واقعاً چشمگیر است، هزینه بسیار پایین آموزش این مدل است—فقط 5.5 میلیون دلار—که به لطف تغییرات معماری مانند **پیش‌بینی چندگانه توکن (MTP)**، **توجه نهفته چند‌سری (MLA)** و مقدار زیادی (بله، واقعاً زیاد!) بهینه‌سازی سخت‌افزاری ممکن شده است.

DeepSeek همچنین دو مدل به نام های DeepSeek-R1-Zero و DeepSeek-R1 معرفی کرد که هر یک رویکرد آموزشی متفاوتی داشتند.  
DeepSeek-R1-Zero به‌کلی از آموزش نظارت‌شده صرف‌نظر کرد و به‌طور کامل به یادگیری تقویتی (RL) متکی بود. برای افزایش کارایی این فرآیند، از تکنیکی به نام ‘ بهینه‌سازی نسبی گروهی سیاست (GRPO)’ استفاده شده است. همچنین یک سیستم پاداش ساده برای هدایت مدل به کار رفت که بازخوردهایی بر اساس دقت و ساختار پاسخ‌ها ارائه می‌داد.  
این رویکرد به مدل کمک کرد مهارت‌های مفیدی مانند شکستن مسائل به مراحل کوچک‌تر و بررسی صحت خروجی‌های خود؛ در استدلال بدست آورد. با این حال، پاسخ‌های مدل اغلب فاقد وضوح بودند و خواندن آن‌ها دشوار بود.
اینجا بود که DeepSeek-R1وارد عمل شد. این مدل با یک مرحله ‘شروع سرد’ آغاز کرد که در آن بر روی مجموعه کوچکی از مثال‌های دقیق برای  بهبود وضوح و خوانایی، آموزش داده شده است. از آنجا به مراحل بیشتری از یادگیری تقویتی و تصحیح پاسخ‌ها پرداخته شده است، از جمله رد کردن خروجی‌های کم‌کیفیت با استفاده از پاداش‌های مبتنی بر ترجیحات انسانی و پاداش‌های قابل تأیید، مدلی ساخته شد که نه تنها در استدلال خوب عمل می کند، بلکه پاسخ‌های صیقل‌خورده و سازگاری نیز تولید می کند.

تا اینجا این همه عالی به نظر می‌رسد، اما در واقع چه چیزهایی گم شده‌اند؟ بیایید نگاهی به قطعات گمشده پازل (Open-R1: the missing pieces) بیندازیم.

Open-R1: the missing pieces

گرچه  انتشار DeepSeek-R1 یک دستاورد فوق‌العاده است، اما همه چیز منتشر نشده است—با وجود باز بودن وزن‌های مدل، داده‌ها و کدی که برای آموزش مدل استفاده شده‌اند منتشر نشده‌اند ????.  
هدف Open-R1 این است که قطعات آخر گم‌شده را بسازد. با این رویکرد جامعه تحقیقاتی و صنعتی می توانند  مدل‌های مشابه یا بهتری با استفاده از این دستورالعمل‌ها و داده‌ها بسازند. 

همان‌طور که در شکل زیر نشان داده شده، برنامه ما به این صورت است:

مرحله 1:مدل‌های R1-Distill را با تقطیر یک مجموعه داده استدلال با کیفیت از DeepSeek-R1 بازسازی کنیم.  
**مرحله 2:** خط لوله RL خالصی که DeepSeek برای ایجاد مدل R1-Zero استفاده کرده است را بازسازی کنیم. این شامل گردآوری مجموعه داده‌های جدید و مقیاس‌پذیر برای ریاضیات، استدلال و کدنویسی خواهد بود.  
مرحله 3: نشان دهیم که می‌توانیم از مدل پایه → آموزش با نظارت خاص (SFT) → یادگیری تقویتی (RL) از طریق آموزش چندمرحله‌ای عبور کنیم.

مجموعه داده‌های مصنوعی به همه این امکان را می‌دهند که مدل‌های زبان بزرگ موجود یا جدید را تنها با انجام تنظیمات دقیق روی آن‌ها، به مدل‌های استدلال تبدیل کنند. دستورالعمل‌های آموزشی شامل یادگیری تقویتی (RL) به عنوان نقطه شروع برای هر کسی که بخواهد مدل‌های مشابه را از صفر بسازد، عمل خواهند کرد. این موضوع به محققان این امکان را می‌دهند که روش‌های پیشرفته‌تری را بر پایه آن‌ها توسعه دهند. 

در ادامه می توانید به کد این تحقیق دسترسی داشته باشیدو. همچنین اگر علاقمند به مباحث بهینه یازی مدل های هوش مصنوعی هستید می توانید مقاله بهینه سازی مدل هوش مصنوعی wishper با استفاده از Openvino  را نیز مطالعه کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *