DeepSeek-R1 چیست؟
اگر تا به حال با یک مسئله سخت ریاضی دستوپنجه نرم کرده باشید، میدانید که چقدر مفید است کمی بیشتر فکر کنید و با دقت آن را حل کنید. مدل o1 شرکت OpenAI نشان داد که وقتی مدلهای زبانی بزرگ (LLM) به همین شیوه آموزش ببینند – یعنی با استفاده بیشتر از محاسبات در زمان استنتاج – عملکردشان در حل وظایف استدلالی مانند ریاضیات، کدنویسی و منطق بهطور چشمگیری بهبود مییابد. راز پشت پرده مدل های openAI تنها تا زمان رونمایی دیپ سیک از مدل DeepSeek-R1 مخفی بود.
علاوه بر اینکه مدل DeepSeek-R1 عملکردی همسطح یا بهتر از مدل o1، داشت. این مدل همراه با یک گزارش فنی دقیق منتشر شد. این گزارش مراحل کلیدی آموزش این مدل را تشریح میکرد. همچنین این گزارش و دستورالعمل های آن شامل چندین نوآوری بود. مهمترین نوآوری آن استفاده از یادگیری تقویتی خالص برای آموزش یک مدل زبان پایه جهت استدلال، بدون هیچ نظارت انسانی بود.
در حال حاضر ساخت یک مدل استدلال قدرتمند اکنون بسیار ساده است، به شرط آنکه به یک مدل پایه توانمند و ترکیبی از دادههای باکیفیت دسترسی داشته باشید.
با انتشار DeepSeek-R1 چندین پرسش بیپاسخ باقی میماند:
- جمعآوری داده: مجموعه دادههای برای استدلال چگونه گردآوری شدهاند؟
- آموزش مدل: کد آموزشی توسط DeepSeek منتشر نشده است، بنابراین مشخص نیست که کدام هایپرپارامترها بهترین عملکرد را دارند و چگونه در خانوادهها و مقیاسهای مختلف مدل متفاوت هستند.
- قوانین مقیاسپذیری: چه توازنهایی میان محاسبات و دادهها در آموزش مدلهای استدلال وجود دارد؟
این پرسشها باعث شد پروژه Open-R1 توسط Huginface راهاندازی شود؛ در این طرح تلاش شده است بر بازسازی دقیق دادهها و فرآیند آموزشی DeepSeek-R1، بررسی صحت ادعاهای آن و پیشبرد مرزهای مدلهای استدلال بازمتن تمرکز شود.
هدف از ساخت Open-R1 این است که نشان داده شود یادگیری تقویتی چگونه میتواند توانایی استدلال را بهبود دهد، بینشهای قابل استفاده را در اختیار جامعه open source گذاشته است. بدین ترتیب پایهای برای مدلهای آینده فراهم شود و یتوانند با استفاده از این تکنیکها به آورده های حدید در دنیای هوش مصنوعی برسند.
در این پست وبلاگ، نگاهی به اجزای کلیدی DeepSeek-R1 خواهیم داشت.
چگونه این کار را انجام دادند؟
مدل DeepSeek-R1 یک مدل استدلال است که بر پایه DeepSeek-V3 ساخته شده. همانطور که هر مدل استدلال خوبی نیاز به یک مدل پایه قوی دارد، DeepSeek-V3 دقیقاً همین نقش را ایفا میکند. این مدل 671 میلیارد پارامتری از نوع **Mixture of Experts (MoE)** عملکردی در حد مدلهای قدرتمندی مانند Sonnet 3.5 و GPT-4o دارد.
آنچه واقعاً چشمگیر است، هزینه بسیار پایین آموزش این مدل است—فقط 5.5 میلیون دلار—که به لطف تغییرات معماری مانند **پیشبینی چندگانه توکن (MTP)**، **توجه نهفته چندسری (MLA)** و مقدار زیادی (بله، واقعاً زیاد!) بهینهسازی سختافزاری ممکن شده است.
DeepSeek همچنین دو مدل به نام های DeepSeek-R1-Zero و DeepSeek-R1 معرفی کرد که هر یک رویکرد آموزشی متفاوتی داشتند.
DeepSeek-R1-Zero بهکلی از آموزش نظارتشده صرفنظر کرد و بهطور کامل به یادگیری تقویتی (RL) متکی بود. برای افزایش کارایی این فرآیند، از تکنیکی به نام ‘ بهینهسازی نسبی گروهی سیاست (GRPO)’ استفاده شده است. همچنین یک سیستم پاداش ساده برای هدایت مدل به کار رفت که بازخوردهایی بر اساس دقت و ساختار پاسخها ارائه میداد.
این رویکرد به مدل کمک کرد مهارتهای مفیدی مانند شکستن مسائل به مراحل کوچکتر و بررسی صحت خروجیهای خود؛ در استدلال بدست آورد. با این حال، پاسخهای مدل اغلب فاقد وضوح بودند و خواندن آنها دشوار بود.
اینجا بود که DeepSeek-R1وارد عمل شد. این مدل با یک مرحله ‘شروع سرد’ آغاز کرد که در آن بر روی مجموعه کوچکی از مثالهای دقیق برای بهبود وضوح و خوانایی، آموزش داده شده است. از آنجا به مراحل بیشتری از یادگیری تقویتی و تصحیح پاسخها پرداخته شده است، از جمله رد کردن خروجیهای کمکیفیت با استفاده از پاداشهای مبتنی بر ترجیحات انسانی و پاداشهای قابل تأیید، مدلی ساخته شد که نه تنها در استدلال خوب عمل می کند، بلکه پاسخهای صیقلخورده و سازگاری نیز تولید می کند.
تا اینجا این همه عالی به نظر میرسد، اما در واقع چه چیزهایی گم شدهاند؟ بیایید نگاهی به قطعات گمشده پازل (Open-R1: the missing pieces) بیندازیم.
Open-R1: the missing pieces
گرچه انتشار DeepSeek-R1 یک دستاورد فوقالعاده است، اما همه چیز منتشر نشده است—با وجود باز بودن وزنهای مدل، دادهها و کدی که برای آموزش مدل استفاده شدهاند منتشر نشدهاند ????.
هدف Open-R1 این است که قطعات آخر گمشده را بسازد. با این رویکرد جامعه تحقیقاتی و صنعتی می توانند مدلهای مشابه یا بهتری با استفاده از این دستورالعملها و دادهها بسازند.
همانطور که در شکل زیر نشان داده شده، برنامه ما به این صورت است:
مرحله 1:مدلهای R1-Distill را با تقطیر یک مجموعه داده استدلال با کیفیت از DeepSeek-R1 بازسازی کنیم.
**مرحله 2:** خط لوله RL خالصی که DeepSeek برای ایجاد مدل R1-Zero استفاده کرده است را بازسازی کنیم. این شامل گردآوری مجموعه دادههای جدید و مقیاسپذیر برای ریاضیات، استدلال و کدنویسی خواهد بود.
مرحله 3: نشان دهیم که میتوانیم از مدل پایه → آموزش با نظارت خاص (SFT) → یادگیری تقویتی (RL) از طریق آموزش چندمرحلهای عبور کنیم.
مجموعه دادههای مصنوعی به همه این امکان را میدهند که مدلهای زبان بزرگ موجود یا جدید را تنها با انجام تنظیمات دقیق روی آنها، به مدلهای استدلال تبدیل کنند. دستورالعملهای آموزشی شامل یادگیری تقویتی (RL) به عنوان نقطه شروع برای هر کسی که بخواهد مدلهای مشابه را از صفر بسازد، عمل خواهند کرد. این موضوع به محققان این امکان را میدهند که روشهای پیشرفتهتری را بر پایه آنها توسعه دهند.
در ادامه می توانید به کد این تحقیق دسترسی داشته باشیدو. همچنین اگر علاقمند به مباحث بهینه یازی مدل های هوش مصنوعی هستید می توانید مقاله بهینه سازی مدل هوش مصنوعی wishper با استفاده از Openvino را نیز مطالعه کنید.



