⏱ این مطلب چقدر از وقت شما را میگیرد؟
حدود 9 دقیقه
سال جاری با معرفی چتبات DeepSeek R1 توسط یک شرکت چینی، صنعت هوش مصنوعی جهان را تحت تأثیر قرار داد. این مدل نه تنها از نظر عملکرد با غولهای جهانی رقابت میکرد، بلکه شاهکار اصلی آن در کارایی بود: استفاده از منابع محاسباتی بسیار کمتر و هزینه پایینتر توسعه. این رویداد چنان شوکهکننده بود که ارزش سهام شرکتهای بزرگ تولیدکننده تراشه مانند Nvidia را به شدت کاهش داد. این امر نشان داد که نوآوری در معماری و فرآیندهای آموزشی میتواند به طور قابل ملاحظهای بر نیاز به سختافزار فوقالعاده گرانقیمت غلبه کند.
این موفقیت، شایعاتی را در مورد استفاده DeepSeek از مدلهای انحصاری OpenAI از طریق تکنیکی به نام تقطیر (Distillation) بر سر زبانها انداخت. این موضوع، صنعت را وادار به بازبینی رویکردهای خود در زمینه ساخت مدلهای عظیم کرد و تقطیر دانش را دوباره به کانون توجه آورد. این تغییر پارادایم نشان میدهد که مسیر پیشرفت در هوش مصنوعی لزوماً از افزایش بیپایان پارامترها نمیگذرد، بلکه از هوشمندی در انتقال و فشردهسازی دانش میگذرد.
تقطیر دانش (Knowledge Distillation) چیست؟
تقطیر دانش، که حدود یک دهه سابقه پژوهشی دارد، یک تکنیک اساسی برای بهینهسازی مدلهای AI است. هدف نهایی این فرآیند، دستیابی به یک مدل کوچکتر، سریعتر و از نظر منابع محاسباتی کممصرفتر است که بتواند عملکردی نزدیک به مدل بسیار بزرگتر و پیچیدهتر خود داشته باشد. همانطور که انریک بویس-آدسر، محقق دانشگاه وارتون، تأکید میکند: «تقطیر یکی از مهمترین ابزارهایی است که شرکتها برای بهبود کارایی مدلهای خود دارند. این فرآیند به ما اجازه میدهد تا مزایای آموزش در مقیاس بزرگ را بدون تحمل بار عملیاتی سنگین آن، به دست آوریم.»
هدف اصلی این فرآیند، انتقال دانش انباشته شده از یک مدل بزرگ و پیچیده (مدل معلم یا Teacher Model) به یک مدل کوچکتر و سریعتر (مدل دانشآموز یا Student Model) است.
تفاوت با کوانتیزاسیون (Quantization) و هرس (Pruning)
تقطیر دانش از تکنیکهای سنتی کوچکسازی مدل مانند هرس (حذف اتصالات غیرضروری) و کوانتیزاسیون (کاهش دقت عددی وزنها) متمایز است:
- هرس (Pruning): به سادگی اتصالات کماهمیت را حذف میکند و ساختار شبکه را تغییر میدهد.
- کوانتیزاسیون (Quantization): دقت عددی پارامترها (مثلاً از ۳۲ بیت ممیز شناور به ۸ بیت صحیح) را کاهش میدهد و عموماً نیاز به آموزش مجدد جزئی دارد.
- تقطیر (Distillation): تمرکز اصلی آن بر انتقال رفتار و توزیع احتمال خروجی مدل معلم به مدل دانشآموز است، نه صرفاً کاهش تعداد پارامترها. این فرآیند ساختار و پارامترهای مدل دانشآموز را حفظ میکند اما نحوه یادگیری آن را از طریق نظارت معلم تغییر میدهد.
ریشهها: کشف «دانش تاریک» توسط پدرخواندههای AI
ایده اصلی تقطیر در سال ۲۰۱۵ توسط تیمی از جمله جفری هینتون، پدرخوانده هوش مصنوعی، در مقالهای با عنوان “Distilling the Knowledge in a Neural Network” مطرح شد. آنها دریافتند که مدلهای بزرگ (معلم) هنگام پاسخ دادن، علاوه بر پاسخ صحیح (برچسب سخت یا Hard Label)، اطلاعات ارزشمندی را در مورد «نزدیکترین پاسخهای نادرست» نیز در خود دارند. این اطلاعات ظریف که اغلب نادیده گرفته میشد، “دانش تاریک” (Dark Knowledge) نام گرفت.
مفهوم توزیع نرم (Soft Targets)
در یادگیری نظارت شده سنتی، تابع زیان معمولاً بر اساس برچسبهای سخت (مانند $y=1$ برای کلاس صحیح و $y=0$ برای بقیه کلاسها) محاسبه میشود. اما در تقطیر، مدل دانشآموز نه تنها با برچسبهای سخت، بلکه با خروجی نرم (Soft Targets) مدل معلم نیز آموزش میبیند.
خروجی نرم، توزیع احتمال روی تمام کلاسها است که توسط لایه Softmax مدل معلم تولید میشود. برای نرم کردن این توزیع و برجستهسازی تفاوتهای ظریف، از دمای (Temperature, $T$) در تابع سافتمکس استفاده میشود.
تابع سافتمکس استاندارد برای یک ورودی (x) و وزنهای (w_i) در لایه نهایی به شکل زیر است:
[ P_i = \frac{\exp(z_i)}{\sum_j \exp(z_j)} ] که (z_i) لوگیت (خروجی قبل از سافتمکس) برای کلاس (i) است.
با معرفی دما (T)، تابع سافتمکس تعدیل شده به این صورت خواهد بود:
[ P_i(T) = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)} ]
وقتی (T=1)، همان سافتمکس استاندارد است. وقتی (T > 1)، توزیع نرمتر میشود و تفاوتهای کوچک بین کلاسهای غیرصحیح برجستهتر میشوند. این توزیع نرم، همان “دانش تاریک” است.
به عنوان مثال، در تشخیص تصویر، اشتباه گرفتن سگ با روباه از نظر مدل معلم (توزیع نرم)، بهتر از اشتباه گرفتن آن با پیتزا است. مدل دانشآموز با تمرکز بر یادگیری این ظرایف (یعنی شباهت احتمالاتی کلاسها) از مدل معلم، به سرعت به دقت قابل قبولی دست یابد، بدون اینکه نیاز به آموزش سنگین از ابتدا داشته باشد.
تابع زیان ترکیبی (Combined Loss Function)
تابع زیان نهایی برای آموزش مدل دانشآموز ((L_{KD})) معمولاً ترکیبی وزنی از دو جزء اصلی است:
- زیان تقطیر ((L_{Soft})): اندازهگیری فاصله بین خروجی نرم مدل دانشآموز و خروجی نرم مدل معلم. این فاصله معمولاً با استفاده از واگرایی کولبک-لایبلر (KL Divergence) محاسبه میشود: [ L_{Soft} = D_{KL}(P_{Teacher}(T) \parallel P_{Student}(T)) ]
- زیان دانشآموز ((L_{Hard})): زیان سنتی (مانند Cross-Entropy) بین خروجی مدل دانشآموز و برچسبهای واقعی دادهها.
[ L_{KD} = \alpha \cdot L_{Soft} + (1 – \alpha) \cdot L_{Hard} ]
که (\alpha) پارامتری برای تعیین وزن هر بخش است. توجه داشته باشید که هنگام محاسبه (L_{Soft})، هم خروجی معلم و هم خروجی دانشآموز باید با همان دمای (T) محاسبه شوند.
از مدلهای بزرگ تا صرفهجویی با DistilBERT
با افزایش حجم دادهها و پیچیدگی وظایف، مدلهای هوش مصنوعی مانند BERT (معرفی شده توسط گوگل در سال ۲۰۱۸) غولپیکر و بسیار پرهزینه شدند. آموزش و استقرار مدلهایی با صدها میلیون پارامتر نیازمند منابع عظیم GPU و زمان طولانی بود. اینجاست که تقطیر نقش حیاتی خود را ایفا کرد و به ابزاری برای دموکراتیزه کردن دسترسی به مدلهای پیشرفته تبدیل شد.
- کاهش اندازه و افزایش سرعت: توسعهدهندگان از تقطیر برای ساخت نسخههای سبکتر استفاده کردند. مثال بارز آن، DistilBERT بود.
- BERT Base: ۱۱۰ میلیون پارامتر.
- DistilBERT: ۶۶ میلیون پارامتر (۴۰٪ کمتر).
- نتیجه: DistilBERT تقریباً ۶۰٪ سریعتر از BERT است و پارامترهای کمتری دارد، در حالی که بیش از ۹۷٪ عملکرد BERT اصلی را در وظایف زبان طبیعی حفظ میکند. این مدل به سرعت در کاربردهای تجاری رایج شد که نیاز به استقرار در دستگاههای لبه یا سرورهای کمتوان داشتند.
- استاندارد شدن تکنیک: تقطیر به سرعت به یک تکنیک استاندارد تبدیل شد و اکنون توسط تمامی بازیگران اصلی مانند گوگل، OpenAI و آمازون به عنوان یک سرویس یا یک بخش جداییناپذیر از خط تولید مدلهایشان ارائه میشود. این امر به شرکتها امکان میدهد تا مدلهای سفارشی کوچکتری را برای نیازهای خاص مشتریان خود تولید کنند.
انواع دیگر تقطیر دانش
علاوه بر تقطیر بر اساس خروجی نهایی (Logit Distillation)، روشهای پیشرفتهتری نیز توسعه یافتهاند:
- تقطیر میانی (Intermediate Layer Distillation): مدل دانشآموز سعی میکند نه تنها خروجی نهایی، بلکه خروجیهای لایههای میانی (مانند ورودی به لایه توجه یا لایههای پیشخور) مدل معلم را نیز تقلید کند. این روش معمولاً منجر به نتایج دقیقتری میشود زیرا دانش ساختاری شبکه را منتقل میکند.
- تقطیر مبتنی بر نمونه (Instance-Based Distillation): تمرکز بر تولید نمونههای مصنوعی یا انتخاب زیرمجموعهای بهینه از دادههای آموزشی اصلی که بیشترین تأثیر را در انتقال دانش دارند.
چشمانداز آینده: تقطیر فراتر از مدلهای کلاسیک
با ظهور مدلهای بسیار بزرگ و پدیدههایی مانند مدلهای پایه (Foundation Models) که پارامترهای آنها به تریلیونها میرسد، لزوم تقطیر بیشتر احساس میشود.
چالشها در مدلهای Closed-Source (API-Only)
در مورد مدلهای Closed-Source مانند GPT-4، تقطیر مستقیم دشوار است؛ زیرا دسترسی به پارامترها، لایههای میانی، یا حتی توزیع لگاریتمی دقیق خروجی آنها وجود ندارد. در این حالت، رویکردی مشابه روش سقراطی – پرسش و پاسخ متوالی با مدل معلم از طریق API – همچنان امکان آموزش مدل دانشآموز را فراهم میکند.
در این روش، مجموعهای از ورودیها به مدل معلم داده میشود و خروجیهای آن (که شامل توزیع احتمال ضمنی است) به عنوان “زمین حقیقت جایگزین” برای آموزش مدل دانشآموز استفاده میشود. این تکنیک به عنوان Distillation از طریق API شناخته میشود.
تقطیر در مدلهای استدلالی (Reasoning Models)
یکی از مهمترین پیشرفتهای اخیر، کاربرد تقطیر در آموزش مدلهایی است که قابلیت استدلال پیچیده را دارند. مدلهای زنجیره فکری (Chain-of-Thought یا CoT) نحوه استدلال خود را گام به گام نشان میدهند، که از نظر محاسباتی بسیار گران است.
پیشرفتهای اخیر، مانند کار آزمایشگاه NovaSky در دانشگاه برکلی، نشان میدهد که تقطیر برای آموزش مدلهای پیچیدهای مانند مدلهای استدلال زنجیرهای نیز فوقالعاده مؤثر است.
مطالعه موردی Sky-T1: تیم برکلی از یک مدل معلم بسیار بزرگ (که مراحل استدلالی پیچیده را تولید میکرد) استفاده کردند. مدل دانشآموز (Sky-T1) آنها تنها با یادگیری دنبال کردن ساختار این زنجیرههای فکری (نه لزوماً جزئیات ریاضیاتی هر مرحله)، توانست به عملکردی همسطح مدلهای بزرگتر در بنچمارکهای استدلالی دست یابد.
دچنگ لی، یکی از رهبران این تیم، این دستاورد را تأییدی بر ماهیت بنیادی تقطیر میداند: «دانش صرفاً وزنها نیستند؛ بلکه نحوه تفکر یک مدل است. اگر بتوانیم نحوه تفکر مدل معلم را به دانشآموز تزریق کنیم، صرف نظر از اندازه پارامترها، موفق شدهایم.» هزینه آموزش مدل Sky-T1 تنها کمتر از ۴۵۰ دلار اعلام شد، در حالی که آموزش مدل معلم اصلی میلیونها دلار هزینه داشته است.
جنبههای فنی عمیقتر: تنظیم فاصلههای اندازهگیری شده
برای اطمینان از اینکه تقطیر دانش به درستی صورت میگیرد، باید دقت کنیم که چگونه عدم تشابه بین توزیعهای احتمال اندازهگیری میشود.
نقش ترمودینامیک در یادگیری ماشین
استفاده از دما (T) در تابع سافتمکس یک مفهوم برگرفته از مکانیک آماری است. در فیزیک، دما کنترل میکند که سیستم چقدر انرژی جنبشی دارد و در نتیجه چقدر از حالت پایه خود منحرف میشود. در یادگیری ماشین:
- دمای بالا ((T \to \infty)): توزیع احتمال به سمت یکنواختی کامل (Uniform) میل میکند. تمام کلاسها احتمال برابر دارند. این تقریباً هیچ اطلاعاتی در مورد شباهت کلاسها منتقل نمیکند.
- دمای پایین ((T \to 1)): توزیع به خروجی استاندارد نزدیکتر است و تفاوتهای کوچک بین کلاسهای با احتمال نزدیک (دانش تاریک) را از بین میبرد.
بنابراین، انتخاب (T) یک مصالحه (Trade-off) حیاتی است. معمولاً در محدوده (T \in [2, 10]) بهترین نتایج برای تقطیر به دست میآید.
معیار اندازهگیری فاصله: KL Divergence
واگرایی کولبک-لایبلر (KL Divergence) یک معیار نامتقارن است که میزان اطلاعات از دست رفته هنگام استفاده از توزیع (Q) (دانشآموز) برای تقریبی زدن توزیع (P) (معلم) را اندازهگیری میکند:
[ D_{KL}(P \parallel Q) = \sum_i P_i \log \left( \frac{P_i}{Q_i} \right) ] در زمینه تقطیر، ما میخواهیم توزیع دانشآموز (Q) تا حد امکان به توزیع معلم (P) نزدیک باشد. به دلیل اینکه این زیان در کنار زیان اصلی (Cross-Entropy) قرار میگیرد، وزندهی مناسب پارامتر (\alpha) حیاتی است تا از غلبه بیش از حد یکی بر دیگری جلوگیری شود.
آموزش با چند استراتژی تقطیر همزمان
مدلهای پیشرفتهتر ممکن است از چندین تابع زیان تقطیر به طور همزمان استفاده کنند. برای مثال، میتوان همزمان از تقطیر خروجی نهایی (Logits) و همچنین تقطیر ویژگیهای استخراج شده از لایههای میانی (Feature Map Matching) استفاده کرد. این رویکرد، انتقال دانش را از لحاظ عمق شبکه جامعتر میسازد.
نتیجهگیری: کلید کوچکسازی و کارایی در عصر AI
تقطیر دانش، تنها یک روش برای کوچکسازی مدلهای هوش مصنوعی نیست، بلکه مسیری اثبات شده برای دستیابی به کارایی بالا با حفظ دقت است. شوک DeepSeek نشان داد که محدودیتهای محاسباتی و مالی میتوانند با نوآوری در فرآیند آموزش برطرف شوند.
در دنیایی که سرمایهگذاریهای عظیم محاسباتی حرف اول را میزند، تقطیر دانش به عنوان یک ابزار بنیادی، نویدبخش آیندهای است که در آن هوش مصنوعی پیشرفته، در دسترستر، ارزانتر و قابل استقرار در دستگاهها و محیطهای محدودتر (Edge Computing) خواهد بود. این تکنیک تضمین میکند که نوآوری در هوش مصنوعی با مقرون به صرفه بودن همراه باشد و مرزهای مرسوم مقیاسپذیری را پشت سر بگذارد.
اهمیت در چشمانداز فعلی:
- کاهش انتشار کربن: مدلهای کوچکتر نیاز به دورههای آموزشی کوتاهتر و سختافزار کمتر مصرف میکنند.
- استقرار در لبه (Edge Deployment): امکان اجرای مدلهای قدرتمند بر روی تلفنهای همراه، سنسورها و دستگاههای IoT بدون نیاز به ارتباط مداوم با سرورهای ابری.
- آزمایش و تکرار سریعتر: توسعهدهندگان میتوانند مدلهای دانشآموز را سریعتر آموزش داده و تنظیم کنند، که چرخه نوآوری را تسریع میبخشد.
تقطیر دانش به عنوان پلی بین مدلهای تحقیقاتی غولپیکر و کاربردهای عملی و اقتصادی، ستون فقرات بهینهسازی هوش مصنوعی در دهه آینده خواهد بود.
