مقدمه: کشف راز شخصیت یک هوش مصنوعی
اسرار درونی هوش مصنوعی کلود فاش شده است. بهتازگی جزئیات یک سند محرمانه داخلی مرتبط با مدل Claude 4.5 Opus شرکت Anthropic—که به «سند روح» یا Soul Overview معروف است—در فضای آنلاین منتشر شده است. این سند که ظاهراً نقشه راه شخصیت، اخلاق و تعاملات مدل با کاربران است، توسط ریچارد وایس کشف و توسط آنتروپیک تأیید شده است و پنجرهای نادر به فرآیند شکلدهی «شخصیت» یک مدل زبانی بزرگ میگشاید.
چگونگی کشف سند روح: نفوذ به لایههای سیستمی مدل
ریچارد وایس، با استفاده از یک پرامپت مهندسیشده برای مشاهده دستورات سیستمی مدل کلود، موفق به کشف مجموعهای از اسناد داخلی شد. در میان این اسناد، اشارهای به «Soul Overview» وجود داشت. وایس با درخواست بازتولید این سند از کلود، موفق به استخراج متنی حدوداً 11 هزار کلمهای شد که به گفته او، چارچوب شخصیتی و رفتاری کلود را مشخص میکند.
نکته جالب تکرارپذیری: وایس ادعا کرده که این درخواست را 10 بار تکرار کرده و هر بار متنی کاملاً یکسان دریافت نموده است. این تکرارپذیری بالا، احتمال واقعی بودن و وجود یک مرجع ثابت در حافظه مدل را به شدت افزایش میدهد. کاربران ردیت نیز بخشهای مشابهی را گزارش کردهاند.
محتوای سند روح: میثاق اخلاقی یک هوش مصنوعی
بر اساس آنچه فاش شده، این سند بر اصول ایمنی، اخلاق و تعهد مدل به تولید خروجیهای سالم متمرکز است. محورهای اصلی عبارتند از:
تأکید بر مأموریت اصلی: یادآوری مداوم این نکته که «مفید بودن برای انسانها یکی از مهمترین مأموریتهای مدل» است.
تعریف خطوط قرمز: مشخص کردن حوزههای ممنوعه و موضوعاتی که با چارچوب اخلاقی آنتروپیک در تضاد هستند.
تثبیت لحن و شخصیت: شکلدهی به نحوه تعامل، لحن گفتگو و حدود مسئولیتپذیری کلود.
اولویت ایمنی: طراحی شده تا اطمینان حاصل شود مدل حتی تحت فشار یا دستورات پیچیده نیز از اصول اخلاقی خود تخطی نمیکند.
تأیید رسمی آنتروپیک: سند واقعی است
آماندا اَسکِل، فیلسوف و عضو ارشد تیم فنی آنتروپیک، در پستی در شبکه X رسماً تأیید کرد که:
خروجی گزارششده بر پایه یک سند واقعی است.
این سند در دوره یادگیری و توسعه مدل مورد استفاده قرار گرفته است.
این سند همچنان در حال بازبینی و بهروزرسانی است.
نسخه کامل و نهایی آن به زودی ممکن است منتشر شود.
او همچنین توضیح داد که مدل همیشه اسناد درونی را با دقت ۱۰۰٪ بازتولید نمیکند، اما خروجیهای اخیر «تا حد زیادی با نسخه اصلی مطابقت» داشتهاند.
تحلیل و پیامدها: فراتر از یک حاشیه
این افشاگری چندین پیامد مهم دارد:
شفافیت در توسعه AI: نشان میدهد شرکتهای پیشرو مانند آنتروپیک، برای همسو کردن (Alignment) مدلهای خود با ارزشهای انسانی، از اسناد راهبردی عمیق و ساختاریافته استفاده میکنند.
رویکرد «شخصیتمحور»: برخلاف برخی مدلها که صرفاً بر عملکرد تمرکز دارند، آنتروپیک عمداً در حال شکلدهی به یک هویت یا «شخصیت» همسو با اخلاق برای کلود است.
امنیت و قابلیت اطمینان: وجود چنین سندی میتواند به پایداری بیشتر رفتار مدل و کاهش تولید خروجیهای مضر (Hallucination یا پاسخهای خطرناک) کمک کند.
سوالات جدید: این افشا این پرسش را مطرح میکند که دیگر مدلهای بزرگ (مانند GPT یا Gemini) آیا اسناد مشابه «هستۀ اخلاقی» دارند؟ و سطح شفافیت آنها چقدر است؟
جمعبندی: روح هوش مصنوعی؛ معماری برای اخلاق
کشف «سند روح» کلود تنها یک خبر جالب نیست، بلکه نمایشی عینی از بلوغ فرآیند توسعه هوش مصنوعی مسئولیتپذیر است. آنتروپیک با این کار نشان میدهد که ایجاد یک هوش مصنوعی مفید و ایمن، نیازمند چیزی فراتر از آموزش دادههای متنی است؛ نیازمند معماری آگاهانه یک چارچوب اخلاقی درونی است که همانند یک قطبنما، جهتگیری مدل را در موقعیتهای پیچیده تعیین میکند.
این اتفاق ممکن است سرآغازی برای درخواست عمومی شفافیت بیشتر از سوی سایر توسعهدهندگان هوش مصنوعی باشد. در آیندهای نزدیک، شاید «هسته اخلاقی» مدلها به معیاری برای سنجش قابلیت اعتماد و مسئولیتپذیری آنها تبدیل شود.


