با مغز افزار همراه باشید! اپل با رونمایی از UniGen 1.5 مرزهای تعامل با تصویر در هوش مصنوعی را جابهجا کرده است. این مدل پیشرفته، قابلیتهای درک، ساخت و ویرایش تصویر را در یک چارچوب واحد ارائه میدهد و تجربهای یکپارچه و کاربردی برای کاربران و توسعهدهندگان فراهم میکند.

ادامه مسیر UniGen: از مدلهای چندوجهی تا UniGen 1.5
مدل قبلی اپل، UniGen، توانایی درک و تولید تصویر را بدون نیاز به مدلهای جداگانه ارائه میکرد. اکنون UniGen 1.5 این مسیر را تکمیل کرده و ویرایش تصویر را نیز به همان چارچوب اضافه کرده است. این یکپارچهسازی باعث شده کاربران بتوانند با یک مدل واحد، تمام مراحل تعامل با تصویر را انجام دهند و تجربهای روان و دقیق داشته باشند.
UniGen 1.5 چگونه کار میکند؟
UniGen 1.5 با استفاده از مرحلهای به نام Edit Instruction Alignment عمل میکند. در این مرحله، مدل ابتدا تصویر اولیه و دستور ویرایش را دریافت میکند و سپس توصیف متنی دقیقی از تصویر نهایی تولید میکند. این گام میانی به مدل کمک میکند پیش از ساخت تصویر نهایی، درک عمیقی از نتیجه مورد انتظار داشته باشد و ویرایشها با دقت بیشتری انجام شود.
چالش ویرایش تصویر و راهحل اپل
اپل میگوید، یکی از بزرگترین مشکلات مدلهای ویرایش تصویر، درک دقیق دستورهای پیچیده و جزئی است، به ویژه وقتی تغییرات بسیار ظریف یا هدفمند باشند. اپل با استفاده از مراحل پیشرفته و یکپارچه، توانسته این چالش را تا حد زیادی برطرف کند و دقت و ثبات ویرایشها را افزایش دهد.

برای رفع این چالش، UniGen 1.5 از یک مرحله جدید پس از آموزش نظارتشده (Post-SFT) به نام Edit Instruction Alignment استفاده میکند. در این مرحله، مدل ابتدا تصویر اولیه و دستور ویرایش را دریافت میکند و سپس تلاش میکند توصیف متنی دقیقی از تصویر نهایی ایجاد کند؛ توصیفی که معنای محتوا و تغییرات اعمالشده در تصویر را بهطور کامل مشخص میکند.
این گام میانی به مدل اجازه میدهد پیش از ساخت تصویر نهایی، درک عمیقتری از نتیجه مورد انتظار داشته باشد و ویرایشها را با دقت بسیار بیشتری انجام دهد.
یادگیری تقویتی با پاداش یکسان
UniGen 1.5 از یادگیری تقویتی با پاداش یکسان برای تولید و ویرایش تصویر استفاده میکند. این نوآوری باعث میشود مدل بتواند تغییرات جزئی تا دگرگونی کامل تصویر را با دقت بالا مدیریت کند. آزمایشها نشان دادهاند که UniGen 1.5 در بنچمارکهای معتبر GenEval و DPG-Bench عملکردی در سطح یا بالاتر از بسیاری از مدلهای متنباز و اختصاصی دارد.
محدودیتها
با وجود پیشرفتهای چشمگیر، UniGen 1.5 هنوز محدودیتهایی دارد. گاهی مدل نمیتواند متن داخل تصاویر را دقیق تولید کند یا ثبات هویت اشیاء و رنگها در ویرایشهای متوالی حفظ شود. پژوهشگران اپل تأکید دارند که رفع این مشکلات در نسخههای آینده مدنظر قرار خواهد گرفت.
UniGen 1.5 اپل نشان میدهد که هوش مصنوعی میتواند مرز میان دیدن، ساختن و ویرایش تصویر را کمرنگ کند و تجربهای کاملاً یکپارچه و کاربردی برای کاربران فراهم نماید. این مدل نوآورانه مسیر هوش مصنوعی چندوجهی را به شکل عملی و قابل لمس نشان میدهد و فرصتهای جدیدی برای توسعهدهندگان و علاقهمندان به تصویرسازی دیجیتال ایجاد میکند.

