Stable Audio 3.0؛ جهش بزرگ در تولید موسیقی با هوش مصنوعی
تا همین چند ماه پیش، ساخت یک قطعه موسیقی کامل با هوش مصنوعی که ساختار ملودیکش را تا انتها حفظ کند، بیشتر شبیه یک رویا بود. حالا اما با معرفی Stable Audio 3.0، ورق برگشته است. دیگر خبری از قطع شدن ناگهانی آهنگ یا تکرار بیمعنی نتها در ثانیههای ۳۰ یا ۶۰ نیست.
Stability AI که پیشتر با مدلهای تصویرسازیاش دنیای هنر را تکان داده بود، حالا دست روی نقطه حساسی گذاشته: ساخت قطعات موسیقی تا ۶ دقیقه. این یعنی وارد شدن هوش مصنوعی به فازِ جدیِ تولیدات موسیقایی که قبلاً برای مدلهای رایگان غیرممکن به نظر میرسید.
1. خانوادهای با چهار مدل متفاوت
تنوع در Stable Audio 3.0 نشان میدهد که این شرکت فقط به دنبال قدرت خام نبوده است. چهار مدل مختلف برای نیازهای متفاوت طراحی شدهاند. مدلهای کوچک با ۴۵۹ میلیون پارامتر، بیشتر برای کسانی که میخواهند روی سیستمهای محلی (Local) و برای تولید جلوههای صوتی (SFX) کار کنند، جذاب است. این مدلها برای قطعات کوتاه تا ۲ دقیقه بهینه شدهاند.
اما داستان اصلی در مدلهای ۱.۴ میلیارد و ۲.۷ میلیارد پارامتری نهفته است. این همان جایی است که ساختار موسیقی حفظ میشود. برخلاف نسخههای قبلی که در دقیقه سوم دچار سردرگمی میشدند، مدلهای بزرگ این مجموعه میتوانند یک اثر ۶ دقیقهای را با شروع، میانه و پایان معنادار مدیریت کنند.

2. چرا Stable Audio 3.0 متفاوت است؟
وقتی صحبت از موسیقی میشود، مسئله فقط ترکیب فرکانسها نیست؛ مسئله زمانبندی است. بزرگترین چالش مدلهای قبلی، فراموش کردنِ تمِ اصلی آهنگ بعد از چند ثانیه بود. Stability AI ادعا میکند که در این نسخه، با بهبود معماری مدل، توانسته است این پیوستگی را تا ۶ دقیقه و ۲۰ ثانیه حفظ کند.
برای موزیسینها، این ابزار میتواند یک دستیار فوقالعاده برای ایدهپردازی باشد. تصور کنید برای یک ویدیو یا فضای Ambient، نیاز به یک قطعه طولانی دارید و به جای صرف ساعتها وقت، خروجی اولیهتان را در چند ثانیه میگیرید.
3. رویکرد متنباز در برابر محدودیتهای تجاری
یکی از بخشهای مهم این خبر، سیاست انتشار این مدلهاست. دسترسی به مدلهای کوچک و متوسط به صورت متنباز، گام بزرگی برای جامعه توسعهدهندگان است. این یعنی میتوانید انتظار داشته باشید به زودی پلاگینهای جالبی برای نرمافزارهای آهنگسازی ببینیم که از این تکنولوژی استفاده میکنند.
البته مدل بزرگ که قدرت اصلی را دارد، تنها از طریق API و پلتفرمهای ابری در دسترس است. همچنین برای شرکتهای بزرگ که درآمد بالایی دارند، قوانین تجاری سختگیرانهای وضع شده تا از استفاده غیرمجاز جلوگیری شود.

4. چالش کپیرایت و یک حرکت استراتژیک
شاید بپرسید با توجه به حواشی حقوقی که گریبان رقبایی مثل Suno را گرفته، وضعیت Stable Audio 3.0 چطور است؟ Stability AI باهوشتر از این حرفهاست. آنها از همان ابتدا سراغ قرارداد با غولهایی مثل Universal Music Group و Warner Music Group رفتند. این یعنی مدل روی دیتایی آموزش دیده که مجوز کامل دارد؛ حرکتی که ریسک حقوقی را به حداقل میرساند.
5. سوالات متداول
آیا آهنگهای تولید شده با Stable Audio 3.0 تجاری هستند؟
- بله، اما برای شرکتهایی با درآمد سالانه بیش از یک میلیون دلار، دریافت مجوز سازمانی الزامی است.
آیا میتوان مدل بزرگ را روی کامپیوتر شخصی اجرا کرد؟
- خیر، مدل بزرگ تنها از طریق API و سرویسهای ابری در دسترس است و برای اجرا به قدرت پردازشی بسیار بالایی نیاز دارد.
آیا این ابزار جایگزین موزیسینها میشود؟
- خیر، این مدلها به عنوان ابزاری برای ایدهپردازی و افزایش سرعت کار موزیسینها طراحی شدهاند و نمیتوانند روح و خلاقیت یک انسان را جایگزین کنند.
جمع بندی
Stable Audio 3.0 نشان داد که هوش مصنوعی در حوزه موسیقی به بلوغ نزدیک شده است. حالا دیگر نه با صدای رباتیک سر و کار داریم و نه با قطعات کوتاه و بیهدف. این ابزار، مرزهای زمانی تولید موسیقی را جابهجا کرده و با رویکرد هوشمندانهای که در مدیریت کپیرایت پیش گرفته، احتمالاً مسیر را برای استانداردسازی این فناوری هموارتر از رقبا طی میکند.

