مدل هوش مصنوعی Stable Diffusion به‌روز شد؛ تولید تصاویر واقع‌گرایانه‌تر با مشکلات کمتر

اقتصاد ۱۰۰ - شرکت Stability AI از عرضه نسخه v0.9 مدل هوش مصنوعی Stable Diffusion خبر داده است که می‌تواند عرصه را بر میدجرنی تنگ‌تر کند.

به گزارش گروه دانش و فناوری، استارتاپ Stability AI از جدیدترین نسخه مدل هوش مصنوعی خلق تصویر Stable Diffusion به نام SDXL v0.9 رونمایی کرد. این نسخه قادر است تصاویر فوق‌العاده واقع‌گرایانه‌تری بسازد و مشکلاتی مثل تصویرسازی‌های عجیب و غریب از دست‌ها را نداشته باشد.

به گزارش Decrypt، نسخه جدید مدل هوش مصنوعی Stable Diffusion عملکرد بسیار بهتری نسبت به نسخه‌های قبلی دارد و تنها با دریافت چند کلمه می‌تواند تصاویر خارق‌العاده‌ای بسازد. این نسخه به‌گونه‌ای طراحی شده است که بخش عمده کارها را خودش به‌جای شما انجام دهد و حتی در هنگام حرف‌زدن با هوش مصنوعی بتوانید با زبانی طبیعی‌تر با آن حرف بزنید.

Stability AI می‌گوید SDXL 0.9 قادر است جزئیات تصاویر را افزایش دهد و کاربردهای تولید تصاویر با کمک هوش مصنوعی را بیشتر کند. این شرکت می‌گوید نسخه 0.9 در مقایسه با نسخه بتا که پیش‌تر در ماه آوریل منتشر شده بود، عملکرد بسیار بهتری در تبدیل متن به تصویر دارد.

برای مشاهده این پیشرفت می‌توانید تصاویر حاصل از یک ورودی مشترک را در این دو نسخه مقایسه کنید. برای مثال، نسخه جدید برای توصیف «گرگی در پارک ملی یوسمیتی با تم فیلم‌برداری مستندهای طبیعت» تصویری واقع‌گرایانه‌تر را به‌وجود آورده است که نسبت به نسخه پیشین جزئیات بسیار بیشتری دارد.

تعداد پارامترهای Stable Diffusion بسیار بیشتر شده است

بخشی از دلیل این پیشرفت محسوس به افزایش قابل‌توجه شمار پارامترهای SDXL 0.9 مربوط می‌شود. حالا 3.5 میلیارد پارامتر پایه به مدل جدید Stability AI اجازه می‌دهند یادگیری عمیق‌تری داشته باشد و مطابق با یادگیری‌های خود تصاویر بهتری تولید کند.

نسخه 0.9 همچنین گرایش بیشتری به‌سمت ورودی‌های ساده پیدا کرده است و می‌تواند مبتنی بر آن‌ها نتایج بهتری تولید کند. برای مثال، اگر توصیف «دو دست که به‌سمت هم اشاره می‌کنند» را به هوش مصنوعی بدهید، می‌توانید تصویری بسیار واقع‌گرایانه از این مدل دریافت کنید. پیشرفت این نسخه در مقایسه با نسخه‌های قبلی کاملاً مشهود است.

نسخه جدید Stable Diffusion که اولین‌بار در ماه اوت 2022 به شهرت رسید و یکی از مدل‌های متن‌باز تولید تصاویر محسوب می‌شود، حالا با این آپدیت می‌تواند رقیب جدی‌تری برای Dall-E و Midjourney باشد. این مدل همین حالا هم محبوب‌ترین هوش مصنوعی متن‌باز تولید تصاویر محسوب می‌شود.

جدیدترین نسخه Stable Diffusion از طریق ابزار تولید و ویرایش تصاویر شرکت Init ML عرضه می‌شود. این مدل فعلاً نمی‌تواند به‌صورت محلی مورد استفاده قرار بگیرد یا آموزش داده شود، اما زمانی که عرضه عمومی آن آغاز گردد، برای اجرا به حداقل 16 گیگابایت رم و کارت گرافیکی با 8 گیگابایت VRAM نیاز خواهد داشت. تاریخ عرضه عمومی این نسخه احتمالاً اواسط ماه ژوئیه خواهد بود.

انتهای پیام

منبع دیجیاتو