مدل هوش مصنوعی Stable Diffusion بهروز شد؛ تولید تصاویر واقعگرایانهتر با مشکلات کمتر
اقتصاد ۱۰۰ - شرکت Stability AI از عرضه نسخه v0.9 مدل هوش مصنوعی Stable Diffusion خبر داده است که میتواند عرصه را بر میدجرنی تنگتر کند.
به گزارش گروه دانش و فناوری، استارتاپ Stability AI از جدیدترین نسخه مدل هوش مصنوعی خلق تصویر Stable Diffusion به نام SDXL v0.9 رونمایی کرد. این نسخه قادر است تصاویر فوقالعاده واقعگرایانهتری بسازد و مشکلاتی مثل تصویرسازیهای عجیب و غریب از دستها را نداشته باشد.
به گزارش Decrypt، نسخه جدید مدل هوش مصنوعی Stable Diffusion عملکرد بسیار بهتری نسبت به نسخههای قبلی دارد و تنها با دریافت چند کلمه میتواند تصاویر خارقالعادهای بسازد. این نسخه بهگونهای طراحی شده است که بخش عمده کارها را خودش بهجای شما انجام دهد و حتی در هنگام حرفزدن با هوش مصنوعی بتوانید با زبانی طبیعیتر با آن حرف بزنید.
Stability AI میگوید SDXL 0.9 قادر است جزئیات تصاویر را افزایش دهد و کاربردهای تولید تصاویر با کمک هوش مصنوعی را بیشتر کند. این شرکت میگوید نسخه 0.9 در مقایسه با نسخه بتا که پیشتر در ماه آوریل منتشر شده بود، عملکرد بسیار بهتری در تبدیل متن به تصویر دارد.
برای مشاهده این پیشرفت میتوانید تصاویر حاصل از یک ورودی مشترک را در این دو نسخه مقایسه کنید. برای مثال، نسخه جدید برای توصیف «گرگی در پارک ملی یوسمیتی با تم فیلمبرداری مستندهای طبیعت» تصویری واقعگرایانهتر را بهوجود آورده است که نسبت به نسخه پیشین جزئیات بسیار بیشتری دارد.
تعداد پارامترهای Stable Diffusion بسیار بیشتر شده است
بخشی از دلیل این پیشرفت محسوس به افزایش قابلتوجه شمار پارامترهای SDXL 0.9 مربوط میشود. حالا 3.5 میلیارد پارامتر پایه به مدل جدید Stability AI اجازه میدهند یادگیری عمیقتری داشته باشد و مطابق با یادگیریهای خود تصاویر بهتری تولید کند.
نسخه 0.9 همچنین گرایش بیشتری بهسمت ورودیهای ساده پیدا کرده است و میتواند مبتنی بر آنها نتایج بهتری تولید کند. برای مثال، اگر توصیف «دو دست که بهسمت هم اشاره میکنند» را به هوش مصنوعی بدهید، میتوانید تصویری بسیار واقعگرایانه از این مدل دریافت کنید. پیشرفت این نسخه در مقایسه با نسخههای قبلی کاملاً مشهود است.
نسخه جدید Stable Diffusion که اولینبار در ماه اوت 2022 به شهرت رسید و یکی از مدلهای متنباز تولید تصاویر محسوب میشود، حالا با این آپدیت میتواند رقیب جدیتری برای Dall-E و Midjourney باشد. این مدل همین حالا هم محبوبترین هوش مصنوعی متنباز تولید تصاویر محسوب میشود.
جدیدترین نسخه Stable Diffusion از طریق ابزار تولید و ویرایش تصاویر شرکت Init ML عرضه میشود. این مدل فعلاً نمیتواند بهصورت محلی مورد استفاده قرار بگیرد یا آموزش داده شود، اما زمانی که عرضه عمومی آن آغاز گردد، برای اجرا به حداقل 16 گیگابایت رم و کارت گرافیکی با 8 گیگابایت VRAM نیاز خواهد داشت. تاریخ عرضه عمومی این نسخه احتمالاً اواسط ماه ژوئیه خواهد بود.
ارسال نظر