شرکت OpenAI به تازگی از نسخه جدید و ارتقایافته مدل تولید تصویر خود با نام ChatGPT Images 2.0 رونمایی کرده است. این ابزار هوش مصنوعی، که هماکنون برای تمامی کاربران پلتفرمهای این شرکت در دسترس قرار دارد، پیشرفتهای چشمگیری را در زمینه درک دستورات متنی و خلق تصاویر پیچیده به نمایش میگذارد. همزمان با این رویداد، شرکت سازنده در حال توسعه پروژه جدیدی تحت عنوان Codex Labs برای مقیاسپذیری بیشتر هوش مصنوعی در محیطهای سازمانی است. هدف اصلی از توسعه این ابزار جدید، رقابت مستقیم با محصولات مشابهی نظیر مدل نانو بنانا گوگل و سیستم MAI-Image-2 مایکروسافت عنوان میشود.
ویژگی های هوش مصنوعی ChatGPT Images 2.0
یکی از برجستهترین قابلیتهای مدل ChatGPT Images 2.0، توانایی آن در تولید متون خوانا و دقیق درون تصاویر است. در حالی که مدلهای پیشین معمولا در این بخش با ضعفهای جدی روبهرو بودند، نسخه جدید نه تنها در زبانهای لاتین عملکرد بینقصی دارد، بلکه در پشتیبانی از زبانهای غیرلاتین مانند ژاپنی، کرهای، چینی، هندی و بنگالی نیز پیشرفت قابلتوجهی را ثبت کرده است. به گفته توسعهدهندگان، این سیستم اکنون میتواند عناصر ظریفی مانند متون ریز، نمادهای گرافیکی و رابطهای کاربری را با دقت بسیار بالایی رندر کند.

این مدل تصویرساز جدید در دو حالت متفاوت با نامهای فوری (Instant) و تفکر (Thinking) عرضه میشود. کاربرانی که دارای اشتراکهای پولی هوش مصنوعی مانند پلاس، پرو، تجاری و سازمانی هستند، میتوانند از قابلیتهای استدلالی نسخه تفکر بهرهمند شوند. در این حالت، هوش مصنوعی پیش از تولید تصویر، ابتدا ساختار آن را تحلیل کرده و حتی میتواند برای یافتن اطلاعات بهروز، در فضای وب جستجو کند. این فرآیند استدلالی به سیستم اجازه میدهد تا هشت تصویر مرتبط را به صورت همزمان خلق کند، در حالی که ثبات شخصیتها، اشیا و سبک بصری در تمام صحنهها به دقت حفظ میشود.

از دیگر مشخصات فنی ChatGPT Images 2.0 میتوان به پشتیبانی از رزولوشنهای بالا تا سقف 2K اشاره کرد. همچنین، انعطافپذیری در انتخاب نسبتهای تصویر افزایش یافته است؛ به طوری که طراحان میتوانند خروجیهایی با فرمتهای بسیار عریض 3:1 یا تصاویر عمودی 1:3 تولید کنند. در مقایسه با خروجیهایی که سیستم DALL-E 3 دو سال پیش تولید میکرد، اکنون این مدل میتواند طرحهایی نظیر منوی رستورانها یا استوریبوردهای سینمایی را خلق کند که مستقیما در محیطهای واقعی قابل استفاده هستند.
علاوه بر دسترسی عمومی برای کاربران، شرکت سازنده رابط برنامهنویسی اپلیکیشن (API) اختصاصی این مدل را با نام gpt-image-2 منتشر کرده است که هزینه استفاده از آن بر اساس کیفیت و رزولوشن درخواستی محاسبه میشود. این بهروزرسانی ابزارهای طراحی مبتنی بر هوش مصنوعی را وارد مرحله جدیدی کرده است.
نظرات کاربران