هوش مصنوعی ChatGPT Images 2.0

مدل هوش مصنوعی ChatGPT Images 2.0 رونمایی شد

شرکت OpenAI به تازگی از نسخه جدید و ارتقایافته مدل تولید تصویر خود با نام ChatGPT Images 2.0 رونمایی کرده است. این ابزار هوش مصنوعی، که هم‌اکنون برای تمامی کاربران پلتفرم‌های این شرکت در دسترس قرار دارد، پیشرفت‌های چشمگیری را در زمینه درک دستورات متنی و خلق تصاویر پیچیده به نمایش می‌گذارد. همزمان با این رویداد، شرکت سازنده در حال توسعه پروژه جدیدی تحت عنوان Codex Labs برای مقیاس‌پذیری بیشتر هوش مصنوعی در محیط‌های سازمانی است. هدف اصلی از توسعه این ابزار جدید، رقابت مستقیم با محصولات مشابهی نظیر مدل نانو بنانا گوگل و سیستم MAI-Image-2 مایکروسافت عنوان می‌شود.

ویژگی های هوش مصنوعی ChatGPT Images 2.0

یکی از برجسته‌ترین قابلیت‌های مدل ChatGPT Images 2.0، توانایی آن در تولید متون خوانا و دقیق درون تصاویر است. در حالی که مدل‌های پیشین معمولا در این بخش با ضعف‌های جدی روبه‌رو بودند، نسخه جدید نه تنها در زبان‌های لاتین عملکرد بی‌نقصی دارد، بلکه در پشتیبانی از زبان‌های غیرلاتین مانند ژاپنی، کره‌ای، چینی، هندی و بنگالی نیز پیشرفت قابل‌توجهی را ثبت کرده است. به گفته توسعه‌دهندگان، این سیستم اکنون می‌تواند عناصر ظریفی مانند متون ریز، نمادهای گرافیکی و رابط‌های کاربری را با دقت بسیار بالایی رندر کند.

هوش مصنوعی ChatGPT Images 2.0

این مدل تصویرساز جدید در دو حالت متفاوت با نام‌های فوری (Instant) و تفکر (Thinking) عرضه می‌شود. کاربرانی که دارای اشتراک‌های پولی هوش مصنوعی مانند پلاس، پرو، تجاری و سازمانی هستند، می‌توانند از قابلیت‌های استدلالی نسخه تفکر بهره‌مند شوند. در این حالت، هوش مصنوعی پیش از تولید تصویر، ابتدا ساختار آن را تحلیل کرده و حتی می‌تواند برای یافتن اطلاعات به‌روز، در فضای وب جستجو کند. این فرآیند استدلالی به سیستم اجازه می‌دهد تا هشت تصویر مرتبط را به صورت همزمان خلق کند، در حالی که ثبات شخصیت‌ها، اشیا و سبک بصری در تمام صحنه‌ها به دقت حفظ می‌شود.

هوش مصنوعی ChatGPT Images 2.0

از دیگر مشخصات فنی ChatGPT Images 2.0 می‌توان به پشتیبانی از رزولوشن‌های بالا تا سقف 2K اشاره کرد. همچنین، انعطاف‌پذیری در انتخاب نسبت‌های تصویر افزایش یافته است؛ به طوری که طراحان می‌توانند خروجی‌هایی با فرمت‌های بسیار عریض 3:1 یا تصاویر عمودی 1:3 تولید کنند. در مقایسه با خروجی‌هایی که سیستم DALL-E 3 دو سال پیش تولید می‌کرد، اکنون این مدل می‌تواند طرح‌هایی نظیر منوی رستوران‌ها یا استوری‌بوردهای سینمایی را خلق کند که مستقیما در محیط‌های واقعی قابل استفاده هستند.

علاوه بر دسترسی عمومی برای کاربران، شرکت سازنده رابط برنامه‌نویسی اپلیکیشن (API) اختصاصی این مدل را با نام gpt-image-2 منتشر کرده است که هزینه استفاده از آن بر اساس کیفیت و رزولوشن درخواستی محاسبه می‌شود. این به‌روزرسانی ابزارهای طراحی مبتنی بر هوش مصنوعی را وارد مرحله جدیدی کرده است.

theverge

برای این نوشته برچسبی وجود ندارد !

نظرات کاربران

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

تومان (IRT)
()
پرداخت می‌کنید
()
تومان (IRT)
دریافت می‌کنید
1 = IRT