OpenAI GPT-4 در شرف انتشار است. این چند وجهی است، به این معنی که اگر گوگل نگران نیست، باید همین الان شروع به کار کند.
آندریاس براون، مدیر ارشد فناوری مایکروسافت آلمان، تأیید کرد که GPT-4 ظرف یک هفته از 9 مارس 2023 عرضه می شود و چندوجهی خواهد بود.
مدل های زبان بزرگ چندوجهی
نکته مهم این اعلامیه این است که GPT-4 چند وجهی است (SEJ پیش بینی کرد GPT-4 در ژانویه 2023 چند وجهی است).
Modality اشاره ای به نوع ورودی است که (در این مورد) یک مدل زبان بزرگ به آن می پردازد.
چند وجهی می تواند متن، گفتار، تصاویر و ویدئو را در بر گیرد.
GPT-3 و GPT-3.5 فقط در یک حالت، متن کار می کنند.
بر اساس گزارش خبری آلمان، GPT-4 ممکن است حداقل در چهار حالت، تصویر، صدا (شنیداری)، متن و ویدئو کار کند.
به نقل از دکتر آندریاس براون، مدیر ارشد فناوری مایکروسافت آلمان:
این گزارش فاقد مشخصاتی برای GPT-4 بود، بنابراین مشخص نیست که آیا آنچه در مورد چندوجهی به اشتراک گذاشته شده مختص GPT-4 است یا فقط به طور کلی.
این گزارش فاقد مشخصاتی برای GPT-4 بود، بنابراین مشخص نیست که آیا آنچه در مورد چندوجهی به اشتراک گذاشته شده مختص GPT-4 است یا فقط به طور کلی.
هولگر کن، مدیر استراتژی تجاری مایکروسافت، چندوجهیها را توضیح داد، اما گزارشها مشخص نبود که او به چندوجهی بودن یا چندوجهی GPT-4 در کلیات اشاره میکند.
من معتقدم ارجاعات او به چند وجهی مختص GPT-4 بود.
این گزارش به اشتراک گذاشته شده است:
کن توضیح داد که هوش مصنوعی چندوجهی در مورد چیست، که می تواند متن را نه تنها به عکس، بلکه به موسیقی و ویدئو نیز ترجمه کند.
واقعیت جالب دیگر این است که مایکروسافت در حال کار بر روی “معیارهای اطمینان” است تا هوش مصنوعی خود را با حقایق مستقر کند تا قابل اعتمادتر شود.
مایکروسافت Kosmos-1
چیزی که ظاهراً در ایالات متحده کمتر گزارش شده است این است که مایکروسافت یک مدل زبان چندوجهی به نام Kosmos-1 را در ابتدای مارس 2023 منتشر کرد.
به گزارش پایگاه خبری آلمان Heise.de:
این تیم مدل از پیش آموزشدیدهشده را تحت آزمایشهای مختلفی قرار دادند که نتایج خوبی در طبقهبندی تصاویر، پاسخگویی به سؤالات در مورد محتوای تصویر، برچسبگذاری خودکار تصاویر، تشخیص متن نوری و وظایف تولید گفتار داشت.
… به نظر می رسد استدلال بصری، یعنی نتیجه گیری در مورد تصاویر بدون استفاده از زبان به عنوان یک مرحله میانی، یک کلید در اینجا باشد…
Kosmos-1 یک مدال چندوجهی است که حالتهای متن و تصاویر را ادغام میکند.
GPT-4 فراتر از Kosmos-1 است زیرا حالت سومی را اضافه می کند، ویدیو، و همچنین به نظر می رسد که مدالیته صدا را نیز شامل می شود.
OpenAI GPT-4: در چندین زبان کار می کند
به نظر می رسد GPT-4 در همه زبان ها کار می کند. توضیح داده شده است که می توانید یک سؤال را به زبان آلمانی دریافت کنید و به زبان ایتالیایی پاسخ دهید.
این یک مثال عجیب است زیرا، چه کسی سؤالی را به زبان آلمانی میپرسد و میخواهد پاسخی به زبان ایتالیایی دریافت کند؟
این چیزی است که تایید شد:
«…تکنولوژی به حدی رسیده است که اساساً «در همه زبانها کار میکند»: میتوانید سؤالی را به آلمانی بپرسید و به زبان ایتالیایی پاسخ بگیرید.
با چندوجهی، مایکروسافت (-OpenAI) مدل ها را جامع خواهد کرد.
من معتقدم که نقطه پیشرفت این است که این مدل با توانایی خود در انتقال دانش به زبان های مختلف از زبان فراتر می رود. بنابراین اگر پاسخ به زبان ایتالیایی باشد، آن را می داند و می تواند پاسخ را به زبانی که سوال پرسیده شده است ارائه دهد.
این امر آن را شبیه به هدف هوش مصنوعی چندوجهی گوگل به نام MUM می کند. گفته میشود که مادر میتواند پاسخهایی را به زبان انگلیسی ارائه کند که دادهها فقط به زبان دیگری مانند ژاپنی وجود دارد.
OpenAI GPT-4: برنامه های کاربردی GPT-4
در حال حاضر هیچ اطلاعیه ای درباره مکان نمایش GPT-4 وجود ندارد. اما Azure-OpenAI به طور خاص ذکر شد.
گوگل در تلاش است تا با ادغام یک فناوری رقیب در موتور جستجوی خود به مایکروسافت برسد. این پیشرفت این تصور را تشدید می کند که گوگل در حال عقب ماندن و عدم رهبری در زمینه هوش مصنوعی مصرف کننده است.
گوگل در حال حاضر هوش مصنوعی را در چندین محصول مانند Google Lens، Google Maps و سایر مناطقی که مصرف کنندگان با Google در تعامل هستند، ادغام کرده است. این رویکرد استفاده از هوش مصنوعی به عنوان یک فناوری کمکی برای کمک به افراد در کارهای کوچک است.
روشی که مایکروسافت آن را پیادهسازی میکند بیشتر قابل مشاهده است و در نتیجه تمام توجهات را به خود جلب میکند و تصویری از گوگل را تقویت میکند که در حال شکست و تلاش برای رسیدن به عقب است.
نظرات کاربران