گوگل یک مقاله تحقیقاتی در مورد ارزیابی کیفیت صفحه با هوش مصنوعی منتشر کرد. جزئیات الگوریتم به طور قابل توجهی شبیه به آنچه که الگوریتم محتوای مفید گوگل شناخته شده میباشد.
گوگل فناوری های الگوریتم را شناسایی نمیکند
هیچکس خارج از گوگل نمیتواند با اطمینان بگوید که این مقاله تحقیقاتی اساس سیگنال محتوای مفید است.
گوگل عموماً فناوری زیربنایی الگوریتم های مختلف خود مانند الگوریتم های پنگوئن، پاندا یا SpamBrain را شناسایی نمیکند.
بنابراین نمیتوان با قاطعیت گفت که این الگوریتم، الگوریتم محتوای مفید است، فقط میتوان حدس زد و در مورد آن نظر داد.
اما ارزش دیدن را دارد زیرا شباهت چشم ها را خیره میکنند.
سیگنال محتوای مفید
1. یک طبقه بندی کننده را بهبود میبخشد
گوگل سرنخ های زیادی در مورد سیگنال محتوای مفید ارائه کرده است، اما هنوز گمانه زنی های زیادی در مورد اینکه واقعا چیست وجود دارد.
اولین سرنخ ها در توییتی به تاریخ 6 دسامبر 2022 بود که اولین بهروزرسانی محتوای مفید را اعلام کرد.
در این توییت آمده است:
«این طبقه بندی کننده ما را بهبود میبخشد و در سراسر محتوا در همه زبان ها کار میکند.»
طبقه بندی کننده، در یادگیری ماشین، چیزی است که داده ها را دسته بندی میکند.
2. این یک اقدام دستی یا هرزنامه نیست
الگوریتم محتوای مفید، طبق توضیح گوگل (آنچه سازندگان باید در مورد بهروزرسانی محتوای مفید اوت 2022 گوگل بدانند)، یک اقدام هرزنامه یا یک اقدام دستی نیست.
این فرآیند طبقه بندی کننده با استفاده از یک مدل یادگیری ماشینی کاملاً خودکار است.
این یک اقدام دستی و یا یک اقدام هرزنامه نیست.
3. این یک سیگنال مرتبط با رتبه بندی است
توضیح دهنده بهروزرسانی محتوای مفید میگوید که الگوریتم محتوای مفید سیگنالی است که برای رتبه بندی محتوا استفاده میشود.
“…این فقط یک سیگنال جدید و یکی از سیگنال های بسیاری است که گوگل برای رتبه بندی محتوا ارزیابی میکند.”
4. بررسی میکند که آیا محتوا توسط افراد ساخته شده است
نکته جالب این است که سیگنال محتوای مفید (ظاهراً) بررسی میکند که آیا محتوا توسط افراد ایجاد شده است یا خیر.
پست وبلاگ Google در بهروزرسانی محتوای مفید (محتوای بیشتر توسط افراد، برای جستجو) بیان کرد که این سیگنالی برای شناسایی محتوای ایجاد شده توسط افراد است.
دنی سالیوان نوشت:
«…ما در حال ارائه مجموعه ای از پیشرفت ها در «جستجو» هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، آسانتر پیدا کنند.
ما مشتاقانه منتظریم تا بر اساس این، یافتن محتوای اصلی توسط و برای افراد واقعی در ماه های آینده آسانتر شود.»
مفهوم «توسط مردم» بودن محتوا سه بار در اعلامیه تکرار میشود، ظاهراً نشان میدهد اهمیت اصالت چقدر بالاست.
و اگر «توسط افراد» نوشته نشده باشد، توسط ماشین تولید میشود، که یک ملاحظه مهم است زیرا الگوریتم مورد بحث در اینجا به تشخیص محتوای تولید شده توسط ماشین مربوط میشود.
5. آیا محتوای مفید سیگنال چند چیز است؟
در نهایت، اعلامیه وبلاگ Google نشان میدهد که بهروزرسانی محتوای مفید فقط یک چیز مانند یک الگوریتم نیست.
دنی سالیوان مینویسد که این یک «سری پیشرفت ها» است که نیازمند مطالعه همه جانبه است.
او نوشت:
«…ما در حال ارائه یک سری پیشرفت ها در «جستجو» هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، راحت تر بیابند.»
مدل های تولید متن میتوانند کیفیت صفحه را پیش بینی کنند
آنچه این مقاله تحقیقاتی کشف میکند این است که مدل های زبان بزرگ (LLM) مانند GPT-2 میتوانند محتوای با کیفیت پایین را به دقت شناسایی کنند.
آنها از طبقه بندی کننده هایی استفاده کردند که برای شناسایی متن های تولید شده توسط ماشین آموزش دیده بودند و متوجه شدند که همان طبقه بندی کننده ها میتوانند متن با کیفیت پایین را شناسایی کنند، حتی اگر برای انجام این کار آموزش ندیده باشند.
مدل های زبان بزرگ میتوانند یاد بگیرند که چگونه کارهای جدیدی را انجام دهند که برای انجام آنها آموزش ندیده اند.
یک مقاله دانشگاه استنفورد در مورد GPT-3 بحث میکند که چگونه به طور مستقل توانایی ترجمه متن از انگلیسی به فرانسوی را یاد گرفته است، صرفاً به این دلیل که داده های بیشتری برای یادگیری به آن داده شده است، چیزی که با GPT-2، که کمتر آموزش داده شده بود، اتفاق نیفتاد.
این مقاله به این نکته اشاره میکند که چگونه افزودن داده های بیشتر باعث ظهور رفتارهای جدید میشود که نتیجه آن چیزی است که آموزش بدون نظارت نامیده میشود.
این کلمه “ظهور” مهم است زیرا به زمانی اشاره دارد که ماشین یاد میگیرد کاری را انجام دهد که برای انجام آن آموزش ندیده است.
مقاله دانشگاه استنفورد در مورد GPT-3 توضیح میدهد:
شرکت کنندگان در کارگاه گفتند از این که چنین رفتاری از مقیاس بندی ساده داده ها و منابع محاسباتی پدید میآید شگفت زده شدهاند و در مورد اینکه چه قابلیت های بیشتری از مقیاس های بیشتر ظاهر میشود، کنجکاو شدند.
توانایی جدید در حال ظهور دقیقاً همان چیزی است که مقاله تحقیقاتی توصیف میکند. آنها کشف کردند که یک آشکارساز متن تولید شده توسط ماشین نیز میتواند محتوای با کیفیت پایین را پیش بینی کند.
محققان مینویسند:
کار ما دو جنبه دارد: اولاً ما از طریق ارزیابی انسانی نشان میدهیم که طبقه بندی کننده هایی که برای تمایز بین متن تولید شده توسط انسان و ماشین آموزش دیدهاند، به عنوان پیش بینی کننده های بدون نظارت «کیفیت صفحه» ظاهر میشوند و قادر به تشخیص محتوای با کیفیت پایین بدون هیچ آموزشی هستند.
این ماشین، امکان راه اندازی سریع شاخص های کیفیت را در محیطی با منابع کم فراهم میکند.
ثانیاً برای درک ماهیت صفحات با کیفیت پایین، ما تجزیه و تحلیل کیفی و کمی گسترده ای را در بیش از 500 میلیون مقاله وب انجام میدهیم و این را به بزرگترین مطالعه در مقیاسی تبدیل میکنیم که تاکنون در مورد این موضوع انجام شده است.
نکته مهم در اینجا این است که آنها از یک مدل تولید متن آموزش دیده برای شناسایی محتوای تولید شده توسط ماشین استفاده کردند و کشف کردند که یک رفتار جدید ظاهر شده است، توانایی شناسایی صفحات با کیفیت پایین.
آشکارساز OpenAI GPT-2
محققان دو سیستم را آزمایش کردند تا ببینند چقدر برای تشخیص محتوای با کیفیت پایین کار میکنند.
یکی از سیستم ها از RoBERTa استفاده میکرد که یک روش پیش آموزشی است که نسخه بهبودیافته BERT است.
این دو سیستم تست شده هستند:
آشکارساز GPT-2 مبتنی بر RoBERTa OpenAI
GLTR (تشخیص آماری و تجسم متن تولید شده)
به دنبال “امضای آماری” محتوا توسط ماشین تولید میگردد. از BERT و GPT-2 استفاده میکند.
آنها دریافتند که آشکارساز GPT-2 OpenAI در تشخیص محتوای با کیفیت پایین برتر است.
شرح نتایج آزمون دقیقاً منعکس کننده چیزهایی است که ما در مورد سیگنال محتوای مفید میدانیم.
هوش مصنوعی تمام اشکال هرزنامه زبان را تشخیص میدهد
مقاله تحقیقاتی بیان میکند که سیگنال های کیفیت زیادی وجود دارد اما این رویکرد فقط بر کیفیت زبانی تمرکز دارد.
برای اهداف این مقاله پژوهشی الگوریتم، عبارات “کیفیت صفحه” و “کیفیت زبان” به یک معنا هستند.
پیشرفت در تحقیق این است که آنها با موفقیت از پیش بینی آشکارساز OpenAI GPT-2 در مورد اینکه آیا چیزی توسط ماشین تولید میشود یا نه به عنوان امتیازی برای کیفیت زبان استفاده کردند.
آنها مینویسند:
«…اسناد با نمره P (ماشین نویسی) بالا معمولاً کیفیت زبان پایینی دارند.
… بنابراین تشخیص نویسندگی ماشین میتواند یک پروکسی قدرتمند برای ارزیابی کیفیت باشد.
نیازی به نمونه های برچسب گذاری شده ندارد – فقط مجموعه ای از متن برای آموزش کافی است.
این امر به ویژه در کاربردهایی که داده های برچسب گذاری شده کمیاب هستند یا در جایی که توزیع برای نمونه برداری بسیار پیچیده است، ارزش دارد.
به عنوان مثال، ایجاد یک مجموعه داده برچسب دار که نماینده همه اشکال محتوای وب با کیفیت پایین باشد، چالش برانگیز است.»
این بدان معناست که این سیستم برای تشخیص انواع خاصی از محتوای با کیفیت پایین آموزش لازم را ندارد.
یاد میگیرد که تمام تغییرات با کیفیت پایین را به تنهایی پیدا کند.
این یک رویکرد قدرتمند برای شناسایی صفحاتی است که کیفیت بالایی ندارند.
بهروزرسانی محتوای مفید آینه نتایج
آنها این سیستم را روی نیم میلیارد صفحه وب آزمایش کردند و صفحات را با استفاده از ویژگی های مختلف مانند طول سند، سن محتوا و موضوع تجزیه و تحلیل کردند.
سن محتوا به این معنی نیست که محتوای جدید را با کیفیت پایین علامت گذاری کنید.
آنها به سادگی محتوای وب را بر اساس زمان تجزیه و تحلیل کردند و متوجه شدند که در سال 2019، همزمان با محبوبیت روزافزون استفاده از محتوای تولید شده توسط ماشین، جهش عظیمی در صفحات با کیفیت پایین صورت گرفته است.
تجزیه و تحلیل بر اساس موضوع نشان داد، حوزه های خاصی مانند موضوعات حقوقی و دولتی، صفحات با کیفیت بالاتری دارند.
جالب اینجاست که آنها تعداد زیادی صفحه با کیفیت پایین را در فضای آموزشی کشف کردند که به گفته آنها با سایت هایی که به دانش آموزان مقاله ارائه میدادند مطابقت دارد.
چیزی که این موضوع را جالب میکند آموزش موضوعی است که به طور خاص توسط Google ذکر شده است تا تحت تأثیر بهروزرسانی محتوای مفید قرار گیرد.
پست وبلاگ گوگل که توسط دنی سالیوان نوشته شده است:
“…تست ما نشان داده است که به ویژه نتایج مربوط به آموزش آنلاین را بهبود میبخشد…”
دستورالعمل ارزیابی کیفیت گوگل (PDF) از چهار امتیاز کیفیت پایین، متوسط، بالا و بسیار بالا استفاده میکند.
محققان از سه نمره کیفیت برای آزمایش سیستم جدید، به علاوه یک امتیاز دیگر که نامش تعریف نشده بود، استفاده کردند.
اسنادی که به عنوان تعریف نشده رتبه بندی شدند، اسنادی بودند که به هر دلیلی قابل ارزیابی نبودند و حذف شدند.
نمرات 0، 1 و 2 رتبه بندی میشوند که دو نمره بالاترین امتیاز را دارند.
اینها توضیحات نمرات کیفیت زبان (LQ) هستند:
0: Low LQ
متن نامفهوم یا از نظر منطقی ناسازگار است.
1: Medium LQ
متن قابل درک است اما ضعیف نوشته شده است (اشتباهات دستوری / نحوی مکرر).
2: High LQ
متن قابل فهم و به خوبی نوشته شده است (خطاهای دستوری / نحوی نادر).
در اینجا دستورالعمل های ارزیابی کیفیت تعاریف پایین آمده است:
پایین ترین کیفیت:
«MC بدون تلاش کافی، اصالت، استعداد یا مهارت لازم برای رسیدن به هدف صفحه به روشی رضایت بخش ایجاد میشود.
توجه کمی به جنبه های مهم مانند وضوح یا سازماندهی شده است.
برخی از محتوای با کیفیت پایین با تلاش کمی ایجاد میشود تا محتوایی برای پشتیبانی داشته باشد.
کسب درآمد به جای ایجاد محتوای اصلی یا پر زحمت برای کمک به کاربران.
ممکن است محتوای Filler” نیز اضافه شود، به خصوص در بالای صفحه، که کاربران را مجبور میکند برای رسیدن به MC به پایین اسکرول کنند.
…نوشتن این مقاله غیرحرفه ای است، دارای اشتباهات دستوری و نقطه گذاری میباشد.
دستورالعمل های ارزیابی کننده کیفیت توضیحات دقیق تری از کیفیت پایین نسبت به الگوریتم دارند.
نکته جالب این است که چگونه الگوریتم بر خطاهای دستوری و نحوی تکیه میکند.
نحو اشاره ای به ترتیب کلمات است.
کلمات با ترتیب اشتباه نادرست به نظر میرسند، شبیه به صحبت های شخصیت یودا در جنگ ستارگان (“دیدن آینده غیرممکن است”).
آیا الگوریتم محتوای مفید به سیگنال های دستوری و نحوی متکی است؟ شاید نقشی در آن داشته باشد.
اما من میخواهم فکر کنم که الگوریتم با برخی از آنچه در دستورالعمل های ارزیابی کیفیت در تحقیق سال 2021 و انتشار سیگنال محتوای مفید در سال 2022 وجود دارد، بهبود یافته است.
الگوریتم “قدرتمند” است
اگر الگوریتم به اندازه کافی برای استفاده در نتایج جستجو خوب است، نتیجه گیری برای دریافت ایده، تمرین خوبی خواهد بود.
بسیاری از مقالات تحقیقاتی با این جمله خاتمه مییابند که تحقیقات بیشتری باید انجام شود یا به این نتیجه میرسند که پیشرفت ها حاشیه ای هستند.
جالب ترین مقالات آنهایی هستند که مدعی نتایج جدید هستند.
محققان خاطرنشان میکنند که این الگوریتم قدرتمند است و از خطوط پایه بهتر عمل میکند.
چیزی که این را به یک نامزد خوب برای سیگنال نوع محتوای مفید تبدیل میکند این است که یک الگوریتم کم منبع در مقیاس وب است.
در نتیجه آنها نتایج مثبت را مجدداً تأیید میکنند:
“این مقاله نشان میدهد که آشکارساز هایی که برای تمایز دادن متون نوشته شده توسط انسان و ماشین آموزش دیدهاند، پیش بینی کننده های مؤثری برای کیفیت زبان صفحات وب هستند و از طبقه بندی کننده نظارت شده پایه عملکرد بهتری دارند.”
نتیجه گیری مقاله پژوهشی، نشان دهنده نتیجه مثبت بود و ابراز امیدواری کرد که این تحقیق مورد استفاده دیگران قرار گیرد.
هیچ اشاره ای به تحقیق بیشتر لازم نیست.
این مقاله تحقیقاتی، پیشرفتی را در تشخیص صفحات وب با کیفیت پایین توصیف میکند.
نتیجه گیری نشان میدهد این احتمال وجود دارد که بتواند آن را در الگوریتم گوگل قرار دهد.
از آنجایی که این الگوریتم به عنوان یک الگوریتم «در مقیاس وب» توصیف میشود، به این معنی است که میتواند به طور مداوم فعال شده و اجرا شود، درست مانند سیگنال محتوای مفید.
ما نمیدانیم که آیا این مربوط به بهروزرسانی محتوای مفید است یا خیر، اما مطمئناً یک پیشرفت در علم تشخیص محتوای با کیفیت پایین است. نظر شما درباره الگوریتم محتوای گوگل چیست؟
نظرات کاربران