الگوریتم محتوای گوگل

آیا این الگوریتم محتوای گوگل مفید است؟

گوگل یک مقاله تحقیقاتی در مورد ارزیابی کیفیت صفحه با هوش مصنوعی منتشر کرد. جزئیات الگوریتم به طور قابل توجهی شبیه به آنچه که الگوریتم محتوای مفید گوگل شناخته شده می‌باشد.

گوگل فناوری های الگوریتم را شناسایی نمی‌کند

هیچکس خارج از گوگل نمی‌تواند با اطمینان بگوید که این مقاله تحقیقاتی اساس سیگنال محتوای مفید است.

گوگل عموماً فناوری زیربنایی الگوریتم های مختلف خود مانند الگوریتم های پنگوئن، پاندا یا SpamBrain را شناسایی نمی‌کند.

بنابراین نمیتوان با قاطعیت گفت که این الگوریتم، الگوریتم محتوای مفید است، فقط میتوان حدس زد و در مورد آن نظر داد.

اما ارزش دیدن را دارد زیرا شباهت چشم ها را خیره می‌کنند.

سیگنال محتوای مفید

1. یک طبقه بندی کننده را بهبود می‌بخشد

گوگل سرنخ های زیادی در مورد سیگنال محتوای مفید ارائه کرده است، اما هنوز گمانه زنی های زیادی در مورد اینکه واقعا چیست وجود دارد.

اولین سرنخ ها در توییتی به تاریخ 6 دسامبر 2022 بود که اولین به‌روزرسانی محتوای مفید را اعلام کرد.

در این توییت آمده است:

«این طبقه بندی کننده ما را بهبود می‌بخشد و در سراسر محتوا در همه زبان ها کار می‌کند.»

طبقه بندی کننده، در یادگیری ماشین، چیزی است که داده ها را دسته بندی می‌کند.

2. این یک اقدام دستی یا هرزنامه نیست

الگوریتم محتوای مفید، طبق توضیح گوگل (آنچه سازندگان باید در مورد به‌روزرسانی محتوای مفید اوت 2022 گوگل بدانند)، یک اقدام هرزنامه یا یک اقدام دستی نیست.

این فرآیند طبقه بندی کننده با استفاده از یک مدل یادگیری ماشینی کاملاً خودکار است.

این یک اقدام دستی و یا یک اقدام هرزنامه نیست.

3. این یک سیگنال مرتبط با رتبه بندی است

توضیح دهنده به‌روزرسانی محتوای مفید می‌گوید که الگوریتم محتوای مفید سیگنالی است که برای رتبه بندی محتوا استفاده می‌شود.

“…این فقط یک سیگنال جدید و یکی از سیگنال های بسیاری است که گوگل برای رتبه بندی محتوا ارزیابی می‌کند.”

4. بررسی می‌کند که آیا محتوا توسط افراد ساخته شده است

نکته جالب این است که سیگنال محتوای مفید (ظاهراً) بررسی می‌کند که آیا محتوا توسط افراد ایجاد شده است یا خیر.

پست وبلاگ Google در به‌روزرسانی محتوای مفید (محتوای بیشتر توسط افراد، برای جستجو) بیان کرد که این سیگنالی برای شناسایی محتوای ایجاد شده توسط افراد است.

دنی سالیوان نوشت:

«…ما در حال ارائه مجموعه ای از پیشرفت ها در «جستجو» هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، آسانتر پیدا کنند.

ما مشتاقانه منتظریم تا بر اساس این، یافتن محتوای اصلی توسط و برای افراد واقعی در ماه های آینده آسانتر شود.»

مفهوم «توسط مردم» بودن محتوا سه بار در اعلامیه تکرار می‌شود، ظاهراً نشان می‌دهد اهمیت اصالت چقدر بالاست.

و اگر «توسط افراد» نوشته نشده باشد، توسط ماشین تولید می‌شود، که یک ملاحظه مهم است زیرا الگوریتم مورد بحث در اینجا به تشخیص محتوای تولید شده توسط ماشین مربوط می‌شود.

5. آیا محتوای مفید سیگنال چند چیز است؟

در نهایت، اعلامیه وبلاگ Google نشان می‌دهد که به‌روزرسانی محتوای مفید فقط یک چیز مانند یک الگوریتم نیست.

دنی سالیوان می‌نویسد که این یک «سری پیشرفت ها» است که نیازمند مطالعه همه جانبه است.

او نوشت:

«…ما در حال ارائه یک سری پیشرفت ها در «جستجو» هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، راحت تر بیابند.»

مدل های تولید متن می‌توانند کیفیت صفحه را پیش بینی کنند

آنچه این مقاله تحقیقاتی کشف می‌کند این است که مدل های زبان بزرگ (LLM) مانند GPT-2 می‌توانند محتوای با کیفیت پایین را به دقت شناسایی کنند.

آنها از طبقه بندی کننده هایی استفاده کردند که برای شناسایی متن های تولید شده توسط ماشین آموزش دیده بودند و متوجه شدند که همان طبقه بندی کننده ها می‌توانند متن با کیفیت پایین را شناسایی کنند، حتی اگر برای انجام این کار آموزش ندیده باشند.

مدل های زبان بزرگ می‌توانند یاد بگیرند که چگونه کارهای جدیدی را انجام دهند که برای انجام آنها آموزش ندیده اند.

یک مقاله دانشگاه استنفورد در مورد GPT-3 بحث می‌کند که چگونه به طور مستقل توانایی ترجمه متن از انگلیسی به فرانسوی را یاد گرفته است، صرفاً به این دلیل که داده های بیشتری برای یادگیری به آن داده شده است، چیزی که با GPT-2، که کمتر آموزش داده شده بود، اتفاق نیفتاد.

این مقاله به این نکته اشاره می‌کند که چگونه افزودن داده های بیشتر باعث ظهور رفتارهای جدید می‌شود که نتیجه آن چیزی است که آموزش بدون نظارت نامیده می‌شود.

این کلمه “ظهور” مهم است زیرا به زمانی اشاره دارد که ماشین یاد می‌گیرد کاری را انجام دهد که برای انجام آن آموزش ندیده است.

مقاله دانشگاه استنفورد در مورد GPT-3 توضیح می‌دهد:

شرکت کنندگان در کارگاه گفتند از این که چنین رفتاری از مقیاس بندی ساده داده ها و منابع محاسباتی پدید می‌آید شگفت زده شده‌اند و در مورد اینکه چه قابلیت های بیشتری از مقیاس های بیشتر ظاهر می‌شود، کنجکاو شدند.

توانایی جدید در حال ظهور دقیقاً همان چیزی است که مقاله تحقیقاتی توصیف می‌کند. آنها کشف کردند که یک آشکارساز متن تولید شده توسط ماشین نیز می‌تواند محتوای با کیفیت پایین را پیش بینی کند.

محققان می‌نویسند:

کار ما دو جنبه دارد: اولاً ما از طریق ارزیابی انسانی نشان می‌دهیم که طبقه بندی کننده هایی که برای تمایز بین متن تولید شده توسط انسان و ماشین آموزش دیده‌اند، به عنوان پیش بینی کننده های بدون نظارت «کیفیت صفحه» ظاهر می‌شوند و قادر به تشخیص محتوای با کیفیت پایین بدون هیچ آموزشی هستند.

این ماشین، امکان راه اندازی سریع شاخص های کیفیت را در محیطی با منابع کم فراهم می‌کند.

ثانیاً برای درک ماهیت صفحات با کیفیت پایین، ما تجزیه و تحلیل کیفی و کمی گسترده ای را در بیش از 500 میلیون مقاله وب انجام می‌دهیم و این را به بزرگترین مطالعه در مقیاسی تبدیل می‌کنیم که تاکنون در مورد این موضوع انجام شده است.

نکته مهم در اینجا این است که آنها از یک مدل تولید متن آموزش دیده برای شناسایی محتوای تولید شده توسط ماشین استفاده کردند و کشف کردند که یک رفتار جدید ظاهر شده است، توانایی شناسایی صفحات با کیفیت پایین.

آشکارساز OpenAI GPT-2

محققان دو سیستم را آزمایش کردند تا ببینند چقدر برای تشخیص محتوای با کیفیت پایین کار می‌کنند.

یکی از سیستم ها از RoBERTa استفاده می‌کرد که یک روش پیش آموزشی است که نسخه بهبودیافته BERT است.

این دو سیستم تست شده هستند:

آشکارساز GPT-2 مبتنی بر RoBERTa OpenAI

GLTR (تشخیص آماری و تجسم متن تولید شده)

به دنبال “امضای آماری” محتوا توسط ماشین تولید می‌گردد. از BERT و GPT-2 استفاده می‌کند.

آنها دریافتند که آشکارساز GPT-2 OpenAI در تشخیص محتوای با کیفیت پایین برتر است.

شرح نتایج آزمون دقیقاً منعکس کننده چیزهایی است که ما در مورد سیگنال محتوای مفید می‌دانیم.

هوش مصنوعی تمام اشکال هرزنامه زبان را تشخیص می‌دهد

مقاله تحقیقاتی بیان می‌کند که سیگنال های کیفیت زیادی وجود دارد اما این رویکرد فقط بر کیفیت زبانی تمرکز دارد.

برای اهداف این مقاله پژوهشی الگوریتم، عبارات “کیفیت صفحه” و “کیفیت زبان” به یک معنا هستند.

پیشرفت در تحقیق این است که آنها با موفقیت از پیش بینی آشکارساز OpenAI GPT-2 در مورد اینکه آیا چیزی توسط ماشین تولید می‌شود یا نه به عنوان امتیازی برای کیفیت زبان استفاده کردند.

آنها می‌نویسند:

«…اسناد با نمره P (ماشین نویسی) بالا معمولاً کیفیت زبان پایینی دارند.

… بنابراین تشخیص نویسندگی ماشین می‌تواند یک پروکسی قدرتمند برای ارزیابی کیفیت باشد.

نیازی به نمونه های برچسب گذاری شده ندارد – فقط مجموعه ای از متن برای آموزش کافی است.

این امر به ویژه در کاربردهایی که داده های برچسب گذاری شده کمیاب هستند یا در جایی که توزیع برای نمونه برداری بسیار پیچیده است، ارزش دارد.

به عنوان مثال، ایجاد یک مجموعه داده برچسب دار که نماینده همه اشکال محتوای وب با کیفیت پایین باشد، چالش برانگیز است.»

این بدان معناست که این سیستم برای تشخیص انواع خاصی از محتوای با کیفیت پایین آموزش لازم را ندارد.

یاد می‌گیرد که تمام تغییرات با کیفیت پایین را به تنهایی پیدا کند.

این یک رویکرد قدرتمند برای شناسایی صفحاتی است که کیفیت بالایی ندارند.

به‌روزرسانی محتوای مفید آینه نتایج

آنها این سیستم را روی نیم میلیارد صفحه وب آزمایش کردند و صفحات را با استفاده از ویژگی های مختلف مانند طول سند، سن محتوا و موضوع تجزیه و تحلیل کردند.

سن محتوا به این معنی نیست که محتوای جدید را با کیفیت پایین علامت گذاری کنید.

آنها به سادگی محتوای وب را بر اساس زمان تجزیه و تحلیل کردند و متوجه شدند که در سال 2019، همزمان با محبوبیت روزافزون استفاده از محتوای تولید شده توسط ماشین، جهش عظیمی در صفحات با کیفیت پایین صورت گرفته است.

تجزیه و تحلیل بر اساس موضوع نشان داد، حوزه های خاصی مانند موضوعات حقوقی و دولتی، صفحات با کیفیت بالاتری دارند.

جالب اینجاست که آنها تعداد زیادی صفحه با کیفیت پایین را در فضای آموزشی کشف کردند که به گفته آنها با سایت هایی که به دانش آموزان مقاله ارائه می‌دادند مطابقت دارد.

چیزی که این موضوع را جالب می‌کند آموزش موضوعی است که به طور خاص توسط Google ذکر شده است تا تحت تأثیر به‌روزرسانی محتوای مفید قرار گیرد.

پست وبلاگ گوگل که توسط دنی سالیوان نوشته شده است:

“…تست ما نشان داده است که به ویژه نتایج مربوط به آموزش آنلاین را بهبود می‌بخشد…”

دستورالعمل ارزیابی کیفیت گوگل (PDF) از چهار امتیاز کیفیت پایین، متوسط، بالا و بسیار بالا استفاده می‌کند.

محققان از سه نمره کیفیت برای آزمایش سیستم جدید، به علاوه یک امتیاز دیگر که نامش تعریف نشده بود، استفاده کردند.

اسنادی که به عنوان تعریف نشده رتبه بندی شدند، اسنادی بودند که به هر دلیلی قابل ارزیابی نبودند و حذف شدند.

نمرات 0، 1 و 2 رتبه بندی می‌شوند که دو نمره بالاترین امتیاز را دارند.

اینها توضیحات نمرات کیفیت زبان (LQ) هستند:

0: Low LQ

متن نامفهوم یا از نظر منطقی ناسازگار است.

1: Medium LQ

متن قابل درک است اما ضعیف نوشته شده است (اشتباهات دستوری / نحوی مکرر).

2: High LQ

متن قابل فهم و به خوبی نوشته شده است (خطاهای دستوری / نحوی نادر).

در اینجا دستورالعمل های ارزیابی کیفیت تعاریف پایین آمده است:

پایین ترین کیفیت:

«MC بدون تلاش کافی، اصالت، استعداد یا مهارت لازم برای رسیدن به هدف صفحه به روشی رضایت بخش ایجاد می‌شود.

توجه کمی به جنبه های مهم مانند وضوح یا سازماندهی شده است.

برخی از محتوای با کیفیت پایین با تلاش کمی ایجاد می‌شود تا محتوایی برای پشتیبانی داشته باشد.

کسب درآمد به جای ایجاد محتوای اصلی یا پر زحمت برای کمک به کاربران.

ممکن است محتوای Filler” نیز اضافه شود، به خصوص در بالای صفحه، که کاربران را مجبور می‌کند برای رسیدن به MC به پایین اسکرول کنند.

…نوشتن این مقاله غیرحرفه ای است، دارای اشتباهات دستوری و نقطه گذاری می‌باشد.

دستورالعمل های ارزیابی کننده کیفیت توضیحات دقیق تری از کیفیت پایین نسبت به الگوریتم دارند.

نکته جالب این است که چگونه الگوریتم بر خطاهای دستوری و نحوی تکیه می‌کند.

نحو اشاره ای به ترتیب کلمات است.

کلمات با ترتیب اشتباه نادرست به نظر می‌رسند، شبیه به صحبت های شخصیت یودا در جنگ ستارگان (“دیدن آینده غیرممکن است”).

آیا الگوریتم محتوای مفید به سیگنال های دستوری و نحوی متکی است؟ شاید نقشی در آن داشته باشد.

اما من می‌خواهم فکر کنم که الگوریتم با برخی از آنچه در دستورالعمل های ارزیابی کیفیت در تحقیق سال 2021 و انتشار سیگنال محتوای مفید در سال 2022 وجود دارد، بهبود یافته است.

الگوریتم “قدرتمند” است

اگر الگوریتم به اندازه کافی برای استفاده در نتایج جستجو خوب است، نتیجه گیری برای دریافت ایده، تمرین خوبی خواهد بود.

بسیاری از مقالات تحقیقاتی با این جمله خاتمه می‌یابند که تحقیقات بیشتری باید انجام شود یا به این نتیجه می‌رسند که پیشرفت ها حاشیه ای هستند.

جالب ترین مقالات آنهایی هستند که مدعی نتایج جدید هستند.

محققان خاطرنشان می‌کنند که این الگوریتم قدرتمند است و از خطوط پایه بهتر عمل می‌کند.

چیزی که این را به یک نامزد خوب برای سیگنال نوع محتوای مفید تبدیل می‌کند این است که یک الگوریتم کم منبع در مقیاس وب است.

در نتیجه آنها نتایج مثبت را مجدداً تأیید می‌کنند:

“این مقاله نشان می‌دهد که آشکارساز هایی که برای تمایز دادن متون نوشته شده توسط انسان و ماشین آموزش دیده‌اند، پیش بینی کننده های مؤثری برای کیفیت زبان صفحات وب هستند و از طبقه بندی کننده نظارت شده پایه عملکرد بهتری دارند.”

نتیجه گیری مقاله پژوهشی، نشان دهنده نتیجه مثبت بود و ابراز امیدواری کرد که این تحقیق مورد استفاده دیگران قرار گیرد.

هیچ اشاره ای به تحقیق بیشتر لازم نیست.

این مقاله تحقیقاتی، پیشرفتی را در تشخیص صفحات وب با کیفیت پایین توصیف می‌کند.

نتیجه گیری نشان می‌دهد این احتمال وجود دارد که بتواند آن را در الگوریتم گوگل قرار دهد.

از آنجایی که این الگوریتم به عنوان یک الگوریتم «در مقیاس وب» توصیف می‌شود، به این معنی است که می‌تواند به طور مداوم فعال شده و اجرا شود، درست مانند سیگنال محتوای مفید.

ما نمی‌دانیم که آیا این مربوط به به‌روزرسانی محتوای مفید است یا خیر، اما مطمئناً یک پیشرفت در علم تشخیص محتوای با کیفیت پایین است. نظر شما درباره الگوریتم محتوای گوگل چیست؟

امتیاز دهید

برای این نوشته برچسبی وجود ندارد !

نظرات کاربران

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

تومان (IRT)
()
پرداخت می‌کنید
()
تومان (IRT)
دریافت می‌کنید
1 = IRT
نوروز ۱۴۰۴