چگونه جلوی ChatGPT را بگیریم

چگونه جلوی ChatGPT را بگیریم تا از مطالب وبسایت شما استفاده نکند

ChatGPT به محتوای وبسایت دسترسی پیدا می‌کند تا از آن چیزهای جدید بیاموزد. این مقاله دارای روشی است که می‌توانید محتوای خود را از تبدیل شدن به داده های آموزشی هوش مصنوعی مسدود کنید. چگونه جلوی ChatGPT را بگیریم؟

نگران هابی در مورد عدم وجود راهی آسان برای جلوگیری استفاده از محتوای شخصی برای آموزش هوش مصنوعی مانند ChatGPT وجود دارد. اما راهی برای انجام آن وجود دارد، البته این کار نه ساده است و نه تضمین شده است.

چگونه هوش مصنوعی از محتوای شما یاد می‌گیرد؟

مدل های زبان بزرگ (LLM) بر روی داده هایی که از منابع متعدد نشات می‌گیرند آموزش داده می‌شوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می‌شوند.

به طور کلی، مدل های زبان بزرگ از منابع متنوعی برای آموزش استفاده می‌کنند.

  • ویکی پدیا
  • سوابق دادگاه های دولتی
  • کتاب ها
  • ایمیل ها
  • وبسایت های رها شده

در واقع پورتال ها و وبسایت هایی وجود دارند که مجموعه داده هایی را ارائه می‌دهند که حجم زیادی از اطلاعات را شامل می‌شوند.

یکی از پورتال ها توسط آمازون میزبانی می‌شود و هزاران مجموعه داده را در Registry of Open Data در AWS ارائه می‌دهد.

پورتال آمازون با هزاران مجموعه داده تنها یک پورتال از میان نمونه هاست که شامل مجموعه داده های بیشتری است.

ویکی‌پدیا ۲۸ پورتال را برای دانلود مجموعه داده ها فهرست می‌کند، از جمله Google Dataset و Hugging Face.

ChatGPT مبتنی بر GPT-3.5 است که به عنوان InstructGPT نیز شناخته می‌شود.

مجموعه داده هایی که برای آموزش GPT-3.5 استفاده می‌شود، همان است که برای GPT-3 استفاده می‌شود. تفاوت عمده بین این دو این است که GPT-3.5 از تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده می‌کند.

پنج مجموعه داده مورد استفاده برای آموزش GPT-3 (و GPT-3.5) در صفحه 9 مقاله تحقیقاتی، Language Models are Few-Shot Learners (PDF) توضیح داده شده است.

1. Common Crawl (فیلتر شده)

2. WebText2

۳. Book1

4. Book2

۵. Wikipedia

از میان پنج مجموعه داده، دو موردی که مبتنی بر جستجو در اینترنت هستند عبارتند از:

Common Crawl

WebText2

درباره مجموعه داده WebText2

WebText2 یک مجموعه داده خصوصی OpenAI است که با گردش در پیوندهایی از Reddit ایجاد شده است. در این روش صفحات دارای حداقل ۳ بازخورد مثبت استفاده می‌شوند.

ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند.

WebText2 یک نسخه توسعه یافته از مجموعه داده اصلی WebText است که توسط OpenAI توسعه یافته است.

مجموعه داده اصلی WebText حدود 15 میلیارد توکن داشت. WebText برای آموزش GPT-2 استفاده شد.

WebText2 کمی بزرگتر است و 19 میلیارد توکن دارد. WebText2 چیزی است که برای آموزش GPT-3 و GPT-3.5 استفاده شد

OpenWebText2

WebText2 (ایجاد شده توسط OpenAI) برای عموم در دسترس نیست.

با این حال، یک نسخه منبع باز در دسترس عموم به نام OpenWebText2 وجود دارد. OpenWebText2 یک مجموعه داده عمومی است که با استفاده از الگوهایی یکسان ایجاد شده است که احتمالاً مجموعه داده های مشابهی از URL ها را ارائه می‌دهد. البته اگر نگوییم یکسان با OpenAI WebText2 است.

این نکته را فقط در صورتی ذکر می‌کنم که کسی بخواهد بداند در WebText2 چیست. می‌توان OpenWebText2 را دانلود کرد تا از URL های موجود در آن ایده بگیرد.

نسخه پاک شده OpenWebText2 را می توانید از اینجا دانلود کنید.

https://openwebtext2.readthedocs.io/en/latest/#download-plug-and-play-version

نسخه خام OpenWebText2 در اینجا موجود است.

https://openwebtext2.readthedocs.io/en/latest/#download-raw-scrapes-version

من نتوانستم اطلاعاتی در مورد عامل کاربری مورد استفاده برای هر یک از اینها پیدا کنم، شاید فقط به عنوان Python شناسایی شده باشد، مطمئن نیستم.

تا آنجا که من می‌دانم، هیچ عامل کاربری برای مسدود کردن وجود ندارد، اگرچه 100٪ مطمئن نیستم.

با این وجود، می‌دانیم که اگر سایت شما از Reddit با حداقل سه رأی موافق پیوند خورده شده باشد، این احتمال وجود دارد که سایت شما هم در مجموعه داده منبع بسته OpenAI WebText2 و هم در نسخه منبع باز آن، OpenWebText2 باشد.

Common Crawl

یکی از متداول ترین مجموعه های داده متشکل از محتوای اینترنتی، مجموعه داده Common Crawl است که توسط یک سازمان غیرانتفاعی به نام Common Crawl ایجاد شده است.

داده های رایج Crawl از رباتی می‌آید که کل اینترنت را می‌گردد.

داده ها توسط سازمان هایی که مایل به استفاده از داده ها هستند دانلود می‌شود و سپس از سایت های هرزنامه و غیره پاک می‌شود.

نام ربات Common Crawl، CCBot است.

CCBot از پروتکل robots.txt تبعیت می‌کند، بنابراین میتوان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وبسایت شما به مجموعه داده دیگری جلوگیری کرد.

با این حال، اگر سایت شما قبلاً استفاده شده باشد، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است.

با این وجود، با مسدود کردن Common Crawl، می‌توانید محتوای وبسایت خود را از گنجاندن در مجموعه داده های جدید که در مجموعه داده های Common Crawl جدیدتر ایجاد می‌شوند، تا حدودی جلوگیری کنید.

این همان چیزی است که من در همان ابتدای مقاله نوشتم که این فرآیند “نه ساده است و نه تضمینی وجود دارد که کار کند.”

رشته CCBot User-Agent است:

CCBot/2.0

موارد زیر را به فایل robots.txt خود اضافه کنید تا ربات Common Crawl را مسدود کنید:

User-agent: CCBot

Disallow: /

یک راه اضافی برای تأیید قانونی بودن یک عامل کاربر CCBot این است که از آدرس های IP آمازون AWS، crawl شود.

CCBot همچنین از دستورالعمل های meta tag ربات های nofollow تبعیت می‌کند.

از این در meta tag روبات خود استفاده کنید:

<meta name="CCBot" content="nofollow">

قبل از اینکه هر رباتی را مسدود کنید، یک نکته در نظر بگیرید

بسیاری از مجموعه داده ها، از جمله Common Crawl، می‌توانند توسط شرکت هایی استفاده شوند که URL‌ ها را فیلتر و دسته بندی می‌کنند تا فهرستی از وبسایت ها را برای هدف تبلیغات ایجاد کنند.

به عنوان مثال، شرکتی به نام آلفا کوانتوم مجموعه داده ای از URL ها را ارائه می‌دهد که با استفاده از طبقه بندی دفتر تبلیغات تعاملی طبقه بندی شده اند. مجموعه داده برای بازاریابی AdTech و تبلیغات متنی مفید است. حذف از پایگاه داده ای مانند آن می‌تواند باعث از دست دادن تبلیغ کنندگان بالقوه ناشر شود.

جلوگیری از سوءاستفاده هوش مصنوعی از محتوای شما

موتورهای جستجو به وبسایت ها اجازه می‌دهند از این اتفاق خودداری کنند. Common Crawl همچنین اجازه انصراف را می‌دهد. اما در حال حاضر هیچ راهی برای حذف محتوای وبسایت از مجموعه داده های موجود وجود ندارد.

علاوه بر این، به نظر نمی‌رسد دانشمندان راهی برای انصراف از اشتراک اطلاعات ارائه کنند.

بسیاری از ناشران منتظر اند تا در آینده نزدیک به آنها در مورد نحوه استفاده از محتوای آنها، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT اطلاع‌رسانی شود.

اینکه آیا این اتفاق خواهد افتاد در حال حاضر مشخص نیست.

امتیاز دهید

برای این نوشته برچسبی وجود ندارد !

نظرات کاربران

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

تومان (IRT)
()
پرداخت می‌کنید
()
تومان (IRT)
دریافت می‌کنید
1 = IRT
بلک فرایدی ۲۰۲۴