ChatGPT به محتوای وبسایت دسترسی پیدا میکند تا از آن چیزهای جدید بیاموزد. این مقاله دارای روشی است که میتوانید محتوای خود را از تبدیل شدن به داده های آموزشی هوش مصنوعی مسدود کنید. چگونه جلوی ChatGPT را بگیریم؟
نگران هابی در مورد عدم وجود راهی آسان برای جلوگیری استفاده از محتوای شخصی برای آموزش هوش مصنوعی مانند ChatGPT وجود دارد. اما راهی برای انجام آن وجود دارد، البته این کار نه ساده است و نه تضمین شده است.
چگونه هوش مصنوعی از محتوای شما یاد میگیرد؟
مدل های زبان بزرگ (LLM) بر روی داده هایی که از منابع متعدد نشات میگیرند آموزش داده میشوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده میشوند.
به طور کلی، مدل های زبان بزرگ از منابع متنوعی برای آموزش استفاده میکنند.
- ویکی پدیا
- سوابق دادگاه های دولتی
- کتاب ها
- ایمیل ها
- وبسایت های رها شده
در واقع پورتال ها و وبسایت هایی وجود دارند که مجموعه داده هایی را ارائه میدهند که حجم زیادی از اطلاعات را شامل میشوند.
یکی از پورتال ها توسط آمازون میزبانی میشود و هزاران مجموعه داده را در Registry of Open Data در AWS ارائه میدهد.
پورتال آمازون با هزاران مجموعه داده تنها یک پورتال از میان نمونه هاست که شامل مجموعه داده های بیشتری است.
ویکیپدیا ۲۸ پورتال را برای دانلود مجموعه داده ها فهرست میکند، از جمله Google Dataset و Hugging Face.
ChatGPT مبتنی بر GPT-3.5 است که به عنوان InstructGPT نیز شناخته میشود.
مجموعه داده هایی که برای آموزش GPT-3.5 استفاده میشود، همان است که برای GPT-3 استفاده میشود. تفاوت عمده بین این دو این است که GPT-3.5 از تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده میکند.
پنج مجموعه داده مورد استفاده برای آموزش GPT-3 (و GPT-3.5) در صفحه 9 مقاله تحقیقاتی، Language Models are Few-Shot Learners (PDF) توضیح داده شده است.
1. Common Crawl (فیلتر شده)
2. WebText2
۳. Book1
4. Book2
۵. Wikipedia
از میان پنج مجموعه داده، دو موردی که مبتنی بر جستجو در اینترنت هستند عبارتند از:
Common Crawl
WebText2
درباره مجموعه داده WebText2
WebText2 یک مجموعه داده خصوصی OpenAI است که با گردش در پیوندهایی از Reddit ایجاد شده است. در این روش صفحات دارای حداقل ۳ بازخورد مثبت استفاده میشوند.
ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند.
WebText2 یک نسخه توسعه یافته از مجموعه داده اصلی WebText است که توسط OpenAI توسعه یافته است.
مجموعه داده اصلی WebText حدود 15 میلیارد توکن داشت. WebText برای آموزش GPT-2 استفاده شد.
WebText2 کمی بزرگتر است و 19 میلیارد توکن دارد. WebText2 چیزی است که برای آموزش GPT-3 و GPT-3.5 استفاده شد
OpenWebText2
WebText2 (ایجاد شده توسط OpenAI) برای عموم در دسترس نیست.
با این حال، یک نسخه منبع باز در دسترس عموم به نام OpenWebText2 وجود دارد. OpenWebText2 یک مجموعه داده عمومی است که با استفاده از الگوهایی یکسان ایجاد شده است که احتمالاً مجموعه داده های مشابهی از URL ها را ارائه میدهد. البته اگر نگوییم یکسان با OpenAI WebText2 است.
این نکته را فقط در صورتی ذکر میکنم که کسی بخواهد بداند در WebText2 چیست. میتوان OpenWebText2 را دانلود کرد تا از URL های موجود در آن ایده بگیرد.
نسخه پاک شده OpenWebText2 را می توانید از اینجا دانلود کنید.
https://openwebtext2.readthedocs.io/en/latest/#download-plug-and-play-version
نسخه خام OpenWebText2 در اینجا موجود است.
https://openwebtext2.readthedocs.io/en/latest/#download-raw-scrapes-version
من نتوانستم اطلاعاتی در مورد عامل کاربری مورد استفاده برای هر یک از اینها پیدا کنم، شاید فقط به عنوان Python شناسایی شده باشد، مطمئن نیستم.
تا آنجا که من میدانم، هیچ عامل کاربری برای مسدود کردن وجود ندارد، اگرچه 100٪ مطمئن نیستم.
با این وجود، میدانیم که اگر سایت شما از Reddit با حداقل سه رأی موافق پیوند خورده شده باشد، این احتمال وجود دارد که سایت شما هم در مجموعه داده منبع بسته OpenAI WebText2 و هم در نسخه منبع باز آن، OpenWebText2 باشد.
Common Crawl
یکی از متداول ترین مجموعه های داده متشکل از محتوای اینترنتی، مجموعه داده Common Crawl است که توسط یک سازمان غیرانتفاعی به نام Common Crawl ایجاد شده است.
داده های رایج Crawl از رباتی میآید که کل اینترنت را میگردد.
داده ها توسط سازمان هایی که مایل به استفاده از داده ها هستند دانلود میشود و سپس از سایت های هرزنامه و غیره پاک میشود.
نام ربات Common Crawl، CCBot است.
CCBot از پروتکل robots.txt تبعیت میکند، بنابراین میتوان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وبسایت شما به مجموعه داده دیگری جلوگیری کرد.
با این حال، اگر سایت شما قبلاً استفاده شده باشد، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است.
با این وجود، با مسدود کردن Common Crawl، میتوانید محتوای وبسایت خود را از گنجاندن در مجموعه داده های جدید که در مجموعه داده های Common Crawl جدیدتر ایجاد میشوند، تا حدودی جلوگیری کنید.
این همان چیزی است که من در همان ابتدای مقاله نوشتم که این فرآیند “نه ساده است و نه تضمینی وجود دارد که کار کند.”
رشته CCBot User-Agent است:
CCBot/2.0
موارد زیر را به فایل robots.txt خود اضافه کنید تا ربات Common Crawl را مسدود کنید:
User-agent: CCBot
Disallow: /
یک راه اضافی برای تأیید قانونی بودن یک عامل کاربر CCBot این است که از آدرس های IP آمازون AWS، crawl شود.
CCBot همچنین از دستورالعمل های meta tag ربات های nofollow تبعیت میکند.
از این در meta tag روبات خود استفاده کنید:
<meta name="CCBot" content="nofollow">
قبل از اینکه هر رباتی را مسدود کنید، یک نکته در نظر بگیرید
بسیاری از مجموعه داده ها، از جمله Common Crawl، میتوانند توسط شرکت هایی استفاده شوند که URL ها را فیلتر و دسته بندی میکنند تا فهرستی از وبسایت ها را برای هدف تبلیغات ایجاد کنند.
به عنوان مثال، شرکتی به نام آلفا کوانتوم مجموعه داده ای از URL ها را ارائه میدهد که با استفاده از طبقه بندی دفتر تبلیغات تعاملی طبقه بندی شده اند. مجموعه داده برای بازاریابی AdTech و تبلیغات متنی مفید است. حذف از پایگاه داده ای مانند آن میتواند باعث از دست دادن تبلیغ کنندگان بالقوه ناشر شود.
جلوگیری از سوءاستفاده هوش مصنوعی از محتوای شما
موتورهای جستجو به وبسایت ها اجازه میدهند از این اتفاق خودداری کنند. Common Crawl همچنین اجازه انصراف را میدهد. اما در حال حاضر هیچ راهی برای حذف محتوای وبسایت از مجموعه داده های موجود وجود ندارد.
علاوه بر این، به نظر نمیرسد دانشمندان راهی برای انصراف از اشتراک اطلاعات ارائه کنند.
بسیاری از ناشران منتظر اند تا در آینده نزدیک به آنها در مورد نحوه استفاده از محتوای آنها، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT اطلاعرسانی شود.
اینکه آیا این اتفاق خواهد افتاد در حال حاضر مشخص نیست.
نظرات کاربران