چگونه جلوی ChatGPT را بگیریم تا از مطالب وبسایت شما استفاده نکند

ChatGPT به محتوای وبسایت دسترسی پیدا می‌کند تا از آن چیزهای جدید بیاموزد. این مقاله دارای روشی است که می‌توانید محتوای خود را از تبدیل شدن به داده های آموزشی هوش مصنوعی مسدود کنید. چگونه جلوی ChatGPT را بگیریم؟

نگران هابی در مورد عدم وجود راهی آسان برای جلوگیری استفاده از محتوای شخصی برای آموزش هوش مصنوعی مانند ChatGPT وجود دارد. اما راهی برای انجام آن وجود دارد، البته این کار نه ساده است و نه تضمین شده است.

چگونه هوش مصنوعی از محتوای شما یاد می‌گیرد؟

مدل های زبان بزرگ (LLM) بر روی داده هایی که از منابع متعدد نشات می‌گیرند آموزش داده می‌شوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می‌شوند.

به طور کلی، مدل های زبان بزرگ از منابع متنوعی برای آموزش استفاده می‌کنند.

ویکی پدیا
سوابق دادگاه های دولتی
کتاب ها
ایمیل ها
وبسایت های رها شده

در واقع پورتال ها و وبسایت هایی وجود دارند که مجموعه داده هایی را ارائه می‌دهند که حجم زیادی از اطلاعات را شامل می‌شوند.

یکی از پورتال ها توسط آمازون میزبانی می‌شود و هزاران مجموعه داده را در Registry of Open Data در AWS ارائه می‌دهد.

پورتال آمازون با هزاران مجموعه داده تنها یک پورتال از میان نمونه هاست که شامل مجموعه داده های بیشتری است.

ویکی‌پدیا ۲۸ پورتال را برای دانلود مجموعه داده ها فهرست می‌کند، از جمله Google Dataset و Hugging Face.

ChatGPT مبتنی بر GPT-3.5 است که به عنوان InstructGPT نیز شناخته می‌شود.

مجموعه داده هایی که برای آموزش GPT-3.5 استفاده می‌شود، همان است که برای GPT-3 استفاده می‌شود. تفاوت عمده بین این دو این است که GPT-3.5 از تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده می‌کند.

پنج مجموعه داده مورد استفاده برای آموزش GPT-3 (و GPT-3.5) در صفحه 9 مقاله تحقیقاتی، Language Models are Few-Shot Learners (PDF) توضیح داده شده است.

1. Common Crawl (فیلتر شده)

2. WebText2

۳. Book1

4. Book2

۵. Wikipedia

از میان پنج مجموعه داده، دو موردی که مبتنی بر جستجو در اینترنت هستند عبارتند از:

Common Crawl

WebText2

درباره مجموعه داده WebText2

WebText2 یک مجموعه داده خصوصی OpenAI است که با گردش در پیوندهایی از Reddit ایجاد شده است. در این روش صفحات دارای حداقل ۳ بازخورد مثبت استفاده می‌شوند.

ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند.

WebText2 یک نسخه توسعه یافته از مجموعه داده اصلی WebText است که توسط OpenAI توسعه یافته است.

مجموعه داده اصلی WebText حدود 15 میلیارد توکن داشت. WebText برای آموزش GPT-2 استفاده شد.

WebText2 کمی بزرگتر است و 19 میلیارد توکن دارد. WebText2 چیزی است که برای آموزش GPT-3 و GPT-3.5 استفاده شد

OpenWebText2

WebText2 (ایجاد شده توسط OpenAI) برای عموم در دسترس نیست.

با این حال، یک نسخه منبع باز در دسترس عموم به نام OpenWebText2 وجود دارد. OpenWebText2 یک مجموعه داده عمومی است که با استفاده از الگوهایی یکسان ایجاد شده است که احتمالاً مجموعه داده های مشابهی از URL ها را ارائه می‌دهد. البته اگر نگوییم یکسان با OpenAI WebText2 است.

این نکته را فقط در صورتی ذکر می‌کنم که کسی بخواهد بداند در WebText2 چیست. می‌توان OpenWebText2 را دانلود کرد تا از URL های موجود در آن ایده بگیرد.

نسخه پاک شده OpenWebText2 را می توانید از اینجا دانلود کنید.

https://openwebtext2.readthedocs.io/en/latest/#download-plug-and-play-version

نسخه خام OpenWebText2 در اینجا موجود است.

https://openwebtext2.readthedocs.io/en/latest/#download-raw-scrapes-version

من نتوانستم اطلاعاتی در مورد عامل کاربری مورد استفاده برای هر یک از اینها پیدا کنم، شاید فقط به عنوان Python شناسایی شده باشد، مطمئن نیستم.

تا آنجا که من می‌دانم، هیچ عامل کاربری برای مسدود کردن وجود ندارد، اگرچه 100٪ مطمئن نیستم.

با این وجود، می‌دانیم که اگر سایت شما از Reddit با حداقل سه رأی موافق پیوند خورده شده باشد، این احتمال وجود دارد که سایت شما هم در مجموعه داده منبع بسته OpenAI WebText2 و هم در نسخه منبع باز آن، OpenWebText2 باشد.

Common Crawl

یکی از متداول ترین مجموعه های داده متشکل از محتوای اینترنتی، مجموعه داده Common Crawl است که توسط یک سازمان غیرانتفاعی به نام Common Crawl ایجاد شده است.

داده های رایج Crawl از رباتی می‌آید که کل اینترنت را می‌گردد.

داده ها توسط سازمان هایی که مایل به استفاده از داده ها هستند دانلود می‌شود و سپس از سایت های هرزنامه و غیره پاک می‌شود.

نام ربات Common Crawl، CCBot است.

CCBot از پروتکل robots.txt تبعیت می‌کند، بنابراین میتوان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وبسایت شما به مجموعه داده دیگری جلوگیری کرد.

با این حال، اگر سایت شما قبلاً استفاده شده باشد، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است.

با این وجود، با مسدود کردن Common Crawl، می‌توانید محتوای وبسایت خود را از گنجاندن در مجموعه داده های جدید که در مجموعه داده های Common Crawl جدیدتر ایجاد می‌شوند، تا حدودی جلوگیری کنید.

این همان چیزی است که من در همان ابتدای مقاله نوشتم که این فرآیند “نه ساده است و نه تضمینی وجود دارد که کار کند.”

رشته CCBot User-Agent است:

CCBot/2.0

موارد زیر را به فایل robots.txt خود اضافه کنید تا ربات Common Crawl را مسدود کنید:

User-agent: CCBot

Disallow: /

یک راه اضافی برای تأیید قانونی بودن یک عامل کاربر CCBot این است که از آدرس های IP آمازون AWS، crawl شود.

CCBot همچنین از دستورالعمل های meta tag ربات های nofollow تبعیت می‌کند.

از این در meta tag روبات خود استفاده کنید:

<meta name="CCBot" content="nofollow">

قبل از اینکه هر رباتی را مسدود کنید، یک نکته در نظر بگیرید

بسیاری از مجموعه داده ها، از جمله Common Crawl، می‌توانند توسط شرکت هایی استفاده شوند که URL‌ ها را فیلتر و دسته بندی می‌کنند تا فهرستی از وبسایت ها را برای هدف تبلیغات ایجاد کنند.

به عنوان مثال، شرکتی به نام آلفا کوانتوم مجموعه داده ای از URL ها را ارائه می‌دهد که با استفاده از طبقه بندی دفتر تبلیغات تعاملی طبقه بندی شده اند. مجموعه داده برای بازاریابی AdTech و تبلیغات متنی مفید است. حذف از پایگاه داده ای مانند آن می‌تواند باعث از دست دادن تبلیغ کنندگان بالقوه ناشر شود.

جلوگیری از سوءاستفاده هوش مصنوعی از محتوای شما

موتورهای جستجو به وبسایت ها اجازه می‌دهند از این اتفاق خودداری کنند. Common Crawl همچنین اجازه انصراف را می‌دهد. اما در حال حاضر هیچ راهی برای حذف محتوای وبسایت از مجموعه داده های موجود وجود ندارد.

علاوه بر این، به نظر نمی‌رسد دانشمندان راهی برای انصراف از اشتراک اطلاعات ارائه کنند.

بسیاری از ناشران منتظر اند تا در آینده نزدیک به آنها در مورد نحوه استفاده از محتوای آنها، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT اطلاع‌رسانی شود.

اینکه آیا این اتفاق خواهد افتاد در حال حاضر مشخص نیست.

برای این نوشته برچسبی وجود ندارد !

نویسنده :

محسن دادار

مقالات نویسنده

آموزش انتقال ارز از بایننس به تراست ولت (گام به گام)

آموزشی,ارزهای دیجیتال

اگر در بازار ارزهای دیجیتال فعالیت می‌کنید، حتماً نام دو ابزار مهم را شنیده‌اید: صرافی بایننس (Binance) و کیف پول تراست ولت (Trust Wallet). بایننس به‌عنوان بزرگ‌ترین صرافی ارز دیجیتال دنیا، محل خرید و فروش شماست. اما برای نگهداری امن دارایی‌ها، بهتر است آن‌ها را به یک کیف پول غیرمتمرکز مثل تراست ولت منتقل کنید. در این مقاله، به زبان ساده و مرحله‌به‌مرحله آموزش انتقال ارز از بایننس به تراست ولت را توضیح می‌دهیم. خرید ارز دییجیتال چرا تراست ولت؟ شاید بپرسید چرا باید ارزها را از بایننس خارج کنیم؟ کنترل کامل روی دارایی‌ها: کلید خصوصی کیف پول تراست ولت فقط در اختیار شماست. امنیت بیشتر: خطر مسدود شدن حساب یا هک صرافی کاهش می‌یابد. دسترسی سریع: با یک اپلیکیشن...

خواندن مقاله

علت عدم نمایش تتر در تراست ولت و روش‌های رفع آن

آموزشی,ارزهای دیجیتال

تتر (USDT) یکی از محبوب‌ترین استیبل‌کوین‌ها در بازار رمزارزهاست و نسخه TRC-20 آن روی بلاک‌چین ترون فعالیت می‌کند. بسیاری از کاربران پس از خرید ارز دیجیتال و انتقال آن به کیف پول، با مشکل عدم نمایش تتر در تراست ولت مواجه می‌شوند. این مشکل به دلایل مختلفی رخ می‌دهد که در این مقاله به مهم‌ترین آن‌ها و روش‌های حلشان می‌پردازیم. دلایل رایج عدم نمایش تتر در تراست ولت ۱. انتخاب شبکه اشتباه اگر هنگام انتقال تتر، شبکه انتخابی شما با شبکه فعال در تراست ولت مطابقت نداشته باشد (مثلاً ارسال از ERC-20 به جای TRC-20)، موجودی نمایش داده نمی‌شود.راه‌حل: هنگام افزودن تتر، حتماً نسخه «USDT (TRC-20)» را انتخاب کنید. این موضوع به‌ویژه هنگام خرید تتر ارزان از صرافی‌ها اهمیت دارد، چرا...

خواندن مقاله

سقف انتقال تتر از تراست ولت چقدر است؟

آموزشی,ارزهای دیجیتال

اگر از کیف پول Trust Wallet برای نگهداری یا جابه‌جایی ارزهای دیجیتال استفاده می‌کنید، احتمالاً این سؤال برایتان پیش آمده که سقف انتقال تتر از تراست ولت چقدر است؟ در این مطلب به زبان ساده این موضوع را بررسی می‌کنیم و در کنار آن به نکاتی مثل انتقال تتر با شبکه BEP20 و نحوه استفاده از آدرس BEP20 در تراست والت می‌پردازیم. سقف انتقال تتر از تراست ولت خبر خوب این است که تراست والت هیچ محدودیتی برای انتقال تتر یا سایر رمزارزها اعمال نمی‌کند و برای خرید و فروش ارز دیجیتال می توانید از اول پرداخت استفاده نمایید. نامحدود بودن تراست ولت به این علت است که این کیف پول غیرامانی (non-custodial) است و کنترل دارایی‌ها کاملاً در دست کاربر...

خواندن مقاله

آدرس BEP20 در تراست والت

آموزشی,ارزهای دیجیتال

در دنیای ارزهای دیجیتال، انتخاب شبکه مناسب برای ارسال و دریافت توکن‌ها از اهمیت بالایی برخوردار است. شبکه BEP20، که بر بستر Binance Smart Chain (BSC) فعالیت می‌کند، به دلیل کارمزد پایین و سرعت بالای تراکنش‌ها، یکی از محبوب‌ترین شبکه‌ها برای انتقال توکن‌ها به‌شمار می‌رود. در این مقاله از اول پرداخت، نحوه یافتن آدرس BEP20 در تراست والت را به‌صورت گام‌به‌گام آموزش می‌دهیم. خرید تتر bep20 BEP20 چیست؟ BEP20 یک استاندارد توکن در شبکه BNB Smart Chain است که مشابه ERC20 در شبکه اتریوم عمل می‌کند. این استاندارد امکان ایجاد، انتقال و مدیریت توکن‌ها را فراهم می‌آورد و با کیف پول‌هایی مانند تراست والت، متامسک و بایننس سازگار است. چرا آدرس BEP20 مهم است؟ برای دریافت یا ارسال توکن‌ها در...

خواندن مقاله

آموزش برنامه‌نویسی با سایت Treehouse

آموزشی,معرفی سایت ها

یادگیری برنامه‌نویسی ممکن است در ابتدا کمی دلهره‌آور باشد و انتخاب مدرس مناسب نقش کلیدی در تجربه مثبت شما دارد. سایت Treehouse با ارائه کلاس‌هایی برای مبتدیان و حرفه‌ای‌ها و ابزارهای داخلی خود، روند یادگیری را ساده و لذت‌بخش می‌کند. استفاده از این وب‌سایت بسیار راحت است: شما می‌توانید به‌راحتی دوره‌ها را پیدا کنید، پیشرفت خود را مشاهده کنید و از طریق داشبورد به انجمن دانشجویان دسترسی داشته باشید. انجمن دانشجویان منبعی عالی است، به‌ویژه وقتی مدت زیادی به یک قطعه کد نگاه کرده‌اید و به کمک نیاز دارید. به همین دلایل، Treehouse به‌عنوان انتخاب ویراستاران برای دوره‌های برنامه‌نویسی آنلاین پولی معرفی شده است. قیمت‌گذاری و رابط کاربری سایت Treehouse سایت Treehouse برنامه پایه‌ای با هزینه ۲۵ دلار در ماه...

خواندن مقاله

راهنمای کامل مشاهده تاریخچه تراکنش‌های ارزهای دیجیتال

آموزشی,ارزهای دیجیتال

در دنیای رمزارزها، یکی از موضوعات مهم برای کاربران، بررسی و پیگیری تراکنش‌هاست. تاریخچه تراکنش‌های ارزهای دیجیتال به کاربران کمک می‌کند تا مبالغ ارسالی یا دریافتی، وضعیت تراکنش، هزینه‌های شبکه و دیگر اطلاعات مرتبط را مشاهده کنند. در این مقاله، به روش‌ها و ابزارهای مختلف بررسی تاریخچه تراکنش‌های رمزارزی خواهیم پرداخت. تاریخچه تراکنش‌های ارزهای دیجیتال در بلاکچین چیست؟ بلاکچین یک دفتر کل دیجیتال است که تمامی تراکنش‌های صورت‌گرفته در شبکه را ثبت می‌کند. اغلب بلاکچین‌ها نظیر بیت‌کوین و اتریوم عمومی هستند؛ یعنی هر کسی می‌تواند سوابق تراکنش‌ها را مشاهده کند. هر تراکنش رمزارزی دارای یک شناسه منحصربه‌فرد به نام TxID است که اطلاعاتی نظیر آدرس‌های عمومی فرستنده و گیرنده، زمان انجام تراکنش، کارمزد، مقدار رمزارز و وضعیت تراکنش را در...

خواندن مقاله

نظرات کاربران