به خدمات 24 ساعته زرین اکسچنج اعتماد کنید!

ChatGPT چگونه کار می‌کند؟

ChatGPT چگونه کار می‌کند؟


هوش مصنوعی را می‌توان بی گمان ترندترین نکته سال ۲۰۲۳ دانست. و در بین همه محصولات هوش مصنوعی، چت‌جی‌پی‌تی (ChatGPT) از محبوبیت بالایی برخوردار است.

همه ما چت‌جی‌پی‌تی را با توانایی درک متن‌های پیشرفته و عرضه پاسخ‌های صحیح و دقیق می‌شناسیم. با‌این‌حال، کمتر کسی از نحوه ایجاد و بعد از‌آن کارکرد این هوش مصنوعی محبوب خبر دارد.

چت‌جی‌پی‌تی چت‌باتی است که از فناوری هوش مصنوعی استفاده می‌کند و به ما امکان می‌دهد تا مکالمه‌هایی مشابه گفت‌وگو‌های روزمره را با این ربات تجربه کنیم. مدل زبانی چت‌جی‌پی‌تی می‌تواند به سؤالات مختلف جواب دهد و در انجام کار‌هایی مثل نوشتن ایمیل یا مقاله یا حتی کدنویسی به ما کمک کند.

اما سؤال این است که چت‌جی‌پی‌تی چگونه موفق شده پرسش‌ها را درک کند و پاسخ‌های دقیق عرضه دهد؟ اخیراً نویسنده‌ای در رسانه Towards Data Science این نکته را به‌روشمفصل بررسی کرده و نتایج را به اشتراک گذاشته است. ما هم در این مطلب ترجمه این نتایج را با شما در بین می‌گذاریم.

پاسخ‌های دقیق و صحیح چت‌جی‌پی‌تی حاصل بهره‌بردن از فناوری‌های پیشرفته و سال‌ها تحقیق و بررسی است. فناوری و نحوه کارکرد چت‌جی‌پی‌تی شاید پیچیده باشد؛ به‌همین‌علت، در این مطلب تلاش می‌کنیم تا جزئیات این چت‌بات را به روشی ساده بررسی کنیم.

برای این منظور، نخست مدل‌های زبان بزرگ را معرفی می‌کنیم. در‌ادامه به ساز و کار آموزش GPT-3 اشاره می‌کنیم و در‌نهایت یادگیری با بازخورد انسانی را بررسی می‌کنیم که به کارکرد تحسین‌برانگیز چت‌جی‌پی‌تی منجر شده است. برای آشنایی بیشتر با چت‌جی‌پی‌تی، تا پایان مطلب با ما همراه باشید.

آشنایی با مدل‌ زبان بزرگ

مدل زبان بزرگ (LLM) یکی از مدل‌های یادگیری ماشینی و آموزش هوش مصنوعی به‌حساب می‌آید که برای تفسیر زبان انسانی ایجاد شده‌ است. LLM در جایگاه پایگاه عظیم داده و نوعی زیرساخت فناوری عمل می‌کند که مقادیر زیادی از اطلاعات متنی را می‌تواند پردازش کند.

امروزه با پیشرفت تکنولوژی و قدرت محاسباتی، کارایی LLM‌ها بسیار بیشتر از گذشته شده است؛ چون با افزایش مجموعه اطلاعات ورودی و فضای پارامتر‌ها، امکان‌ها و کارکردهای LLM هم افزایش می‌یابد.

روش آموزشی استاندارد برای LLM‌ها پیش‌بینی کلمه بعدی در دنباله‌ای از تماممات به‌کمک مدل حافظه‌ طولانی کوتاه‌مدت (LSTM) است. LSTM می‌تواند با اطلاعات ترتیبی (Sequential Data) مثل متن و صدا کار کند.

در این روش آموزشی، LLM باید عبارات و کلمات قبل و بعد را بررسی و براساس نتایج این بررسی، جای خالی عبارت را با بهترین کلمه پر کند. این پروسه بار‌ها تکرار می‌گردد.تا مدل بتواند پاسخ‌های مشخصی ایجاد کند.

پروسه مذکور در قالب پیش‌بینی توکن بعدی (NTP) و مدل زبانی نقاب‌دار (MLM) انجام می‌گردد. در هر دو مدل، هوش مصنوعی باید بهترین کلمه را برای پر‌کردن جای خالی انتخاب کند؛ اما محل جای خالی مفرق است.

محدودیت‌های آموزش با LSTM

آموزش با LSTM محدودیت‌هایی هم به‌همراه دارد. به این مثال توجه کنید:

علی … درس خوندنه (مشتاق / مخالف)

اگر از شما خواسته شود تا جای خالی را با کلمه صحیح پر کنید، در نخست باید درباره «علی» بدانید؛ چون علایق افراد مفرق است. پس اگر بدانید که علی به درس و تحصیل علاقه‌مند است، «مشتاق» را انتخاب می‌کنید.  

بااین‌حال، مدل نمی‌تواند ارزش‌گذاری کلمات را به‌درستی و به‌دقت انجام دهد؛ در نتیجه، شاید در این عبارت اهمیت «درس‌خواندن» را بیشتر از «علی» بداند. ازاین‌رو، با‌توجه‌به اینکه اغلب افراد از درس‌خواندن و انجام تکالیف درسی بدشان می‌آید، مدل کلمه «مخالف» را انتخاب می‌کند.

ضمناً، در این مدل اطلاعات ورودی به‌جای مجموعه‌ای کامل، به‌صورت جداگانه و متوالی پردازش می‌شوند؛ در نتیجه، در LSTM درک و پردازش پیچیدگی روابط بین کلمات و معانی محدود است.

مدل ترنسفورمر (Transformer)

در پاسخ به این مسئله، در سال ۲۰۱۷ تیمی از Google Brain مدلی به نام مدل انتقالی یا ترنسفورمر (Transformer) را معرفی کرد. برخلاف LSTM، ترنسفورمر‌ها می‌توانند تمام اطلاعات ورودی را مقارن پردازش کنند.

ترنسفورمر‌ها از ساز و کاری به‌نام خودتوجه (Self-Attention) هم استفاده می‌کنند. ساز و کار خودتوجه ارتباط اجزای مجموعه‌ای از اطلاعات را می‌سنجد تا بتواند برداشت دقیق‌تری از تمام مجموعه کسب کند.

در نتیجه، به‌کمک این ساز و کار ترنسفورمر‌ها می‌توانند اجزای مختلف جمله و عبارت را دقیق‌تر بررسی و ارتباط آن‌ها را درک کنند. این خاصیت سبب می‌گردد.تا ترنسفورمر‌ها مجموعه اطلاعات را بهتر درک و پردازش اطلاعات بسیار بزرگ‌تر را میسرکنند.

ساز و کار خودتوجه در GPT

شرکت اوپن‌ای‌آی (OpenAI) چت‌جی‌پی‌تی را پیشرفت داده است. چت‌جی‌پی‌تی، تنها مدل هوش مصنوعی و چت‌بات این شرکت نیست؛ چون از سال ۲۰۱۸، این شرکت نمونه‌هایی اولیه به نام‌ مدل‌های ترنسفورمر تولیدگر از‌پیش‌آموزش‌دیده (GPT) را پیشرفت داده است.

اولین مدل GPT-1 نام گرفت که نسخه‌های بهبود‌یافته بعدی آن در سال‌های ۲۰۱۹ و ۲۰۲۰ با نام‌های GPT-2 و GPT-3 ارائه شدند. اخیراً و در سال ۲۰۲۲ هم، رونمایی جدیدترین مدل‌های آن، یعنی InstructGPT و ChatGPT را شاهد بوده‌ایم.

در‌حالی‌که تغییر از GPT-1 به GPT-2 با جهش تکنولوژی خیلیی همراه نبود، GPT-3 تغییرات بزرگی به خود دید. پیشرفت‌های حاصل‌شده در کارایی محاسباتی به GPT-3 کمک کرد تا روی اطلاعات بسیار بیشتری از GPT-2 آموزش ببیند و پایگاه دانش متنوع‌تری داشته باشد. در نتیجه، در نسخه سوم GPT توانست وظایف مختلفی را انجام دهد.

مقایسه GPT-2 و GPT-3

تمام مدل‌های GPT از معماری ترنسفورمر استفاده می‌کنند و یک انکودر (رمزگذار) برای پردازش توالی اطلاعات ورودی و یک دیکودر (رمزگشا) برای تولید اطلاعات دنباله خروجی دارند.

هر دو انکودر و دیکودر از ساز و کار خودتوجه چندسر (Multi-Head Self-Attention) بهره می‌برند که به مدل امکان می‌دهد تا بخش‌های مختلف دنباله را بررسی و تحلیل کند. برای این کار، ساز و کار خودتوجه توکن‌ها (تکه‌هایی از متن که می‌تواند در بر گیرنده جمله یا کلمه یا گروه‌ دیگری از متن باشد) را به وکتور‌هایی (Vector) تبدیل می‌کند که مقدار اهمیت توکن را در عبارت نشان می‌دهند.

انکودر هم از مدل زبانی نقاب‌دار (Masked Language Modeling) برای درک رابطه بین کلمات و عرضه پاسخ‌های بهتر استفاده می‌کند. در کنار این خاصیت‌ها، ساز و کار خودتوجه چندسر استفاده‌شده در GPT به‌جای بررسی یک‌باره اهمیت کلمات، چندین‌بار پروسه آن را تکرار می‌کند که سبب می‌گردد.تا مدل بتواند مفاهیم فرعی و روابط پیچیده‌تر اطلاعات ورودی را درک کند.

مشکلات و محدودیت‌های GPT-3

اگر چه GPT-3 پیشرفت‌های برجستهی در پردازش زبان طبیعی (زبان‌های کاربردی برای بشر) به‌همراه داشت، در این نسخه پیشرفته هم مشکلات و محدودیت‌هایی دیده می‌شد. برای نمونه، GPT-3 در درک صحیح و دقیق دستورالعمل‌های کاربران مشکل دارد و نمی‌تواند آن‌طورکه باید و شاید، به آنان کمک کند. در کناراین، GPT-3 اطلاعات و اطلاعات نادرست یا ناموجود را منتشر می‌کند.

نکته مهم دیگر اینکه مدل یادشده نمی‌تواند درباره کارکرد خود توضیحات مناسبی عرضه دهد و کاربران نمی‌دانند که GPT-3 چگونه نتیجه‌‌گیری و تصمیم‌گیری کرده است. نسخه سوم فیلتر‌های مناسبی هم ندارد و شاید که محتوای توهین‌آمیز یا آسیب‌زا منتشر کند. این‌ها مشکلاتی است که اوپن‌‌ای‌آی تلاش کرد تا در نسخه‌های بعدی آن‌ها را رفع کند.

چت‌جی‌پی‌تی و مراحل پیدایش آن

به‌منظور رفع مشکلات GPT-3 و بهبود کارکرد کلی LLM‌های استاندارد، اوپن‌‌ای‌آی مدل زبان InstructGPT را معرفی کرد که در‌ادامه، به ChatGPT تبدیل شد.

InstructGPT درمقایسه‌با مدل‌های گذشته OpenAI بهبود‌های بزرگی به خود دید و رویکرد جدیدش برای استفاده از بازخورد‌های انسانی در پروسه آموزش، خروجی‌های بسیار بهتری به‌همراه داشت. این نحوه آموزش مدل یادگیری تقویتی از بازخورد انسانی (RLHF) نام دارد که وظیفه مهمی در درک اهداف و توقعات انسان‌ها به‌هنگام پاسخ به پرسش‌ها ایفا می‌کند.

ایجاد این مدل آموزشی و پیشرفت چت‌جی‌پی‌تی به‌دست اوپن‌‌ای‌آی در بر گیرنده سه مرحله کلی می‌گردد.که در‌ادامه، آن‌ها را توضیح می‌دهیم.

مرحله ۱: مدل تنظیم دقیق نظارت شده (SFT)

در مراحل اولیه پیشرفت، برای ارتقا و بهبود GPT-3 اوپن‌‌ای‌آی چهل پیمان‌کار استخدام کرد تا مجموعه داده آموزشی نظارت‌شده را برای یادگیری مدل ایجاد کنند. این اطلاعات ورودی و درخواست‌ها از کاربران واقعی و اطلاعات ثبت‌شده در OpenAI جمع‌آوری شدند. با این مجموعه داده، درادامه GPT-3.5 ایجاد شد که به آن مدل SFT هم گفته می‌گردد.

تیم اوپن‌ای‌آی تلاش کرد تا تنوع روی هم‌رفتهه اطلاعات را به‌حداکثر برساند و تمام اطلاعات حاوی اطلاعات شناسایی شخصی هم از این اطلاعات حذف شدند. بعد از جمع‌آوری درخواست و اطلاعات، OpenAI از مشارکت‌کنندگان خواست تا نحوه درخواست و پرسش کاربران را شناسایی و دسته‌بندی کنند. در نتیجه این بررسی، سه راه اصلی درخواست اطلاعات مشخص شد:

  • درخواست‌هایی که مستقیم پرسیده می‌شوند؛ مثلاً «به من درباره نکتهی توضیح بده».
  • درخواست‌های فیوشات که پیچیده‌تر هستند؛ مثلاً «براساس دو نمونه داستانی که فرستادم، داستانی جدید با همان نکته بنویس».
  • درخواست‌های ادامه‌دار که باید نکتهی ادامه داده شود؛ مثلاً «با‌توجه‌به مقدمه، این داستان را تمام کن».

سرانجام، جمع‌آوری دستورهای ثبت‌شده در دیتابیس OpenAI و دست‌نویس‌شده مشارکت‌کنندگان به ایجاد ۱۳هزار نمونه ورودی و خروجی برای استفاده در مدل منجر شد.

توضیح مراحل جمع آوری داده و ایجاد دستورالعمل

مرحله ۲: مدل پاداش

بعد از آموزش‌دادن SFT در مرحله اول، مدل این توانایی را پیدا کرد تا پاسخ‌های مناسب‌تری به درخواست‌های کاربران دهد. بااین‌حال، این مدل کماکان ناقص بود و باید بهبود پیدا می‌کرد؛ بهبودی که به‌کمک مدل پاداش و با یادگیری تقویتی میسر شد.

در این روش، مدل تلاش می‌کند تا بهترین نتیجه را در موقعیت‌های مختلف پیدا کند و بهترین کارکرد را از خود نشان دهد. در یادگیری تقویتی، مدل در ازای انتخاب‌ها و کارکرد مناسب پاداش دریافت می‌کند و درصورت داشتن انتخاب و کارکرد نامناسب، جریمه می‌گردد. در این مرحله و در اثر پاداش‌ها و جریمه‌ها، SFT یاد گرفت تا بهترین خروجی‌ها را براساس اطلاعات ورودی ایجاد کند.

برای استفاده از یادگیری تقویتی، به مدل پاداش نیاز داریم تا مشخص شود که کدام خروجی‌ها پاداش دارد و چه جواب‌هایی مشمول جریمه می‌گردد. برای آموزش مدل پاداش، اوپن‌ای‌آی ۴ تا ۹ خروجی مدل SFT را برای هر داده ورودی در‌اختیار مشارکت‌کنندگان قرار داد و از آنان خواست تا این خروجی‌ها را از بهترین به بدترین رتبه‌بندی کنند. با این امتیاز‌بندی، راهی ایجاد شد تا کارکرد SFT سنجیده شود و به‌روش‌مداوم بهبود پیدا کند.

توضیح مراحل مقایسه داده ها و آموزش مدل پاداش

مرحله ۳: مدل یادگیری تقویتی

بعد از ایجاد مدل پاداش، در مرحله سوم به مدل ورودی‌های تصادفی داده شد تا بکوشد خروجی‌هایی با بیشترین پاداش و امتیاز ایجاد کند. براساس مدل پاداش پیشرفت‌یافته در مرحله دوم، درخواست‌ها و پاداش‌ها بررسی و رتبه‌بندی می‌شوند و بعد از‌آن نتایج به‌دست‌آمده به مدل باز‌ می‌گردد تا کارکرد بهبود پیدا کند.

روشی که از آن در به‌روزرسانی کارکرد مدل هنگام تولید هر پاسخ استفاده شد، بهینه‌سازی سیاست پروگزیمال (PPO) نام دارد که در سال ۲۰۱۷، جان شولمن (John Schulman)، یکی از موسسان OpenAI و تیمش آن را پیشرفت دادند.

PPO جریمه کولبک‌لیبر (KL) هم دارد که در این مدل بسیار مهم است. در یادگیری تقویتی، مدل گاهی اوقات می‌تواند یاد بگیرد که سیستم پاداشش را برای دستیابی به نتیجه دلخواه دست‌کاری کند. همین موضوع مدل را به ایجاد تعدادی از الگو‌هایی سوق می‌دهد که علیرقم امتیاز بیشتر، خروجی مناسبی ندارند.

برای رفع این مشکل، از جریمه KL استفاده می‌گردد. این خاصیت سبب می‌گردد.تا برای ایجاد خروجی فقط امتیاز بیشتر ملاک نباشد و با خروجی ایجاد‌شده SFT در مرحله اول، فرق زیادی وجود نداشته باشد.

توضیح مراحل نظارت بر مدل پاداش و بهبود یادگیری تقویتی

ارزیابی مدل

بعد از تکمیل مراحل اصلی ایجاد و تمرین مدل، در این مرحله مجموعه‌ای از آزمایش‌ها در طول آموزش انجام می‌گردد.تا مشخص شود آیا مدل جدید کارکرد بهتری از مدل قبلی دارد یا خیر. این ارزیابی در بر گیرنده سه بخش است.

در نخست کارکرد کلی و توانایی مدل برای بررسی و پیروی از دستورالعمل‌های کاربر بررسی می‌گردد. با‌توجه‌به نتایج آزمایش‌ها، مشارکت‌کنندگان خروجی‌های InstructGPT را تقریباً در ۸۵درصد مواقع به GPT-3 ترجیح دادند.

مدل جدید توانایی بیشتری در عرضه اطلاعات داشت و به‌کمک PPO، اطلاعات صحیح‌تر و دقیق‌تری در خروجی‌ها دیده شد. سرانجام، توانایی InstructGPT برای انتشار یا جلوگیری از محتوای نامناسب و تحقیرآمیز و آسیب‌زا هم بررسی شد.

تحقیقات نشان داد که مدل جدید می‌تواند محتوای نامناسب را شدیداً کاهش دهد. جداب است بدانید در زمانی‌که از مدل خواسته شد تا از عمد پاسخ‌های نامناسب منتشر کند، خروجی‌ها بسیار توهین‌آمیز‌تر از مدل GPT-3 بودند.

با پایان مراحل ارزیابی، InstructGPT پیشرفت‌های بسیار مناسبی ثبت کرد و کارکردش را در چت‌بات محبوب ChatGPT نشان داد. در‌صورتی‌که درباره نحوه پیشرفت و کارکرد چت‌جی‌پی‌تی سؤالات بیشتری دارید، می‌توانید مقاله رسمی منتشر‌شده توسط اوپن‌ای‌آی را مطالعه کنید.

دسته بندی

ما چطور می توانیم کمکتان کنیم ؟

مجموعه پشتیبانی زرین اکسچنج، آماده هر گونه مشاوره رایگان در تمام زمینه ها به کاربران گرانقدر می باشد.

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *