[ad_1]
هوش مصنوعی را میتوان بی گمان ترندترین نکته سال ۲۰۲۳ دانست. و در بین همه محصولات هوش مصنوعی، چتجیپیتی (ChatGPT) از محبوبیت بالایی برخوردار است.
همه ما چتجیپیتی را با توانایی درک متنهای پیشرفته و عرضه پاسخهای صحیح و دقیق میشناسیم. بااینحال، کمتر کسی از نحوه ایجاد و بعد ازآن کارکرد این هوش مصنوعی محبوب خبر دارد.
چتجیپیتی چتباتی است که از فناوری هوش مصنوعی استفاده میکند و به ما امکان میدهد تا مکالمههایی مشابه گفتوگوهای روزمره را با این ربات تجربه کنیم. مدل زبانی چتجیپیتی میتواند به سؤالات مختلف جواب دهد و در انجام کارهایی مثل نوشتن ایمیل یا مقاله یا حتی کدنویسی به ما کمک کند.
اما سؤال این است که چتجیپیتی چگونه موفق شده پرسشها را درک کند و پاسخهای دقیق عرضه دهد؟ اخیراً نویسندهای در رسانه Towards Data Science این نکته را بهروشمفصل بررسی کرده و نتایج را به اشتراک گذاشته است. ما هم در این مطلب ترجمه این نتایج را با شما در بین میگذاریم.
پاسخهای دقیق و صحیح چتجیپیتی حاصل بهرهبردن از فناوریهای پیشرفته و سالها تحقیق و بررسی است. فناوری و نحوه کارکرد چتجیپیتی شاید پیچیده باشد؛ بههمینعلت، در این مطلب تلاش میکنیم تا جزئیات این چتبات را به روشی ساده بررسی کنیم.
برای این منظور، نخست مدلهای زبان بزرگ را معرفی میکنیم. درادامه به ساز و کار آموزش GPT-3 اشاره میکنیم و درنهایت یادگیری با بازخورد انسانی را بررسی میکنیم که به کارکرد تحسینبرانگیز چتجیپیتی منجر شده است. برای آشنایی بیشتر با چتجیپیتی، تا پایان مطلب با ما همراه باشید.
آشنایی با مدل زبان بزرگ
مدل زبان بزرگ (LLM) یکی از مدلهای یادگیری ماشینی و آموزش هوش مصنوعی بهحساب میآید که برای تفسیر زبان انسانی ایجاد شده است. LLM در جایگاه پایگاه عظیم داده و نوعی زیرساخت فناوری عمل میکند که مقادیر زیادی از اطلاعات متنی را میتواند پردازش کند.
امروزه با پیشرفت تکنولوژی و قدرت محاسباتی، کارایی LLMها بسیار بیشتر از گذشته شده است؛ چون با افزایش مجموعه اطلاعات ورودی و فضای پارامترها، امکانها و کارکردهای LLM هم افزایش مییابد.
روش آموزشی استاندارد برای LLMها پیشبینی کلمه بعدی در دنبالهای از تماممات بهکمک مدل حافظه طولانی کوتاهمدت (LSTM) است. LSTM میتواند با اطلاعات ترتیبی (Sequential Data) مثل متن و صدا کار کند.
در این روش آموزشی، LLM باید عبارات و کلمات قبل و بعد را بررسی و براساس نتایج این بررسی، جای خالی عبارت را با بهترین کلمه پر کند. این پروسه بارها تکرار میگردد.تا مدل بتواند پاسخهای مشخصی ایجاد کند.
پروسه مذکور در قالب پیشبینی توکن بعدی (NTP) و مدل زبانی نقابدار (MLM) انجام میگردد. در هر دو مدل، هوش مصنوعی باید بهترین کلمه را برای پرکردن جای خالی انتخاب کند؛ اما محل جای خالی مفرق است.
محدودیتهای آموزش با LSTM
آموزش با LSTM محدودیتهایی هم بههمراه دارد. به این مثال توجه کنید:
علی … درس خوندنه (مشتاق / مخالف)
اگر از شما خواسته شود تا جای خالی را با کلمه صحیح پر کنید، در نخست باید درباره «علی» بدانید؛ چون علایق افراد مفرق است. پس اگر بدانید که علی به درس و تحصیل علاقهمند است، «مشتاق» را انتخاب میکنید.
بااینحال، مدل نمیتواند ارزشگذاری کلمات را بهدرستی و بهدقت انجام دهد؛ در نتیجه، شاید در این عبارت اهمیت «درسخواندن» را بیشتر از «علی» بداند. ازاینرو، باتوجهبه اینکه اغلب افراد از درسخواندن و انجام تکالیف درسی بدشان میآید، مدل کلمه «مخالف» را انتخاب میکند.
ضمناً، در این مدل اطلاعات ورودی بهجای مجموعهای کامل، بهصورت جداگانه و متوالی پردازش میشوند؛ در نتیجه، در LSTM درک و پردازش پیچیدگی روابط بین کلمات و معانی محدود است.
مدل ترنسفورمر (Transformer)
در پاسخ به این مسئله، در سال ۲۰۱۷ تیمی از Google Brain مدلی به نام مدل انتقالی یا ترنسفورمر (Transformer) را معرفی کرد. برخلاف LSTM، ترنسفورمرها میتوانند تمام اطلاعات ورودی را مقارن پردازش کنند.
ترنسفورمرها از ساز و کاری بهنام خودتوجه (Self-Attention) هم استفاده میکنند. ساز و کار خودتوجه ارتباط اجزای مجموعهای از اطلاعات را میسنجد تا بتواند برداشت دقیقتری از تمام مجموعه کسب کند.
در نتیجه، بهکمک این ساز و کار ترنسفورمرها میتوانند اجزای مختلف جمله و عبارت را دقیقتر بررسی و ارتباط آنها را درک کنند. این خاصیت سبب میگردد.تا ترنسفورمرها مجموعه اطلاعات را بهتر درک و پردازش اطلاعات بسیار بزرگتر را میسرکنند.
ساز و کار خودتوجه در GPT
شرکت اوپنایآی (OpenAI) چتجیپیتی را پیشرفت داده است. چتجیپیتی، تنها مدل هوش مصنوعی و چتبات این شرکت نیست؛ چون از سال ۲۰۱۸، این شرکت نمونههایی اولیه به نام مدلهای ترنسفورمر تولیدگر ازپیشآموزشدیده (GPT) را پیشرفت داده است.
اولین مدل GPT-1 نام گرفت که نسخههای بهبودیافته بعدی آن در سالهای ۲۰۱۹ و ۲۰۲۰ با نامهای GPT-2 و GPT-3 ارائه شدند. اخیراً و در سال ۲۰۲۲ هم، رونمایی جدیدترین مدلهای آن، یعنی InstructGPT و ChatGPT را شاهد بودهایم.
درحالیکه تغییر از GPT-1 به GPT-2 با جهش تکنولوژی خیلیی همراه نبود، GPT-3 تغییرات بزرگی به خود دید. پیشرفتهای حاصلشده در کارایی محاسباتی به GPT-3 کمک کرد تا روی اطلاعات بسیار بیشتری از GPT-2 آموزش ببیند و پایگاه دانش متنوعتری داشته باشد. در نتیجه، در نسخه سوم GPT توانست وظایف مختلفی را انجام دهد.
تمام مدلهای GPT از معماری ترنسفورمر استفاده میکنند و یک انکودر (رمزگذار) برای پردازش توالی اطلاعات ورودی و یک دیکودر (رمزگشا) برای تولید اطلاعات دنباله خروجی دارند.
هر دو انکودر و دیکودر از ساز و کار خودتوجه چندسر (Multi-Head Self-Attention) بهره میبرند که به مدل امکان میدهد تا بخشهای مختلف دنباله را بررسی و تحلیل کند. برای این کار، ساز و کار خودتوجه توکنها (تکههایی از متن که میتواند در بر گیرنده جمله یا کلمه یا گروه دیگری از متن باشد) را به وکتورهایی (Vector) تبدیل میکند که مقدار اهمیت توکن را در عبارت نشان میدهند.
انکودر هم از مدل زبانی نقابدار (Masked Language Modeling) برای درک رابطه بین کلمات و عرضه پاسخهای بهتر استفاده میکند. در کنار این خاصیتها، ساز و کار خودتوجه چندسر استفادهشده در GPT بهجای بررسی یکباره اهمیت کلمات، چندینبار پروسه آن را تکرار میکند که سبب میگردد.تا مدل بتواند مفاهیم فرعی و روابط پیچیدهتر اطلاعات ورودی را درک کند.
مشکلات و محدودیتهای GPT-3
اگر چه GPT-3 پیشرفتهای برجستهی در پردازش زبان طبیعی (زبانهای کاربردی برای بشر) بههمراه داشت، در این نسخه پیشرفته هم مشکلات و محدودیتهایی دیده میشد. برای نمونه، GPT-3 در درک صحیح و دقیق دستورالعملهای کاربران مشکل دارد و نمیتواند آنطورکه باید و شاید، به آنان کمک کند. در کناراین، GPT-3 اطلاعات و اطلاعات نادرست یا ناموجود را منتشر میکند.
نکته مهم دیگر اینکه مدل یادشده نمیتواند درباره کارکرد خود توضیحات مناسبی عرضه دهد و کاربران نمیدانند که GPT-3 چگونه نتیجهگیری و تصمیمگیری کرده است. نسخه سوم فیلترهای مناسبی هم ندارد و شاید که محتوای توهینآمیز یا آسیبزا منتشر کند. اینها مشکلاتی است که اوپنایآی تلاش کرد تا در نسخههای بعدی آنها را رفع کند.
چتجیپیتی و مراحل پیدایش آن
بهمنظور رفع مشکلات GPT-3 و بهبود کارکرد کلی LLMهای استاندارد، اوپنایآی مدل زبان InstructGPT را معرفی کرد که درادامه، به ChatGPT تبدیل شد.
InstructGPT درمقایسهبا مدلهای گذشته OpenAI بهبودهای بزرگی به خود دید و رویکرد جدیدش برای استفاده از بازخوردهای انسانی در پروسه آموزش، خروجیهای بسیار بهتری بههمراه داشت. این نحوه آموزش مدل یادگیری تقویتی از بازخورد انسانی (RLHF) نام دارد که وظیفه مهمی در درک اهداف و توقعات انسانها بههنگام پاسخ به پرسشها ایفا میکند.
ایجاد این مدل آموزشی و پیشرفت چتجیپیتی بهدست اوپنایآی در بر گیرنده سه مرحله کلی میگردد.که درادامه، آنها را توضیح میدهیم.
مرحله ۱: مدل تنظیم دقیق نظارت شده (SFT)
در مراحل اولیه پیشرفت، برای ارتقا و بهبود GPT-3 اوپنایآی چهل پیمانکار استخدام کرد تا مجموعه داده آموزشی نظارتشده را برای یادگیری مدل ایجاد کنند. این اطلاعات ورودی و درخواستها از کاربران واقعی و اطلاعات ثبتشده در OpenAI جمعآوری شدند. با این مجموعه داده، درادامه GPT-3.5 ایجاد شد که به آن مدل SFT هم گفته میگردد.
تیم اوپنایآی تلاش کرد تا تنوع روی همرفتهه اطلاعات را بهحداکثر برساند و تمام اطلاعات حاوی اطلاعات شناسایی شخصی هم از این اطلاعات حذف شدند. بعد از جمعآوری درخواست و اطلاعات، OpenAI از مشارکتکنندگان خواست تا نحوه درخواست و پرسش کاربران را شناسایی و دستهبندی کنند. در نتیجه این بررسی، سه راه اصلی درخواست اطلاعات مشخص شد:
- درخواستهایی که مستقیم پرسیده میشوند؛ مثلاً «به من درباره نکتهی توضیح بده».
- درخواستهای فیوشات که پیچیدهتر هستند؛ مثلاً «براساس دو نمونه داستانی که فرستادم، داستانی جدید با همان نکته بنویس».
- درخواستهای ادامهدار که باید نکتهی ادامه داده شود؛ مثلاً «باتوجهبه مقدمه، این داستان را تمام کن».
سرانجام، جمعآوری دستورهای ثبتشده در دیتابیس OpenAI و دستنویسشده مشارکتکنندگان به ایجاد ۱۳هزار نمونه ورودی و خروجی برای استفاده در مدل منجر شد.
مرحله ۲: مدل پاداش
بعد از آموزشدادن SFT در مرحله اول، مدل این توانایی را پیدا کرد تا پاسخهای مناسبتری به درخواستهای کاربران دهد. بااینحال، این مدل کماکان ناقص بود و باید بهبود پیدا میکرد؛ بهبودی که بهکمک مدل پاداش و با یادگیری تقویتی میسر شد.
در این روش، مدل تلاش میکند تا بهترین نتیجه را در موقعیتهای مختلف پیدا کند و بهترین کارکرد را از خود نشان دهد. در یادگیری تقویتی، مدل در ازای انتخابها و کارکرد مناسب پاداش دریافت میکند و درصورت داشتن انتخاب و کارکرد نامناسب، جریمه میگردد. در این مرحله و در اثر پاداشها و جریمهها، SFT یاد گرفت تا بهترین خروجیها را براساس اطلاعات ورودی ایجاد کند.
برای استفاده از یادگیری تقویتی، به مدل پاداش نیاز داریم تا مشخص شود که کدام خروجیها پاداش دارد و چه جوابهایی مشمول جریمه میگردد. برای آموزش مدل پاداش، اوپنایآی ۴ تا ۹ خروجی مدل SFT را برای هر داده ورودی دراختیار مشارکتکنندگان قرار داد و از آنان خواست تا این خروجیها را از بهترین به بدترین رتبهبندی کنند. با این امتیازبندی، راهی ایجاد شد تا کارکرد SFT سنجیده شود و بهروشمداوم بهبود پیدا کند.
مرحله ۳: مدل یادگیری تقویتی
بعد از ایجاد مدل پاداش، در مرحله سوم به مدل ورودیهای تصادفی داده شد تا بکوشد خروجیهایی با بیشترین پاداش و امتیاز ایجاد کند. براساس مدل پاداش پیشرفتیافته در مرحله دوم، درخواستها و پاداشها بررسی و رتبهبندی میشوند و بعد ازآن نتایج بهدستآمده به مدل باز میگردد تا کارکرد بهبود پیدا کند.
روشی که از آن در بهروزرسانی کارکرد مدل هنگام تولید هر پاسخ استفاده شد، بهینهسازی سیاست پروگزیمال (PPO) نام دارد که در سال ۲۰۱۷، جان شولمن (John Schulman)، یکی از موسسان OpenAI و تیمش آن را پیشرفت دادند.
PPO جریمه کولبکلیبر (KL) هم دارد که در این مدل بسیار مهم است. در یادگیری تقویتی، مدل گاهی اوقات میتواند یاد بگیرد که سیستم پاداشش را برای دستیابی به نتیجه دلخواه دستکاری کند. همین موضوع مدل را به ایجاد تعدادی از الگوهایی سوق میدهد که علیرقم امتیاز بیشتر، خروجی مناسبی ندارند.
برای رفع این مشکل، از جریمه KL استفاده میگردد. این خاصیت سبب میگردد.تا برای ایجاد خروجی فقط امتیاز بیشتر ملاک نباشد و با خروجی ایجادشده SFT در مرحله اول، فرق زیادی وجود نداشته باشد.
ارزیابی مدل
بعد از تکمیل مراحل اصلی ایجاد و تمرین مدل، در این مرحله مجموعهای از آزمایشها در طول آموزش انجام میگردد.تا مشخص شود آیا مدل جدید کارکرد بهتری از مدل قبلی دارد یا خیر. این ارزیابی در بر گیرنده سه بخش است.
در نخست کارکرد کلی و توانایی مدل برای بررسی و پیروی از دستورالعملهای کاربر بررسی میگردد. باتوجهبه نتایج آزمایشها، مشارکتکنندگان خروجیهای InstructGPT را تقریباً در ۸۵درصد مواقع به GPT-3 ترجیح دادند.
مدل جدید توانایی بیشتری در عرضه اطلاعات داشت و بهکمک PPO، اطلاعات صحیحتر و دقیقتری در خروجیها دیده شد. سرانجام، توانایی InstructGPT برای انتشار یا جلوگیری از محتوای نامناسب و تحقیرآمیز و آسیبزا هم بررسی شد.
تحقیقات نشان داد که مدل جدید میتواند محتوای نامناسب را شدیداً کاهش دهد. جداب است بدانید در زمانیکه از مدل خواسته شد تا از عمد پاسخهای نامناسب منتشر کند، خروجیها بسیار توهینآمیزتر از مدل GPT-3 بودند.
با پایان مراحل ارزیابی، InstructGPT پیشرفتهای بسیار مناسبی ثبت کرد و کارکردش را در چتبات محبوب ChatGPT نشان داد. درصورتیکه درباره نحوه پیشرفت و کارکرد چتجیپیتی سؤالات بیشتری دارید، میتوانید مقاله رسمی منتشرشده توسط اوپنایآی را مطالعه کنید.