ChatGPT چگونه کار می‌کند؟

حامد توانای آزاد

آخرین به‌روزرسانی: ۰۱ خرداد ۱۴۰۲ | ۱۰:۰۰

هوش مصنوعی را می‌توان بدون شک ترندترین موضوع سال ۲۰۲۳ دانست. و در بین همه محصولات هوش مصنوعی، چت‌جی‌پی‌تی (ChatGPT) از محبوبیت بالایی برخوردار است.

صرافی شما چند رمزارز دارد؟

در کیف پول من به ۳,۰۰۰ رمزارز و تسویه آنی دسترسی دارید.

ثبت‌نام کنید

همه ما چت‌جی‌پی‌تی را با توانایی درک متن‌های پیشرفته و ارائه پاسخ‌های صحیح و دقیق می‌شناسیم. با‌این‌حال، کمتر کسی از نحوه ایجاد و سپس کارکرد این هوش مصنوعی محبوب خبر دارد.

چت‌جی‌پی‌تی چت‌باتی است که از فناوری هوش مصنوعی استفاده می‌کند و به ما امکان می‌دهد تا مکالمه‌هایی مشابه گفت‌وگو‌های روزمره را با این ربات تجربه کنیم. مدل زبانی چت‌جی‌پی‌تی می‌تواند به سؤالات مختلف جواب دهد و در انجام کار‌هایی مانند نوشتن ایمیل یا مقاله یا حتی کدنویسی به ما کمک کند.

اما سؤال این است که چت‌جی‌پی‌تی چگونه موفق شده پرسش‌ها را درک کند و پاسخ‌های دقیق ارائه دهد؟ اخیراً نویسنده‌ای در رسانه Towards Data Science این موضوع را به‌طورمفصل بررسی کرده و نتایج را به اشتراک گذاشته است. ما هم در این مطلب ترجمه این نتایج را با شما در میان می‌گذاریم.

پاسخ‌های دقیق و صحیح چت‌جی‌پی‌تی حاصل بهره‌بردن از فناوری‌های پیشرفته و سال‌ها تحقیق و بررسی است. فناوری و نحوه عملکرد چت‌جی‌پی‌تی ممکن است پیچیده باشد؛ به‌همین‌دلیل، در این مطلب تلاش می‌کنیم تا جزئیات این چت‌بات را به روشی ساده بررسی کنیم.

برای این منظور، ابتدا مدل‌های زبان بزرگ را معرفی می‌کنیم. در‌ادامه به مکانیسم آموزش GPT-3 اشاره می‌کنیم و در‌نهایت یادگیری با بازخورد انسانی را بررسی می‌کنیم که به عملکرد تحسین‌برانگیز چت‌جی‌پی‌تی منجر شده است. برای آشنایی بیشتر با چت‌جی‌پی‌تی، تا پایان مطلب با ما همراه باشید.

آشنایی با مدل‌ زبان بزرگ

مدل زبان بزرگ (LLM) یکی از مدل‌های یادگیری ماشینی و آموزش هوش مصنوعی به‌حساب می‌آید که برای تفسیر زبان انسانی ایجاد شده‌ است. LLM به‌عنوان پایگاه عظیم داده و نوعی زیرساخت فناوری عمل می‌کند که مقادیر زیادی از داده‌های متنی را می‌تواند پردازش کند.

امروزه با پیشرفت تکنولوژی و قدرت محاسباتی، کارایی LLM‌ها بسیار بیشتر از گذشته شده است؛ زیرا با افزایش مجموعه داده‌های ورودی و فضای پارامتر‌ها، قابلیت‌ها و عملکردهای LLM نیز افزایش پیدا می‌کند.

روش آموزشی استاندارد برای LLM‌ها پیش‌بینی کلمه بعدی در دنباله‌ای از کلمات به‌کمک مدل حافظه‌ طولانی کوتاه‌مدت (LSTM) است. LSTM می‌تواند با داده‌های ترتیبی (Sequential Data) مانند متن و صدا کار کند.

در این روش آموزشی، LLM باید عبارات و کلمات قبل و بعد را بررسی و براساس نتایج این بررسی، جای خالی عبارت را با مناسب‌ترین کلمه پر کند. این فرایند بار‌ها تکرار می‌شود تا مدل بتواند پاسخ‌های دقیقی ایجاد کند.

فرایند مذکور در قالب پیش‌بینی توکن بعدی (NTP) و مدل زبانی نقاب‌دار (MLM) انجام می‌شود. در هر دو مدل، هوش مصنوعی باید بهترین کلمه را برای پر‌کردن جای خالی انتخاب کند؛ اما محل جای خالی متفاوت است.

محدودیت‌های آموزش با LSTM

آموزش با LSTM محدودیت‌هایی نیز به‌همراه دارد. به این مثال توجه کنید:

علی … درس خوندنه (مشتاق / مخالف)

اگر از شما خواسته شود تا جای خالی را با کلمه صحیح پر کنید، در ابتدا باید درباره «علی» بدانید؛ زیرا علایق افراد متفاوت است. پس اگر بدانید که علی به درس و تحصیل علاقه‌مند است، «مشتاق» را انتخاب می‌کنید.

بااین‌حال، مدل نمی‌تواند ارزش‌گذاری کلمات را به‌درستی و به‌دقت انجام دهد؛ بنابراین، ممکن است در این عبارت اهمیت «درس‌خواندن» را بیشتر از «علی» بداند. ازاین‌رو، با‌توجه‌به اینکه بسیاری از افراد از درس‌خواندن و انجام تکالیف درسی بدشان می‌آید، مدل کلمه «مخالف» را انتخاب می‌کند.

همچنین، در این مدل داده‌های ورودی به‌جای مجموعه‌ای کامل، به‌صورت جداگانه و متوالی پردازش می‌شوند؛ بنابراین، در LSTM درک و پردازش پیچیدگی روابط بین کلمات و معانی محدود است.

مدل ترنسفورمر (Transformer)

در پاسخ به این مسئله، در سال ۲۰۱۷ تیمی از Google Brain مدلی به نام مدل انتقالی یا ترنسفورمر (Transformer) را معرفی کرد. برخلاف LSTM، ترنسفورمر‌ها می‌توانند تمام داده‌های ورودی را هم‌زمان پردازش کنند.

ترنسفورمر‌ها از مکانیسمی به‌نام خودتوجه (Self-Attention) نیز استفاده می‌کنند. مکانیسم خودتوجه ارتباط اجزای مجموعه‌ای از داده‌ها را می‌سنجد تا بتواند برداشت دقیق‌تری از کل مجموعه کسب کند.

بنابراین، به‌کمک این مکانیسم ترنسفورمر‌ها می‌توانند اجزای مختلف جمله و عبارت را دقیق‌تر بررسی و ارتباط آن‌ها را درک کنند. این ویژگی باعث می‌شود تا ترنسفورمر‌ها مجموعه داده‌ها را بهتر درک و پردازش داده‌های بسیار بزرگ‌تر را امکان‌پذیر کنند.

مکانیسم خودتوجه در GPT

شرکت اوپن‌ای‌آی (OpenAI) چت‌جی‌پی‌تی را توسعه داده است. چت‌جی‌پی‌تی، تنها مدل هوش مصنوعی و چت‌بات این شرکت نیست؛ زیرا از سال ۲۰۱۸، این شرکت نمونه‌هایی اولیه به نام‌ مدل‌های ترنسفورمر تولیدگر از‌پیش‌آموزش‌دیده (GPT) را توسعه داده است.

اولین مدل GPT-1 نام گرفت که نسخه‌های بهبود‌یافته بعدی آن در سال‌های ۲۰۱۹ و ۲۰۲۰ با نام‌های GPT-2 و GPT-3 عرضه شدند. اخیراً و در سال ۲۰۲۲ نیز، رونمایی جدیدترین مدل‌های آن، یعنی InstructGPT و ChatGPT را شاهد بوده‌ایم.

در‌حالی‌که تغییر از GPT-1 به GPT-2 با جهش تکنولوژی چندانی همراه نبود، GPT-3 تغییرات بزرگی به خود دید. پیشرفت‌های حاصل‌شده در کارایی محاسباتی به GPT-3 کمک کرد تا روی داده‌های بسیار بیشتری از GPT-2 آموزش ببیند و پایگاه دانش متنوع‌تری داشته باشد. بنابراین، در نسخه سوم GPT توانست وظایف گوناگونی را انجام دهد.

تمام مدل‌های GPT از معماری ترنسفورمر استفاده می‌کنند و یک انکودر (رمزگذار) برای پردازش توالی داده‌های ورودی و یک دیکودر (رمزگشا) برای تولید داده‌های دنباله خروجی دارند.

هر دو انکودر و دیکودر از مکانیسم خودتوجه چندسر (Multi-Head Self-Attention) بهره می‌برند که به مدل امکان می‌دهد تا بخش‌های مختلف دنباله را بررسی و تحلیل کند. برای این کار، مکانیسم خودتوجه توکن‌ها (تکه‌هایی از متن که می‌تواند شامل جمله یا کلمه یا گروه‌ دیگری از متن باشد) را به وکتور‌هایی (Vector) تبدیل می‌کند که میزان اهمیت توکن را در عبارت نشان می‌دهند.

انکودر نیز از مدل زبانی نقاب‌دار (Masked Language Modeling) برای درک رابطه بین کلمات و ارائه پاسخ‌های بهتر استفاده می‌کند. علاوه‌بر این ویژگی‌ها، مکانیسم خودتوجه چندسر استفاده‌شده در GPT به‌جای بررسی یک‌باره اهمیت کلمات، چندین‌بار فرایند آن را تکرار می‌کند که باعث می‌شود تا مدل بتواند مفاهیم فرعی و روابط پیچیده‌تر داده‌های ورودی را درک کند.

مشکلات و محدودیت‌های GPT-3

اگرچه GPT-3 پیشرفت‌های چشمگیری در پردازش زبان طبیعی (زبان‌های کاربردی برای بشر) به‌همراه داشت، در این نسخه پیشرفته نیز مشکلات و محدودیت‌هایی دیده می‌شد. برای نمونه، GPT-3 در درک صحیح و دقیق دستورالعمل‌های کاربران مشکل دارد و نمی‌تواند آن‌طورکه باید و شاید، به آنان کمک کند. علاوه‌براین، GPT-3 اطلاعات و داده‌های نادرست یا ناموجود را منتشر می‌کند.

نکته مهم دیگر اینکه مدل یادشده نمی‌تواند درباره عملکرد خود توضیحات مناسبی ارائه دهد و کاربران نمی‌دانند که GPT-3 چگونه نتیجه‌‌گیری و تصمیم‌گیری کرده است. نسخه سوم فیلتر‌های مناسبی نیز ندارد و ممکن است که محتوای توهین‌آمیز یا آسیب‌زا منتشر کند. این‌ها مشکلاتی است که اوپن‌‌ای‌آی تلاش کرد تا در نسخه‌های بعدی آن‌ها را رفع کند.

چت‌جی‌پی‌تی و مراحل شکل‌گیری آن

به‌منظور رفع مشکلات GPT-3 و بهبود عملکرد کلی LLM‌های استاندارد، اوپن‌‌ای‌آی مدل زبان InstructGPT را معرفی کرد که در‌ادامه، به ChatGPT تبدیل شد.

InstructGPT درمقایسه‌با مدل‌های گذشته OpenAI بهبود‌های بزرگی به خود دید و رویکرد جدیدش برای استفاده از بازخورد‌های انسانی در فرایند آموزش، خروجی‌های بسیار بهتری به‌همراه داشت. این نحوه آموزش مدل یادگیری تقویتی از بازخورد انسانی (RLHF) نام دارد که نقش مهمی در درک اهداف و انتظارات انسان‌ها به‌هنگام پاسخ به پرسش‌ها ایفا می‌کند.

ایجاد این مدل آموزشی و توسعه چت‌جی‌پی‌تی به‌دست اوپن‌‌ای‌آی شامل سه مرحله کلی می‌شود که در‌ادامه، آن‌ها را توضیح می‌دهیم.

مرحله ۱: مدل تنظیم دقیق نظارت شده (SFT)

در مراحل اولیه توسعه، برای ارتقا و بهبود GPT-3 اوپن‌‌ای‌آی چهل پیمان‌کار استخدام کرد تا مجموعه داده آموزشی نظارت‌شده را برای یادگیری مدل ایجاد کنند. این داده‌های ورودی و درخواست‌ها از کاربران واقعی و اطلاعات ثبت‌شده در OpenAI جمع‌آوری شدند. با این مجموعه داده، درادامه GPT-3.5 ایجاد شد که به آن مدل SFT نیز گفته می‌شود.

تیم اوپن‌ای‌آی تلاش کرد تا تنوع در مجموعه داده‌ها را به‌حداکثر برساند و تمام داده‌های حاوی اطلاعات شناسایی شخصی نیز از این داده‌ها حذف شدند. پس از جمع‌آوری درخواست و داده‌ها، OpenAI از مشارکت‌کنندگان خواست تا نحوه درخواست و پرسش کاربران را شناسایی و دسته‌بندی کنند. در نتیجه این بررسی، سه راه اصلی درخواست اطلاعات مشخص شد:

درخواست‌هایی که مستقیم پرسیده می‌شوند؛ مثلاً «به من درباره موضوعی توضیح بده».
درخواست‌های فیوشات که پیچیده‌تر هستند؛ مثلاً «براساس دو نمونه داستانی که فرستادم، داستانی جدید با همان موضوع بنویس».
درخواست‌های ادامه‌دار که باید موضوعی ادامه داده شود؛ مثلاً «با‌توجه‌به مقدمه، این داستان را تمام کن».

درنهایت، جمع‌آوری دستورهای ثبت‌شده در دیتابیس OpenAI و دست‌نویس‌شده مشارکت‌کنندگان به ایجاد ۱۳هزار نمونه ورودی و خروجی برای استفاده در مدل منجر شد.

توضیح مراحل جمع آوری داده و ایجاد دستورالعمل

مرحله ۲: مدل پاداش

پس از آموزش‌دادن SFT در مرحله اول، مدل این توانایی را پیدا کرد تا پاسخ‌های مناسب‌تری به درخواست‌های کاربران دهد. بااین‌حال، این مدل همچنان ناقص بود و باید بهبود پیدا می‌کرد؛ بهبودی که به‌کمک مدل پاداش و با یادگیری تقویتی میسر شد.

در این روش، مدل تلاش می‌کند تا بهترین نتیجه را در موقعیت‌های مختلف پیدا کند و بهترین عملکرد را از خود نشان دهد. در یادگیری تقویتی، مدل در ازای انتخاب‌ها و عملکرد مناسب پاداش دریافت می‌کند و درصورت داشتن انتخاب و عملکرد نامناسب، جریمه می‌شود. در این مرحله و در اثر پاداش‌ها و جریمه‌ها، SFT یاد گرفت تا بهترین خروجی‌ها را براساس داده‌های ورودی ایجاد کند.

برای استفاده از یادگیری تقویتی، به مدل پاداش نیاز داریم تا مشخص شود که کدام خروجی‌ها پاداش دارد و چه جواب‌هایی مشمول جریمه می‌شود. برای آموزش مدل پاداش، اوپن‌ای‌آی ۴ تا ۹ خروجی مدل SFT را برای هر داده ورودی در‌اختیار مشارکت‌کنندگان قرار داد و از آنان خواست تا این خروجی‌ها را از بهترین به بدترین رتبه‌بندی کنند. با این امتیاز‌بندی، راهی ایجاد شد تا عملکرد SFT سنجیده شود و به‌طور‌مداوم بهبود پیدا کند.

توضیح مراحل مقایسه داده ها و آموزش مدل پاداش

مرحله ۳: مدل یادگیری تقویتی

پس از ایجاد مدل پاداش، در مرحله سوم به مدل ورودی‌های تصادفی داده شد تا بکوشد خروجی‌هایی با بیشترین پاداش و امتیاز ایجاد کند. براساس مدل پاداش توسعه‌یافته در مرحله دوم، درخواست‌ها و پاداش‌ها بررسی و رتبه‌بندی می‌شوند و سپس نتایج به‌دست‌آمده به مدل باز‌ می‌گردد تا عملکرد بهبود پیدا کند.

روشی که از آن در به‌روزرسانی عملکرد مدل هنگام تولید هر پاسخ استفاده شد، بهینه‌سازی سیاست پروگزیمال (PPO) نام دارد که در سال ۲۰۱۷، جان شولمن (John Schulman)، یکی از بنیان‌گذاران OpenAI و تیمش آن را توسعه دادند.

PPO جریمه کولبک‌لیبر (KL) نیز دارد که در این مدل بسیار مهم است. در یادگیری تقویتی، مدل گاهی اوقات می‌تواند یاد بگیرد که سیستم پاداشش را برای دستیابی به نتیجه دلخواه دست‌کاری کند. این امر مدل را به ایجاد برخی از الگو‌هایی سوق می‌دهد که با وجود امتیاز بیشتر، خروجی مناسبی ندارند.

برای رفع این مشکل، از جریمه KL استفاده می‌شود. این ویژگی باعث می‌شود تا برای ایجاد خروجی فقط امتیاز بیشتر ملاک نباشد و با خروجی ایجاد‌شده SFT در مرحله اول، تفاوت زیادی وجود نداشته باشد.

توضیح مراحل نظارت بر مدل پاداش و بهبود یادگیری تقویتی

ارزیابی مدل

پس از تکمیل مراحل اصلی ایجاد و تمرین مدل، در این مرحله مجموعه‌ای از آزمایش‌ها در طول آموزش انجام می‌شود تا مشخص شود آیا مدل جدید عملکرد بهتری از مدل قبلی دارد یا خیر. این ارزیابی شامل سه بخش است.

در ابتدا عملکرد کلی و توانایی مدل برای بررسی و پیروی از دستورالعمل‌های کاربر بررسی می‌شود. با‌توجه‌به نتایج آزمایش‌ها، مشارکت‌کنندگان خروجی‌های InstructGPT را تقریباً در ۸۵درصد مواقع به GPT-3 ترجیح دادند.

مدل جدید توانایی بیشتری در ارائه اطلاعات داشت و به‌کمک PPO، اطلاعات صحیح‌تر و دقیق‌تری در خروجی‌ها دیده شد. درنهایت، توانایی InstructGPT برای انتشار یا جلوگیری از محتوای نامناسب و تحقیرآمیز و آسیب‌زا نیز بررسی شد.

بررسی‌ها نشان داد که مدل جدید می‌تواند محتوای نامناسب را به‌شدت کاهش دهد. جالب است بدانید در زمانی‌که از مدل خواسته شد تا از عمد پاسخ‌های نامناسب منتشر کند، خروجی‌ها بسیار توهین‌آمیز‌تر از مدل GPT-3 بودند.

با پایان مراحل ارزیابی، InstructGPT پیشرفت‌های بسیار خوبی ثبت کرد و عملکردش را در چت‌بات محبوب ChatGPT نشان داد. در‌صورتی‌که درباره نحوه توسعه و عملکرد چت‌جی‌پی‌تی سؤالات بیشتری دارید، می‌توانید مقاله رسمی منتشر‌شده توسط اوپن‌ای‌آی را مطالعه کنید.

برچسب ها

هوش مصنوعی

۴۵

درود بر شما! خوشحالیم این مطلب برای شما مفید بوده‌، لطفا برای حمایت از ما آن را با دوستان علاقمند به تکنولوژی و ارز‌های دیجیتال به اشتراک بگذارید.

متاسفیم که این مطلب نتوانسته نظر شما را جلب کند. لطفا با نظرات و پیشنهادات‌ خود، ما را در بهبود همیشگی سایت یاری دهید.

ثبت دیدگاه

لینک مطلب: arz.digital/1684603

نظرات کاربران

۲۰۰/۰

توجه

لطفا در صورت مشاهده دیدگاه‌های حاوی توهین و فحاشی یا خلاف عرف جامعه با گزارش سریع آن‌ها، به ما در حفظ سلامت بستر ارتباطی کاربران کمک کنید.

شهروند

۳ سال قبل

مثلا الان توام استیون هاوکینگی که با هوش مصنوعی مخالفی ، بابا انگشت شمار

پدرام جوان

من همیشه میخواستم بدونم چه فرایندی طی شده که چنین پاسخ های دقیقی میده

الان متوجه شدم ابتدا مدل با حجم بسیار زیادی سوال جواب درست توسط نیروی انسانی اموزش داده
بعد از اموزش اولیه از مدل سوال میشده اگر پاسخ درست میداده بهش امتیاز مثبت داده میشده و اگر پاسخ اشتباه میداده امتیاز منفی توسط کاربران بهش داده میشده و اینقدر این فرایند تکرار شده تا به سطح خوبی از توانای در پاسخ صحیح دادن رسیده

تشکر مقاله خیلی خوب بود