السلام عليكم ..
كما مكتوب في العنوان فأنا ادرس حاليا مجال الذكاء الاصطناعي ولكني توقفت عند target network قرأت اكثر من مقال يتكلم عن هذا الموضوع مثل
ولكني لما استطع ان افهم بالزبط هذا الجزء في المقال
"This second network is used to generate the target-Q values that will be used to compute the loss for every action during training. "
اذا كان الtarget يتم الحصول عليه من Q فكيف يكون ثابت ؟؟
فعمليه الTraining بتحدث اكثر من مره وفي كل مره يتم تغيير قيمة الQ ,, فكيف يختار الAgent قيمة الTarget الي هيثبتها ؟؟
- كيف هيتم تطبيق عمليه المقارنة ؟
يعني لو افترضنا ان target = 5 , Q=3 حاليا فبعد اجراء تمرين جديد تغيرت مثلا قيمة Q =2 فهل يعتبر دا جيد ام سئ ؟؟
بمعني هل الهدف من الTraining ان قيمة الQ تقل او تزيد عن الTarget ؟