شما اینجا هستید
پس انتشار خطا به تمام گرههای مرتبط در لایههای قبل
تصویر زیر یک شبکه عصبی با سه لایه را نشان می دهد. لایه ورودی(input layer)، لایه پنهان(hidden layer) و لایه خروجی(output layer).
پیشتر ما از لایه خروجی از سمت راست شروع کردیم. ما دیدیم که از خطا های لایه خروجی استفاده کردیم برای اینکه وزن های اتصال های ورودی به هر گره در لایه آخر را بهبود دهیم.
ما خطا ی مقادیر خروجی را به نام eoutput نامگذاری کردیم. همینطور وزن های اتصال های بین لایه پنهان (hidden) و لایه خروجی(output) را با توجه به حرف اول اسم آن who نام گذاری کردیم. ما خطای مناسب با هر اتصال را با تقسیم خطا به میزان وزن هر اتصال نسبت دادیم.
با نمایش گرافیکی که در بالا داریم میتوانیم ببینم وقتی لایههای بیشتری داریم باید چه کار کنیم. ما به آسانی خطای آنها را برمیداریم و آن را روی خروجی لایه پنهان که آن را با ehidden نامگذاری کردهایم بر میداریم و با تقسیم آن بر روی اتصال های ورودی به هر گره در لایه پنهان ، یعنی اتصال هایی که از لایه ورودی به لایه پنهان آمدهاند به هر اتصال مقدار مناسب را نسبت می دهیم.
تصویر زیر این موضوع را نشان می دهد.
حتی اگر لایههای بیشتری هم داشته باشیم. به توجه به این ایده ما به صورت متناوب از لایه خروجی به عقب روی هر لایه همین کار را تکرار می کنیم. این روش کار و نحوه انجام آن نشان میدهد که چرا به این روش «پخش به عقب» یا «پس انتشار» یا به انگلیسی backpropagation (بک پروپَگیشن) می گویند.
اگر ما از خطای لایه خروجی بر وزن های اتصال های ورودی استفاده کردیم دلیل آن این بود که مقدار هدف در دادههای آموزش به ما داده شده بود. یعنی در دادههای آموزش داریم که مقدار گره اول لایه خروجی میبایست چه مقدار باشد هنگامی که داده اول از مجموعه دادههای آموزش را وارد شبکه می کنیم. بنابراین آن را توانستیم برداریم و برای اصلاح ورودی های اتصال های گره یک لایه خروجی استفاده کنیم. آیا در مورد لایه میانی هم اینو موضوع صحیح است. آیا در دادههای آموزش مقادیر هدف برای گرههای میانی شبکه هم آمده اس؟ این سؤال خوبی است. در دادههای آموزش تنها ورودی و خروجی شبکه مشخص است. هیچ حرفی از مقادیر گرههای میانی به میان نیامده است. به عنوان نمونه در تشخصی دست خط ما ده گره خروجی داریم که نشان دهنده اعداد صفر تا ۹ هستند. اگر تصویر عدد صفر را وارد کنیم گره اول لایه خروجی میبایست مقداری نزدیک به یک را برگرداند و بقیه گرههای خروجی مقادیر کمتری را بر میگردانند. اما صحبتی از مقادیر گرههای لایههای میانی نشده است. پس چطور میتوانیم خطای گرههای میانی را داشته باشیم تا با آن وزن های اتصال های گرههای میانی را اصلاح کنیم در حالی که مقدار هدف مشخصی برای آن تعریف نشده است.
ما مقدار هدف مشخصی برای خروجی هر گره در لایههای میانی نداریم. یک راه حل این است که اتصال های منشعب یک گره در لایه پنهان به گرههای لایه خروجی را برداریم و از خطای هر گره متصل خروجی مقدار مناسبی را به گره پنهان نسبت دهیم. یعنی ترکیبی از خطا های گرههای خروجی را به عنوان خطای گره پنهان در نظر بگیریم. تصویر زیر این ایده را شرح می دهد.
به وضوح دیده میشود که چه اتفاقی افتاد. ولی برای اطمینان بیایید یک بار دیگر موضوع را برای خودمان بنویسیم. ما یک مقدار خطا برای گرههای لایه پنهان نیاز داریم. آن را برای این نیاز داریم که بتوانیم وزن های اتصال های گرهها در این لایه را بروز کنیم. ما این مقدار را ehidden می نامیم. اما ما یک پاسخ واضح نداریم. نمیدانیم مقدار خروجی در این لایه چقدر باید باشد تا با محاسبه تفاوت مقادر واقعی در گره در لایه پنهان با مقدار واقعی مقدار خطا را محاسبه کنیم. دلیل آن این است که در دادههای آموزش ما تنها مقادیر برای گرههای لایههای خروجی آمده است.
ما میتوانیم خطای گرههای خروجی را بر اساس اتصال های مرتبط به گرهها در لایه پنهان نسبت دهیم. بنابراین خطا در گره اول لایه پنهان مجموع خطا های گرههایی متصل شده به آن در لایه خروجی است.
در تصویر بالا، ما یک کسر از خطای خروجی با نام eoutput,1 در اتصال با وزن w11 داریم. همچنین یک کسر از خطای eoutput,2 از گره خروجی دوم در اتصال با وزن w12 داریم.
تصویر بالا به ما کمک کرد که یک ایده ذهنی را عمل ببینیم. تصویر زیر انتشار به عقب خطا ها در یک شبکه سه لایه با مقادیری واقعی را نشان میدهد.
بیایید انتشار یک خطا به عقب را دنبال کنیم . میتوانید ببینید که خطا در گره دوم لایه خروجی 0.5 است.این مقدار خطا به تناسب بین دو اتصال آمده به این گره بر اساس وزن های آنها تقسیم می شود. وزن های اتصال ها برابر 1.0 و 5.0 است بنابراین میزان خطا برای اولی 0.1 و دومی 0.4 است. حدس زدهاید که این مقادیر خطا با مقادیر سایر خطا هایی که از طریق اتصال های دیگر گره به آن رسیده است جمع زده می شود.
تصویر بعدی نشان میدهد که ایده به کار رفته برای انتشار رو به عقب خطا ها بین لایه ها تا اولین لایه ادامه پیدا می کند.
نکتههای کلیدی:
شبکههای عصبی با بهبود وزن های اتصال ها عمل یادگیری را انجام می دهند. مقدار خطا که از تفاوت دادههای آموزشی و خروجی های واقعی شبکه به دست میآید به عنوان راهنمای اصلاح وزن ها استفاده می شود.
مقدار خطا در خروجی به آسانی از تفاوت بین مقدار مورد انتظار و خروجی واقعی محاسبه می شود.
هرچند خطای مرتبط با گرههای داخلی واضح نیست. یک راه رایج برای تقسیم خطا در لایههای خروجی این است که بر اساس انداره وزن های اتصال به یک گره خروجی مقدار خطا را بین گرههای داخلی شبکه تقسیم کنیم.
دیدگاه جدیدی بگذارید