شما اینجا هستید
اعتراف کنیم که ضرب ماتریس ها برایمان مفید است
همه ما از ماتریس ها خاطرات وحشتناکی داریم. چه ساعتهایی که وقتمان را در مدرسه در حالی که دندان هایمان را روی هم فشار می دادیم به ضرب ماتریس می پرداختیم. بدون اینکه بفهمیم چه کار داریم انجام میدهیم و هدف خاصی داشته باشیم.
کمی قبل ما محاسبات دو لایه از نورون را با تنها دو گره در هر کدام از آنها به صورت دستی انجام دادیم. همان حد کافی بود. اما تصور کنید که همین کار را با شبکه هایی از ۵ لایه که در هر کدام از آنها صد ها گره وجود دارد بخواهیم انجام دهیم. نوشتن تمام این محاسبات کار سنگینی است… ضرب مقادیر تمام سیگنال ها در وزن ها و جمع زدن آنها و اعمال تابع فعال ساز سیگموئید روی آنها برای هر گره در هر لایه… ای خدا!
ماتریس چطور میتواند کمک کننده باشد؟ خوب از دو روش به ما کمک می کند. اول به ما اجازه میدهد تمام این محاسبات را به شکل کوتاه تری بنویسیم. که خیلی برای ما انسانها خوب است. به خاطر اینکه کار زیاد ما را خسته میکند و احتمال خطا را افزایش می دهد. نفع دومی که دارد این است که اکثر زبانهای برنامه نویسی کار با ماتریس ها را میفهمند. همچنین به خاطر اینکه این کار تکرار پذیر است میتوانند آنها را خیلی سریع و به صورت بهینه انجام دهند.
به صورت خلاصه، ماتریس ها به ما اجازه میدهند کاری که قرار است انجام شود را به صورت تمیزی نمایش دهیم و کامپیوتر ها میتوانند محاسبات را با استفاده از آن به صورت سریع و بهینه انجام دهند.
حالا میدانیم که چرا سراغ ماتریس ها رفتیم، با اینکه تجربه دردناکی برایمان از مدرسه باقیمانده اما بیایید باز هم یک تلاش دیگر داشته باشیم.
یک ماتریس فقط یک جدول است، یک شبکه مستطیل شکل از اعداد. فقط همین. هیچ چیز پیچیدهتری درباره ماتریس ها وجود ندارد.
اگر شما تا حالا از برنامههای صفحه گسترده مثل اکسل استفاده کرده باشید، پس با کار کردن با اعدادی که در لیست مرتب شدهاند راحت هستید. بعضی آن را جدول می نامند. میتوانیم آن را هم یک ماتریس بدانیم. در زیر یک صفحه گسترده با جدولی از اعداد آمده است.
این همه آن چیزی است که یک ماتریس است. یک جدول یا شبکه ای از اعداد. مثل ماتریس نمونه زیر با اندازه «۲ در ۳».
به عنوان قرارداد ما اول تعداد ردیف ها را میگوییم بعد تعداد ستونها را. برای همین هم این یک ماتریس «۳ در ۲» نیست. این یک ماتریس «۲ در ۳» است. همچنین به هر کدام از عناصر ماتریس یک دَرایه میگویند. برای مشخص کردن هر درایه باید عدد ردیف و ستون آن را بصورت پاییننویس حرف کوچک نام ماتریس نوشت. برای نمونه اگر نام ماتریسی A باشد، درایهای که در ردیف اول و ستون دوم قرار دارد نوشته میشود a۱۲ و خوانده میشود "درایهی یک دو".
همچنین بعضی افراد از یک کروشه ها برای دور ماتریس ها استفاده می کنند، در حقیقت این فضا ها مجبور نیستند فقط با اعداد پر شوند. میتوانیم یک نام به جای آن بگذاریم که نشان میدهد قرار است چه چیزی در این قسمت قرار بگیرد. اما هنوز مقدار واقعی آن مشخص نیست. بنابراین در ماتریس زیر ، هر دَرایه یا عنصر یک متغیر است که به معنای آن است که میتواند یک مقدار عددی بگیرد. اما هنوز مقدار آن مشخص نیست.
حالا، در اینجا برای استفاده از ماتریس ها باید بدانیم که چگونه میتوانیم آنها را ضرب کنیم. ممکن است از مدرسه چیزهایی به خاطر داشته باشید. اگر نه ما دوباره نگاهی به آن خواهیم انداخت.
در اینجا یک مثال از دو ماتریس ساده که در هم ضرب شدهاند آمده است.
همانطور که میبینید ما فقط عناصر با موقعیت یکسان را در هم ضرب نکردیم.
گوشه بالا سمت چپ فقط با مقدار ۵*۱ نوشته نشده است، و گوشه پایین راست فقط ۸*۴ نیست.
به جای آن ماتریس ها قانون دیگری برای ضرب دارند. ممکن است با نگاه به مثال بالا این قانون را کشف کرده باشید. اگر نه، در تصویر زیر به جاهایی که رنگ شدهاند نگاه کنید. ببینید که چطور برای عنصر بالا سمت چپ کار انجام شده است.
همانطور که میبینید برای محاسبه عنصر بالا سمت چپ ما روی ردیف بالا از ماتریس اول و ستون اول ماتریس دوم کار کردیم.
خوب بیایید ببینیم. با نگاه به ردیف اول سمت چپ از ماتریس اول ما مقدار ۱ را میبینیم. همینطور با نگاه به ستون اول از ماتریس دوم ما مقدار ۵ را میبینیم. پس ۱ را در ۵ ضرب میکنیم که خود ۵ میشود. نتیجه را نگه میداریم. ادامه میدهیم و عنصر دوم از ردیف اول ماتریس اول را با عنصر دوم از ستون اول ماتریس دوم را ضرب میکنیم یعنی ۲ و ۷ که میشود ۱۴ و نتیجه را نگه میداریم. حالا که به پایان ردیف و ستون رسیدیم.این نتایج را با هم جمع می کنیم. ۵+۱۴ برابر ۱۹. این برای محاسبه عنصر بالا سمت چپ از ماتریس نتیجه بود.
خیلی حرف زدیم. بهتر این است که در عمل ببینیم.در زیر برای محاسبه عنصر پایین سمت راست کار انجام شده نشان داده است.
شما میتوانید دوباره ردیف و ستونهای مرتبط با عنصری را که میخواهیم محاسبه کنیم را ببینید.( ردیف دوم از از ماتریس اول و ستون دوم از ماتریس دوم) که برابر با (3*6) و (4*8) میشود و در نهایت 18 + 32 = 50.
برای تکمیل موضوع ، برای عنصر پایین چپ (3*5) + (4*7) = 15 + 28 = 43 و برای عنصر بالا راست (1*6) + (2*8) = 6 + 16 = 22.
ادامه قانون محاسبه را با متغیر ها به جای اعداد آوردیم.
این هم یک روش دیگر برای توضیح شیوه ضرب ماتریس ها است. با استفاده از حروف، که میتوان جای آن هر عددی را گذاشت. این تصویر به معنی یک رویکرد عمومی است. یعنی میتوان آن را برای هر ماتریسی به هر اندازهای اعمال کرد.
وقتی ما میگوییم این برای ماتریس ها در هر اندازهای کار می کند. یک محدودیت جدی نیز وجود دارد. نمیشود هر دو ماتریسی را در هم ضرب کرد. باید با هم جور باشند. شاید این موضوع را موقعی که داشتید عناصر هر ردیف از ماتریس اول را در ستون مربوطه در ماتریس دوم ضرب میکردید متوجه شده باشید.
اگر تعداد عناصر ردیف ماتریس اول برابر با تعداد عناصر ستون ماتریس دوم نباشد، این روش هم کار نمی کند. خوب پس نمیشود که یک ماتریس ۲*۲ را در یک ماتریس ۵*۵ ضرب کرد. باور ندارید امتحان کنید. میبینید که کار نمی کند. خلاصه در ضرب ماتریس ها تعداد ستونها در ماتریس اول باید برابر تعداد ردیف ها در ماتریس دوم باشد
در بعضی راهنما ها، شما این نوع ضرب ماتریس ها را با نام ضرب نقطهای(dot product) یا ضرب داخلی(inner product) می بینید. انواع مختلف دیگری از ضرب ماتریس ها وجود دارند مثل ضرب خارجی(cross product). اما آن چیزی که ما اینجا لازم داریم ضرب نقطهای است.
چه شد که مثل یک خرگوش در تله ضرب ماتریس ها و محاسبات بی مزه آن افتادیم؟ یک دلیل خوب وجود دارد. یک طعمه خوش مزه اینجا آویزان بود.
ببینید چه میشود اگر ما حروف را با کلماتی که در شبکههای عصبی برای ما بامعنا هستند جایگزین کنیم. ماتریس دوم یک ماتریس دو در یک است، اما روش ضرب یکسان است. برای ورودی ها input و برای وزن ها w نوشتیم
اجی مجی لا ترجی
ماتریس اول حاوی وزن های بین گرهها در دو لایه است. ماتریس دوم سیگنال های ورودی لایه اول است. نتیجه ضرب بین دو ماتریس ترکیب ضرب سیگنال های ورودی تعدیل شده در گرهها در لایه دوم است.
خوب نگاه کنید. شما آن را میبینید. در اولین گره اولین ورودی با نام first_1 آمده که با وزن w1,1 تعدیل شده است و با ورودی دو که با نام input_2 آمده و در وزن w2,1 تعدیل شده است. در نهایت با هم جمع شده اند. خوب اینهمان چیزی بود که ما در برای محاسبه x انجام میدادیم . قبل از اینکه تابع فعال ساز سیگموئید را روی آن اعمال کنیم.
تصویر زیر این موضوع را واضح تر نشان می دهد.
خیلی به کارمان می آید.
چرا؟ چون تمام آن محاسباتی که قبل تر برای ترکیب وزن ها و سیگنال ها و جمع آنها برای هر گره در لایه دوم را انجام دادیم را میتوانیم به صورت یک ضرب ماتریس نمایش دهیم. بعد هم میشود به راحتی این عبارت را برای آن نوشت:
X=W·I
به همین راحتی، در اینجا W ماتریس وزن هاست، I ماتریس ورودی هاست و X یعنی نتیجه ضرب نقطهای این دو میشود: ماتریس مقادیر تعدیل شده سیگنال های ورودی در لایه دوم.
حالا دیگر مهم نیست که چه تعداد گره در هر لایه داریم. هرچقدر تعداد گرهها زیاد باشد، فقط ماتریس بزرگتر می شود. ما نمیخواهد چیزی را طولانیتر و طولانیتر بنویسیم.فقط کافی است بنویسیم W.I ، حالا تعداد عنصار میخواد ۲ تا باشد یا ۲۰۰ تا.
حالا اگر زبان برنامه نویسی ما علایم ماتریسی را درک کند، تمام کارهای سخت محاسبات را با نوشتن X = W.I برای ما انجام می دهد. بدون اینکه بخواهیم برای هر گره دستور العمل جدایی برای آن بنویسیم.
خیلی معرکه است. واقعاً به سختی فهمیدن ضرب ماتریس ها می ارزید. حالا ابزار قدرتمندی داریم که میتوانیم روی شبکههای عصبی خودمان اعمال کنیم بدون اینکه برای ما زحمت محاسبه ایجاد کند.
خوب پس تابع فعال ساز چی؟ این کار راحت است و نیازی به ضرب ماتریس ها نیست. تنها کاری که باید انجام دهیم این است که تابع فعال ساز سیگموئید را روی هر عنصر ماتریس X اعمال کنیم.
زیادی ساده به نظر می رسد.ولی کار درستی هم هست. چرا که ما سیگنال های ورودی به گرههای مختلف را با هم ترکیب نکردیم. سیگنال های ورودی به یک گره را در وزن های آنها ضرب کردیم و با هم جمع کردیم. در نهایت نتیجه را برای هر گره در جای خودش در ماتریس X قرار دادیم. همانطور که گفتیم تابع فعال ساز یک آستانه و دیوار برای مقادیر ورودی است. مانند آنچه در نورون های زیستی می بینیم. اگر مقادیر بزرگتر از دیوار باشند میتوانند از روی آن رد شوند. بنابراین خروجی نهایی به این صورت میباشند.
O=sigmoid(X)
حرف O که به صورت پررنگ نوشته شده خودش یک ماتریس است. که حاوی تمامی مقادیر خروجی در لایه آخر شبکه عصبی است. معادله X = W·I بر روی یک لایه و لایه بعدی آن اعمال می شود. اگر ما ۳ لایه داشته باشیم. برای مثال ما به سادگی ضرب ماتریس ها را دوباره و دوباره انجام می دهیم. به این شکل این کار را میکنیم که خروجی لایه دوم به عنوان ورودی لایه سوم محاسبه میشود و البته وزن های تعدیل مرتبط در هر ارتباط در این لایه نیز روی آن اعمال می شود. تئوری بس است – بیایید ببینم در یک مثال واقعی چطوری کار می کند. اما این بار از یک شبکه عصبی بزرگتر با سه لایه که در هر لایه سه گره وجود دارد استفاده می کنیم.
نکات کلیدی:
محاسبات خیلی زیادی که برای ارسال یک سیگنال در شبکه عصبی لازم است را میتوان به شکل ضرب ماتریس ها نشان داد.
نمایش آن به صورت ضرب ماتریس ها بدون توجه به اندازه آن برای ما خیلی راحتتر است.
از آن مهمتر ، بعضی زبانهای برنامه نویسی محاسبات ماتریس ها را درک میکنند و میتوانند آن را انجام دهند. چون کارهای مورد نیاز خیلی تکراری و شبیه به هم هستند. برای همین هم میتوانند خیلی سریع و به صورت بهینه آن را انجام دهند.
دیدگاه جدیدی بگذارید