سفارش تبلیغ
صبا ویژن

تحقیقات ضعف اصلی سیستمهای مدرن بینایی رایانه را مشخص می کند

الگوریتم های دید رایانه در دهه گذشته بسیار طولانی شده است. نشان داده شده است که آنها در انجام کارهایی مانند طبقه بندی نژادهای سگ یا گربه از افراد خوب و یا بهتر هستند و توانایی قابل توجهی در شناسایی چهره های خاص از دریای میلیون ها نفر دارند.

 

 

اما تحقیقات دانشمندان دانشگاه براون نشان می دهد که رایانه ها در کلاس هایی از وظایف که حتی بچه های کوچک نیز مشکلی با آنها ندارند ، به طرز بدبختی ناکام می شوند: تعیین اینکه آیا دو شیء در یک تصویر یکسان یا متفاوت هستند. در مقاله ای که هفته گذشته در نشست سالانه انجمن علوم شناختی ارائه شد ، تیم براون روشن می کند که چرا رایانه ها در این نوع کارها چندان بد نیستند و راه هایی را به سمت سیستم های دید هوشمند رایانه تر نشان می دهند .

 

توماس سر ، استادیار علوم شناختی ، زبانی و روانشناختی در براون و نویسنده ارشد مقاله می گوید: "هیجان زیادی در مورد آنچه که دید رایانه ای توانسته است به دست آورد ، وجود دارد و من بسیاری از آن را به اشتراک می گذارم." "اما ما فکر می کنیم که با تلاش برای درک محدودیت های سیستمهای دید در حال حاضر رایانه همانطور که در اینجا انجام داده ایم ، می توانیم به جای ساده تر کردن سیستمهایی که از قبل در اختیار داریم ، به سمت سیستمهای جدید بسیار پیشرفته حرکت کنیم."

 

برای مطالعه ، Serre و همکارانش از الگوریتم های پیشرفته ترین دید در کامپیوتر استفاده کردند تا تصاویر ساده سیاه و سفید حاوی دو یا چند شکل تصادفی تولید شده را مورد تجزیه و تحلیل قرار دهند. در بعضی موارد اشیاء یکسان بودند. گاهی اوقات آنها یکسان بود اما با یک شی در رابطه با دیگر چرخانده؛ بعضی اوقات اشیاء کاملاً متفاوت بودند. از رایانه خواسته شد تا رابطه یکسان یا متفاوت را مشخص کند.

 

این مطالعه نشان داد که ، حتی پس از صدها هزار نمونه آموزش ، الگوریتمها بهتر از فرصتی برای شناخت رابطه مناسب نبودند. حال سؤال این بود که چرا این سیستم ها در این کار اینقدر بد هستند.

 

سر و همکارانش شک داشتند که ارتباطی با ناتوانی این الگوریتم های دید رایانه ای در جدا کردن اشیاء دارند. وقتی کامپیوترها به یک تصویر نگاه می کنند ، آنها در واقع نمی توانند بگویند که یک شی در تصویر متوقف می شود و پس زمینه یا یک شی دیگر شروع می شود. آنها فقط مجموعه ای از پیکسل ها را مشاهده می کنند که دارای الگوهای مشابه با مجموعه پیکسل هایی هستند که آنها یاد گرفته اند تا با برچسب های خاصی ارتباط برقرار کنند. این برای مشکلات شناسایی یا طبقه بندی خوب است ، اما هنگام تلاش برای مقایسه دو شیء از هم جدا می شود.

 

 

 

برای نشان دادن این که در واقع به همین دلیل الگوریتم ها در حال شکستن بودند ، سر و تیم او آزمایش هایی را انجام دادند که رایانه را از مجبور کردن جداگانه اشیاء به خودی خود رها می کند. محققان به جای نشان دادن دو شیء در رایانه ، در یک تصویر همزمان ، اشیاء را به صورت یکجا به کامپیوتر نشان دادند. این آزمایشات نشان داد که الگوریتمها مشکلی برای یادگیری رابطه یکسان یا متفاوت ندارند ، مادامی که نیازی به مشاهده دو شیء در یک تصویر نباشد.

 

سر می گوید منبع مشکل در جدا کردن اشیاء ، معماری سیستم های یادگیری ماشینی است که الگوریتم ها را تأمین می کنند. این الگوریتم ها از شبکه های عصبی حلقوی استفاده می کنند - لایه هایی از واحد پردازش متصل که شبکه های عصبی را در مغز تقلید می کند. یک تفاوت اساسی از مغز این است که شبکه های مصنوعی منحصراً "فید رو به جلو" هستند - اطلاعات مهم یک لایه از شبکه جریان دارد. به گفته Serre ، اینگونه نیست که سیستم تصویری در انسان کار می کند.

 

Serre گفت: "اگر به آناتومی سیستم تصویری خودمان توجه کنید ، متوجه می شوید که اتصالات عود کننده زیادی وجود دارد ، جایی که اطلاعات از یک منطقه بصری بالاتر به یک منطقه بینایی پایین تر منتقل می شوند."

 

در حالی که هنوز مشخص نیست که این بازخوردها چه کاری انجام می دهند ، Serre می گوید ، این احتمال وجود دارد که آنها ارتباطی با توانایی ما در توجه به قسمت های خاصی از زمینه تصویری ما داشته باشند و بازنمایی ذهنی اشیاء را در ذهن ما ایجاد کنند.

http://bookmark-template.com/story6997058/قیمت-آکومولاتور