[ad_1]

تصور کنید اگر ربات ها می توانند با تماشای تظاهرات یادگیری: شما می توانید یک ربات خانگی نشان دهد که چگونه به انجام کارهای معمول خانه یا راه اندازی یک میز شام. در محل کار ، می توانید به عنوان کارمند جدید به روبات ها آموزش دهید و به آنها نشان دهید که چگونه بسیاری از وظایف را انجام دهند. هنگام رانندگی ، اتومبیل خودران می تواند با رانندگی در اطراف محله خود یاد بگیرد که چگونه ایمن رانندگی کند.

با پیشرفت در این چشم انداز ، محققان USC سیستمی را ایجاد کرده اند که به روبات ها امکان می دهد کارهای پیچیده خودمختار را از تعداد بسیار کمی از نمایش ها – حتی کارهای ناقص – بیاموزند. این گزارش با عنوان “یادگیری از تظاهرات با استفاده از منطق سیگنال موقت” ، در کنفرانس آموزش ربات (CoRL) در 18 نوامبر ارائه شد.

سیستم محقق با ارزیابی کیفیت هر نمایش کار می کند ، بنابراین از اشتباهاتی که می بیند و همچنین موفقیت ها می آموزد. در حالی که روش فعلی دولت از هنر، نیاز به حداقل 100 تظاهرات برای انجام یک کار خاص، این روش جدید اجازه می دهد تا ربات به از تنها چند تظاهرات یاد بگیرند. همچنین اجازه می دهد ربات به یادگیری به طور مستقیم تر، راه انسان از یکدیگر یاد بگیرند – شما تماشا کسی انجام یک کار، حتی ناقص، و سپس شما را امتحان کنید. لازم نیست یک تظاهرات “کامل” باشد تا مردم از نگاه به یکدیگر دانش کسب کنند.

انیرود پورانیچ ، دکتر دانشجوی علوم کامپیوتر در دانشکده مهندسی USC Viterbi.

“همچنین ، اکثر افراد دانش برنامه نویسی ندارند تا صریحاً آنچه را که یک ربات باید انجام دهد ، بیان کنند و شخص نمی تواند هر آنچه را که یک ربات باید بداند نشان دهد. اگر ربات با چیزی روبرو شود که قبلاً ندیده است چه می کنید؟ این یک چالش اساسی است. “

یادگیری از تظاهرات

یادگیری نمایشی در به دست آوردن سیاست های موثر کنترل ربات – که حرکات ربات را کنترل می کنند – برای کارهای پیچیده به طور فزاینده ای محبوب می شود. اما در تظاهرات مستعد نقص است و همچنین نگرانی های ایمنی را ایجاد می کند ، زیرا ربات ها می توانند اقدامات خطرناک یا ناخواسته را یاد بگیرند.

همچنین، همه تظاهرات یکسان هستند: برخی از تظاهرات نشانگر بهتری از رفتار مورد نظر از دیگران، و کیفیت تظاهرات اغلب در تجربه از تظاهرات کاربران بستگی دارد.

برای پرداختن به این موضوعات ، محققان “منطق زمان سیگنال” یا STL را برای ارزیابی کیفیت نمایش ها و مرتب سازی خودکار آنها برای ایجاد پاداش های ذاتی در نظر گرفته اند.

به عبارت دیگر، حتی اگر برخی از بخش های تظاهرات را بی معنا بر اساس الزامات منطقی با استفاده از این روش، ربات هنوز می تواند از قطعات ناقص یاد بگیرند. به تعبیری ، سیستم در مورد صحت یا موفقیت یک نمایش به نتیجه گیری خود می رسد.

“فرض کنید روبات ها از انواع مختلف تظاهرات درس می گیرند – این می تواند یک نمایش عملی ، فیلم یا شبیه سازی باشد – اگر کاری انجام دهم که بسیار خطرناک است ، رویکردهای استاندارد یکی از این دو کار را انجام می دهند: یا آن را کاملاً نادیده بگیرید ، یا حتی بدتر اینکه ، این ربات چیز اشتباهی را یاد خواهد گرفت. “

“در مقابل ، به روشی کاملاً هوشمند ، این کار از برخی استدلال های صحیح و در قالب منطق استفاده می کند تا بفهمد کدام قسمت از تظاهرات خوب است و کدام یک نه. اساساً این کاری است که مردم انجام می دهند.”

به عنوان مثال ، یک تظاهرات رانندگی را در نظر بگیرید که در آن کسی از علامت توقف عبور می کند. این می تواند در مقایسه با نمایش یک درایور خوب ، پایین تر از سیستم باشد. اما اگر در طی این تظاهرات راننده کار هوشمندانه ای انجام دهد – به عنوان مثال ، برای جلوگیری از تصادف ، ترمز خود را بکشید – ربات همچنان از این عمل هوشمندانه درس می گیرد.

سازگاری با ترجیحات انسانی

منطق زمان سیگنال یک زبان نمادین ریاضی است که استدلال رباتیک را در مورد نتایج فعلی و آینده امکان پذیر می کند. جیو دشموخ ، مهندس سابق تویوتا و دستیار علوم کامپیوتر USC Viterbi ، گفت در حالی که تحقیقات قبلی در این زمینه از “منطق زمانی خطی” استفاده می کرد ، STL در این مورد ارجح است.

“وقتی وارد دنیای سیستم های فیزیکی سایبری می شویم ، مانند روبات ها و اتومبیل های خودران ، جایی که زمان اصلی است ، منطق زمان خطی وقتی در مورد توالی مقادیر درست / غلط برای متغیرها فکر می کند ، کمی دست و پا گیر می شود ، در حالی که STL استدلال در مورد فیزیکی را فراهم می کند سیگنالها “

پورانیچ ، که توسط Deshmuh مشاوره داده شد ، پس از گذراندن یک دوره عملی رباتیک با نیکولاییدس ، که در حال کار بر روی ساخت ربات ها برای یادگیری از فیلم های YouTube است ، به این ایده رسید. این سه نفر تصمیم گرفتند آن را امتحان کنند. هر سه گفتند که از موفقیت سیستم شگفت زده شده اند و این دو استاد پورانیچ را به خاطر سخت کوشی اش تأیید کردند.

نیکلایدیس گفت: “در مقایسه با دولت از هنر الگوریتم، که به طور گسترده ای در بسیاری از برنامه های کاربردی رباتیک استفاده می شود، شما تفاوت در تعداد تظاهرات مورد نیاز” را ببینید.

این سیستم با استفاده از یک شبیه ساز بازی فوتبال به سبک آزمایش شده است، اما محققان می گویند که سیستم را می توان از شبیه سازی رانندگی به دست و در نهایت حتی از فیلم ها. محققان سپس امیدوارند که آن را بر روی ربات های واقعی آزمایش کنند. آنها گفتند که این روش برای برنامه هایی مناسب است که نقشه ها از قبل شناخته شده باشند ، اما موانع پویایی وجود دارد: ربات ها در محیط های خانگی ، انبارها یا حتی مریخ نوردان فضایی.

نیکولاییدس گفت: “اگر ما می خواهیم ربات ها هم تیمی خوبی باشند و به مردم کمک کنند ، آنها باید اولویت های انسانی را بسیار م learnثر یاد بگیرند و با آنها سازگار شوند.” “روش ما این را فراهم می کند.”

“من خوشحالم که این رویکرد را در سیستم های رباتیک ادغام می کنم تا به آنها کمک کنم تا به طور م fromثر از تظاهرات یاد بگیرند ، و همچنین به طور م humanثر به هم تیمی های انسانی در یک کار مشترک کمک کنم.”

[ad_2]

منبع: packge-news.ir