Robots laten zien hoe ze een auto moeten besturen … in slechts een paar eenvoudige lessen

auto

Krediet: CC0 publiek domein

Stel je voor dat robots kunnen leren van het kijken naar demonstraties: je zou een huisrobot kunnen laten zien hoe hij routineklussen moet doen of een eettafel kunnen dekken. Op de werkvloer zou je robots kunnen trainen als nieuwe werknemers, en ze laten zien hoe ze veel taken moeten uitvoeren. Onderweg kan uw zelfrijdende auto leren hoe u veilig kunt rijden door u door uw buurt te zien rijden.

Om vooruitgang te boeken met die visie, hebben USC-onderzoekers een systeem ontworpen waarmee robots autonoom ingewikkelde taken kunnen leren van een zeer klein aantal demonstraties – zelfs onvolmaakte. De paper, getiteld Learning from Demonstrations using Signal Temporal Logic, werd gepresenteerd op de Conference on Robot Learning (CoRL), 18 november.

Het systeem van de onderzoekers evalueert de kwaliteit van elke demonstratie, zodat het leert van de fouten die het ziet, maar ook van de successen. Terwijl de huidige state-of-art methoden minstens 100 demonstraties nodig hebben om een ​​specifieke taak te volbrengen, stelt deze nieuwe methode robots in staat om te leren van slechts een handvol demonstraties. Het stelt robots ook in staat om meer intuïtief te leren, zoals mensen van elkaar leren – je ziet iemand een taak uitvoeren, zelfs niet perfect, en vervolgens zelf proberen. Het hoeft geen “perfecte” demonstratie te zijn voor mensen om kennis te vergaren door naar elkaar te kijken.

“Veel machine learning en versterkende leersystemen vereisen grote hoeveelheden datagegevens en honderden demonstraties – je hebt een mens nodig om keer op keer te demonstreren, wat niet haalbaar is”, aldus hoofdauteur Aniruddh Puranic, een Ph.D. student informatica aan de USC Viterbi School of Engineering.

“Ook hebben de meeste mensen geen programmeerkennis om expliciet aan te geven wat de robot moet doen, en een mens kan onmogelijk alles demonstreren wat een robot moet weten. Wat als de robot iets tegenkomt dat hij nog niet eerder heeft gezien? een belangrijke uitdaging. “

Leren van demonstraties

Leren van demonstraties wordt steeds populairder bij het verkrijgen van een effectief robotbesturingsbeleid – dat de bewegingen van de robot bestuurt – voor complexe taken. Maar het is vatbaar voor onvolkomenheden in demonstraties en geeft ook aanleiding tot bezorgdheid over de veiligheid, aangezien robots onveilige of ongewenste acties kunnen leren.

Ook zijn niet alle demonstraties gelijk: sommige demonstraties zijn een betere indicator van gewenst gedrag dan andere en de kwaliteit van de demonstraties hangt vaak af van de expertise van de gebruiker die de demonstraties verzorgt.

Om deze problemen aan te pakken, integreerden de onderzoekers “signaal temporele logica” of STL om de kwaliteit van demonstraties te evalueren en ze automatisch te rangschikken om inherente beloningen te creëren.

Met andere woorden, zelfs als sommige delen van de demonstraties niet kloppen op basis van de logische vereisten, kan de robot met deze methode nog steeds leren van de onvolmaakte delen. In zekere zin komt het systeem tot zijn eigen conclusie over de nauwkeurigheid of het succes van een demonstratie.

“Laten we zeggen dat robots leren van verschillende soorten demonstraties – het kan een praktijkgerichte demonstratie, video’s of simulaties zijn – als ik iets heel onveilig doe, zullen standaardbenaderingen een van de volgende twee dingen doen: ze zullen het ook volledig negeren. , of erger nog, de robot zal het verkeerde leren ”, zegt co-auteur Stefanos Nikolaidis, een assistent-professor informatica van USC Viterbi.

“Daarentegen gebruikt dit werk op een zeer intelligente manier redeneringen met gezond verstand in de vorm van logica om te begrijpen welke delen van de demonstratie goed zijn en welke niet. In wezen is dit precies wat ook mensen doen.”

Neem bijvoorbeeld een rijdemonstratie waarbij iemand een stopbord overslaat. Dit zou door het systeem lager worden gerangschikt dan een demonstratie van een goede chauffeur. Maar als de bestuurder tijdens deze demonstratie iets intelligents doet – bijvoorbeeld remt om een ​​botsing te voorkomen – zal de robot nog steeds van deze slimme actie leren.

Aanpassen aan menselijke voorkeuren

Signaal-temporele logica is een expressieve wiskundige symbolische taal die robotachtig redeneren over huidige en toekomstige resultaten mogelijk maakt. Terwijl in eerder onderzoek op dit gebied gebruik is gemaakt van “lineaire temporele logica”, verdient STL in dit geval de voorkeur, zei Jyo Deshmukh, een voormalig Toyota-ingenieur en USC Viterbi assistent-professor informatica.

“Wanneer we de wereld van cyberfysieke systemen betreden, zoals robots en zelfrijdende auto’s, waar tijd cruciaal is, wordt lineaire temporele logica een beetje omslachtig, omdat het redeneert over reeksen van waar / onwaar waarden voor variabelen, terwijl STL redenering toelaat over fysieke signalen. “

Puranic, die wordt geadviseerd door Deshmukh, kwam op het idee na een hands-on robotica-les te hebben gevolgd bij Nikolaidis, die heeft gewerkt aan het ontwikkelen van robots om te leren van YouTube-video’s. Het trio besloot het uit te testen. Alle drie zeiden ze verrast te zijn door de omvang van het succes van het systeem en de professoren prijzen Puranic allebei voor zijn harde werk.

“Vergeleken met een state-of-the-art algoritme, dat op grote schaal wordt gebruikt in veel robottoepassingen, zie je een verschil van orde van grootte in het aantal demonstraties dat nodig is”, aldus Nikolaidis.

Het systeem werd getest met een spelsimulator in Minecraft-stijl, maar de onderzoekers zeiden dat het systeem ook kon leren van rijsimulatoren en uiteindelijk zelfs van video’s. Vervolgens hopen de onderzoekers het uit te proberen op echte robots. Ze zeiden dat deze aanpak zeer geschikt is voor toepassingen waarbij kaarten van tevoren bekend zijn, maar er dynamische obstakels op de kaart staan: robots in huishoudelijke omgevingen, magazijnen of zelfs ruimteverkenners.

“Als we willen dat robots goede teamgenoten zijn en mensen helpen, moeten ze eerst leren en zich zeer efficiënt aanpassen aan de menselijke voorkeur”, zei Nikolaidis. “Onze methode zorgt daarvoor.”

“Ik ben verheugd om deze benadering te integreren in robotsystemen om hen te helpen efficiënt te leren van demonstraties, maar ook om menselijke teamgenoten effectief te helpen bij een gezamenlijke taak.”


Meer informatie:
drive.google.com/file/d/1MH8KV… tLV0iUP163NIxV1 / weergave

Aangeboden door University of Southern California

Nieuwste artikelen

spot_img

Related Stories

Leave A Reply

Vul alstublieft uw commentaar in!
Vul hier uw naam in