MIT robots begrijpen contextuele commando’s dankzij Comtext

Onlangs hebben onderzoekers van het MIT Computer Science en Artificial Intelligence Laboratory (CSAIL) een onderzoek gepubliceerd van een Amazon Alexa-achtig systeem waarmee robots een breed scala aan commando’s kunnen begrijpen die contextuele kennis vereisen over objecten en hun omgevingen.

De robots van vandaag zijn nog erg beperkt in wat ze kunnen doen. In repetitieve handelingen zijn ze erg goed maar de complexiteit van de menselijke taal is voor robots maar moeilijk te bevatten. Als je bijvoorbeeld een stuk gereedschap in een gereedschapskist legt en dan aan de robot vraagt om het op te halen weet de robot niet waar hij moet beginnen.

Het is voor de robot een moeilijke opdracht. Hij moet je spraak-commando begrijpen, dan moet hij het voorwerp dat je weglegt zien en onthouden in zijn geheugen, daarna moet de robot het voorwerp in de gereedschapskist zien te onderscheiden van de overige voorwerpen in de gereedschapskist alvorens hij het kan oppakken en afleveren.

De onderzoekers hebben het systeem ‘ComText’ genoemd. Het bovenstaande voorbeeld van de gereedschapskist was een van de taken die ComText kan verwerken.

Als je het systeem vertelt dat “het gereedschap dat je neerzet, jouw gereedschap is”, voegt het systeem die kennis toe aan zijn kennisbasis.

Je kan de robot bijwerken met meer informatie over andere objecten en het uitvoeren van een reeks taken zoals het opzoeken van verschillende sets objecten op basis van verschillende commando’s.

“Waar mensen de wereld begrijpen als een verzameling voorwerpen, mensen en abstracte concepten, zien machines het als pixels, puntwolken en 3-D-kaarten die worden gegenereerd door sensoren,” zegt Rohan Paul van CSAIL, een van de voornaamste auteurs van de publicatie.

“Om de robots te laten begrijpen wat we willen dat ze doen, moeten ze een veel uitgebreidere weergave hebben van wat we doen en zeggen.”

Het team testte ComText op Baxter, een twee-armige humanoïde robot ontwikkeld door Rethink Robotics dat is opgericht door de voormalige CSAIL-directeur Rodney Brooks.

Het project werd mede geleid door wetenschapper Andrei Barbu, naast onderzoekswetenschapper Sue Felshin, senior wetenschapper Boris Katz, en professor Nicholas Roy. Zij presenteerden het onderzoek tijdens de Internationale Gezamenlijke Conferentie over Kunstmatige Intelligentie (IJCAI) in Australië.

Hoe het werkt

Dingen zoals data, verjaardagen en feiten zijn vormen van “declaratief geheugen”. Er zijn twee soorten declaratief geheugen: semantisch geheugen, dat is gebaseerd op algemene feiten zoals de ‘lucht is blauw’ en episodisch geheugen, dat gebaseerd is op persoonlijke feiten, zoals het onthouden van wat er gebeurd is tijdens een feest.

De meeste projecten met robot-learning hebben zich uitsluitend gericht op het semantisch geheugen, wat uiteraard een grote kenniskloof over gebeurtenissen of feiten achterlaat wat relevant had kunnen zijn.

ComText kan een reeks beelden, natuurlijke taal en informatie over de grootte, vorm, positie en soort van een object opslaan in het ‘episodisch geheugen’. Uit deze kennis-database kan het dan de betekenis afleiden, beredeneren en op opdrachten reageren.

“De belangrijkste bijdrage is het idee dat robots verschillende soorten geheugen moeten hebben, net zoals mensen,” zegt Barbu. “We hebben de eerste wiskundige formulering om dit probleem aan te pakken en we gaan onderzoeken hoe deze twee typen geheugen werken en of ze elkaar beïnvloeden.”

Resultaat

Met ComText was robot Baxter voor 90% succesvol in het uitvoeren van de opdrachten. In de toekomst hoopt het team de robots in staat te stellen om meer ingewikkelde informatie te begrijpen, zoals multi-step commando’s, de bedoeling van de opdrachten en de eigenschappen van objecten, om op een natuurlijke manier met hen te communiceren.

Stel dat je een robot bijvoorbeeld vertelt dat de inhoud van een doos op een tafel crackers bevat en een andere doos bevat suiker. Daarna vraag je de robot om de crackers te halen. De hoop is dat de robot zou kunnen afleiden dat suiker een grondstof is en het dus onwaarschijnlijk is dat het iemand’s ‘crackers’ kunnen zijn.

Door veel minder ingrijpende interacties te creëren, zou dit onderzoek betere communicatie mogelijk kunnen maken voor een scala aan robotsystemen, van zelfrijdende auto’s tot huishoudelijke robots.

“Dit werk is een mooie stap in de richting van het bouwen van robots die op een natuurlijke manier met mensen kunnen communiceren,” zegt Luke Zettlemoyer, universitair hoofddocent computerwetenschappen aan de Universiteit van Washington, die niet bij het onderzoek betrokken was.

“Met name zal het robots helpen om, de namen die worden gebruikt om objecten in onze wereld te identificeren, beter te begrijpen en te interpreteren zodat de robot uiteindelijk beter in staat is om de opdracht van de gebruiker goed uit te voeren.”

 

via phys.org