Peneliti MIT mengembangkan sistem memori baru untuk robot yang memungkinkan mesin mengingat lokasi, waktu kemunculan, dan cara mengambil kembali informasi dengan bahasa sehari-hari. Sistem bernama DAAAM, singkatan dari Describe Anything, Anywhere, At Any Moment, itu dirancang agar robot tidak sekadar mengenali lingkungan, tetapi juga memahami konteksnya.
Kemampuan semacam ini dinilai penting untuk robot yang bekerja di pabrik, kampus, atau gedung besar. Mesin perlu menjawab pertanyaan praktis seperti di mana terakhir kali melihat obeng merah, berapa lama sebuah benda berada di ruangan tertentu, atau sepeda mana di luar gedung yang bannya kempis.
Memori yang mendekati cara manusia bertanya
Luca Carlone, associate professor di MIT Department of Aeronautics and Astronautics sekaligus principal investigator di Laboratory for Information and Decision Systems, menyebut robot perlu beralasan tentang waktu dan ruang seperti manusia. Menurutnya, pendekatan itu mengubah peta tradisional menjadi peta berbasis bahasa yang lebih mudah diakses robot.
DAAAM dikembangkan bersama Nicolas Gorlo, mahasiswa pascasarjana MIT, dan Lukas Schmid, mantan peneliti MIT yang kini menjadi profesor di University of Technology Nuremberg, Jerman. Karya ini dipresentasikan dalam Conference on Computer Vision and Pattern Recognition.
Menggabungkan visi komputer dan pemetaan robotik
Proyek ini berada di persimpangan visi komputer dan pemetaan robotik. Sistem visi biasanya mampu memberi deskripsi adegan yang kaya, tetapi cenderung memproses satu gambar atau satu objek pada satu waktu, sedangkan pemetaan robotik dapat membangun peta 3D besar namun sering kurang rinci dalam bahasa.
DAAAM mencoba menjembatani dua dunia itu dengan memberi deskripsi bahasa alami pada apa yang terlihat saat robot bergerak, lalu mengaitkannya ke peta 3D. Dengan cara ini, objek terhubung ke lokasi spesifik, bukan berdiri sebagai potongan informasi yang terpisah.
Sebuah bangunan bisa dikenali sebagai Stata Center lengkap dengan catatan tentang arsitekturnya. Rak sepeda bisa dideskripsikan berisi lima sepeda, dengan satu sepeda merah yang bannya kempis.
Menurut tim peneliti, pendekatan ini penting karena memori robot harus menyusun informasi agar bisa menjawab pertanyaan nyata. Memori tidak cukup hanya menyimpan cuplikan visual dari satu bingkai kamera.
Kecepatan menjadi tantangan utama
Deskripsi yang rinci biasanya memerlukan biaya komputasi besar. Sistem yang ada untuk menghasilkan anotasi detail bisa membutuhkan beberapa detik hanya untuk melabeli beberapa objek, sehingga terlalu lambat bagi robot yang bergerak di ruang nyata yang padat.
Untuk mengatasi hambatan itu, tim MIT merancang DAAAM agar mengelompokkan objek yang berdekatan dan memilih sudut pandang kamera paling berguna untuk dideskripsikan. Sistem ini memilih key frame yang memberi pandangan paling jelas terhadap beberapa objek sekaligus, lalu menandainya dalam batch, bukan satu per satu.
Langkah itu disebut mempercepat proses sekitar satu orde magnitudo. Gorlo menjelaskan bahwa setiap objek hanya dianotasi sekali, sehingga kerangka ini dapat berjalan di lingkungan sangat besar secara real time.
Hasilnya adalah memori yang tetap terikat pada geografi. Objek tidak disimpan sebagai entri teks terpisah atau keterangan gambar yang lepas, melainkan terhubung ke struktur scene graph empat dimensi yang memadukan lokasi 3D dan perubahan dari waktu ke waktu.
Lebih cepat mencari jawaban
Setelah memori terbentuk, robot masih harus mengambil kembali informasi dari jumlah objek, deskripsi, dan penanda waktu yang besar. DAAAM menggunakan model bahasa dengan alat retrieval khusus untuk menarik detail yang relevan sekaligus mengurangi risiko halusinasi.
Jika seseorang bertanya tentang patung di dekat gedung kampus, sistem bisa mencari lewat kata “sculpture”, lewat lokasi gedung, atau keduanya. Dalam uji pada spatiotemporal question answering, DAAAM mengungguli metode pembanding.
Pada benchmark NaVQA asli, akurasi pertanyaan deskriptifnya mencapai 0,672. Pada versi object-centric yang direvisi tim, DAAAM mencapai akurasi 0,711, dibandingkan 0,463 untuk salah satu varian ReMEmbR dan 0,299 untuk ConceptGraphs.
Sistem ini juga menunjukkan performa lebih kuat pada urutan panjang dan penalaran temporal. Pada benchmark object-centric, ia mencatat positional error 41,75 meter dan temporal error 1,792 menit, lalu pada pengujian sequential task grounding meraih task accuracy 11,22 persen, tertinggi di antara metode yang dibandingkan.
Tim menyebut framework ini dapat berjalan pada sensor rate 10 hertz di dataset CODa sambil menangani lingkungan skala besar. Sistem itu juga mampu diskalakan ke urutan lebih dari 35 menit dan jarak lebih dari 1,5 kilometer.
Masih ada batas yang perlu diperbaiki
DAAAM belum sempurna. Model yang dipakai untuk menghasilkan deskripsi detail masih bisa melewatkan ciri yang tidak biasa atau malah mengarah ke objek yang lebih umum, seperti saat pintu lift salah dideskripsikan memiliki gagang.
Kecepatan anotasi juga belum tentu cukup untuk mesin yang bergerak lebih cepat, seperti robot udara atau sebagian sistem virtual reality. Rata-rata satu worker thread hanya bisa menganotasi sekitar 5,2 fragmen baru per detik di GPU desktop, cukup untuk robot darat bergerak, tetapi belum tentu untuk semua platform.
Ada pula persoalan memori jangka panjang. DAAAM menyimpan riwayat deskripsi untuk objek dinamis, dan para peneliti mencatat catatan itu mungkin tidak akan skalabel tanpa peringkasan yang lebih baik.
Meski masih memiliki batas, arah riset ini menunjukkan jenis memori robot yang lebih praktis dan lebih dekat dengan cara manusia meminta informasi. Bagi pabrik, perawatan, dan navigasi, sistem semacam ini bisa membuat robot tidak hanya melihat dunia, tetapi juga mengingatnya dengan konteks yang dapat dipakai saat bekerja berdampingan dengan manusia.







