π ICRA 2024 Workshopμμ μ΄λ¦° Vision-Language Models for Navigation and Manipulation (VLMNM)λ₯Ό μ£Όμ λ‘ ν invited talk μ€μμ ViNT, GNM, NoMaD λ Όλ¬Έμ μ μμΈ Dhruv Shah λ°μ¬λμ βFoundation Models of and for Navigationβ λ°νλ₯Ό μ 리ν΄λ³΄λ €κ³ νλ€.
μν¬μμ λν μ 보μ μ 체 λ°ν μμμ μλ λ§ν¬λ₯Ό ν΅ν΄ νμΈν μ μλ€.
1. Foundation Models
λ‘λ΄ λΆμΌμ μ΅κ·Όμ λ°μ μ 보면, μ€μν ν΅μ¬μ λλμ λ°μ΄ν°λ₯Ό νμ©ν νμ΅μ μλ€. λ€μν μμ μμ μμ§λ λ°μ΄ν°λ₯Ό ν΅ν΄ λͺ¨λΈμ΄ μμ μ ν¨ν΄μ νμ΅νκ³ μ΄λ₯Ό νμ©νμ¬ μ¬λ¬ μμ μ μνν μ μλλ‘ νλ κ²μ΄λ€. μ΄λ¬ν λͺ¨λΈλ€μ βFoundation ModelsβλΌκ³ νλ€. μΌλ°μ μΌλ‘ μ΄λ¬ν Foundation Modelλ€μ κ΄λ²μν λ°μ΄ν°μ μ μ¬μ©νμ¬ μκ° μ§λ νμ΅μ ν΅ν΄ νμ΅λλ©°, μ΅μνμ μ§λ νμ΅λ§μΌλ‘λ λ°μ΄λ μΌλ°ν λ° μ μ λ₯λ ₯μ κ°λ κ²μ΄ νΉμ§μ΄λ€.
μ΄λ¬ν λͺ¨λΈλ€μ βμΈν°λ· κΈ°λ° λͺ¨λΈ (Internet Foundation Models)βμ΄λΌκ³ ν μλ μλλ°, κ·Έ μ΄μ λ μ΄λ° λͺ¨λΈλ€μ λ₯λμ μΌλ‘ λ°μ΄ν°λ₯Ό μμ§νλ κ²μ΄ μλλΌ μΈν°λ·μ μ‘΄μ¬νλ λ€μν λ°μ΄ν°λ€μ νμ©ν΄ νλ ¨λκΈ° λλ¬Έμ΄λ€. μ΄λ¬ν λ°μ΄ν°μ λͺ¨λΈμ ν΅ν©μ data-driven roboticsμμ μ€μν μν μ ν μ μλ€.
λͺ¨λΈμ νλ ¨ν λ λ¨μν λ°μ΄ν°μ κ·λͺ¨λ§μΌλ‘ μΆ©λΆν κ²μ μλλ€. λͺ¨λΈμ μ±λ₯μ λμ΄κΈ° μν΄μλ λ°μ΄ν°μ νμ§κ³Ό λ€μμ±μ μ§μ€νλ λ°μ΄ν° μ€μ¬μ μ κ·Ό(Data-centric perspective)μ΄ μ€μνλ€. κ·Έλ¬λ μ΄λ¬ν κ³ νμ§μ κ·Έλ¦¬κ³ λ€μν λ°μ΄ν°λ₯Ό μμ§νλ κ²μ λ§€μ° μ΄λ ΅κ³ λΉμ©μ΄ λ§μ΄ λλ λ¬Έμ μ΄λ€.
μ΄λ¬ν κ΄μ μμ Dhruv Shah λ°μ¬λ κΈ°μ‘΄μ μ‘΄μ¬νλ λ°μ΄ν°λ₯Ό νμ©νμ¬ λ°μ΄ν° κΈ°λ° λ‘보ν±μ€λ₯Ό μ΄λ»κ² μ€νν κ²μΈμ§μ μ§μ€ν΄ μλ€. κΈ°μ‘΄ λ°μ΄ν°λ€μ μλ‘ λ€λ₯Έ νκ²½κ³Ό λ€μν μμ μμ μμ§λμ΄ κ²λ³΄κΈ°μλ λ§€μ° μ΄μ§μ μΌλ‘ λ³΄μΌ μ μλ€. κ·Έλ¬λ μ μ ν λͺ©νμ ꡬ쑰λ₯Ό μ μνλ©΄ μ΄λ¬ν λ°μ΄ν°λ₯Ό ν¨κ³Όμ μΌλ‘ νμ©νμ¬ λ‘λ΄ κ° μ μ΄ κ°λ₯ν μ μ©ν ννμ νμ΅ν μ μμμ 보μ¬μ£Όμλ€.
2. Robot Foundation Model
Robot Foundation Modelμ΄λ μ©μ΄λ λ§μ μλ―Έλ₯Ό ν¬ν¨νκ³ μμΌλ©°, μ¬λλ€λ§λ€ κ°μ λ€λ₯Έ λ°©μμΌλ‘ μ΄ν΄ν μλ μλ€. Dhruv Shah λ°μ¬λ μ°κ΅¬μμ Robot Foundation Modelμ ν λ² νλ ¨λλ©΄ μΆκ°μ μΈ μ§λ νμ΅ μμ΄λ λ€μν λ‘λ΄μμ λ°λ‘ μ¬μ©ν μ μλ λͺ¨λΈμ΄λΌ μ μνμλ€. μ΄λ μλ‘ λ€λ₯Έ μΌμλ₯Ό κ°μ§ λ‘λ΄, μ ν λ€λ₯Έ νκ²½μ λμΈ λ‘λ΄μμλ μλ‘μ΄ μμ μ μνν μ μλλ‘ μ€κ³λ λͺ¨λΈμ μλ―Ένλ€. μ΄λ₯Ό μν΄μ λͺ¨λΈμ΄ μΆ©μ‘±ν΄μΌ νλ μ£Όμ 쑰건μ μλμ κ°λ€:
μ΄λ¬ν λͺ¨λΈμ λ§λ€κΈ° μν΄μλ κΈ°μ‘΄μ κ°λ³μ μΈ λ‘λ΄λ³ νμ΅ λ°©μμμ λ²μ΄λ, μ¬λ¬ λ‘λ΄μμ μμ§ν λ°μ΄ν°λ₯Ό ν΅ν©νμ¬ λ¨μΌν κ±°λ μ κ²½λ§ λͺ¨λΈμ νμ΅νλ λ°©μ (Cross-Embodiment Learning)μ΄ μꡬλλ€.
3. Cross-Embodiment Learning
μλ‘ λ€λ₯Έ λ‘λ΄ λ°μ΄ν°λ₯Ό νλμ λͺ¨λΈμμ νμ΅μν€κΈ° μν΄μλ νΉμ ν μ€κ³ μμΉμ΄ νμνλ€.
- 곡ν΅λ νλ 곡κ°(action space) μ μ: κ° λ‘λ΄μ μλ‘ λ€λ₯Έ νλ 곡κ°(rotor velocities, joint angles β¦)μ κ°μ§λ€. λ°λΌμ, μ΄λ₯Ό ν΅ν©ν μ μλ 곡ν΅λ ννμ΄ νμνλ€.
- λ‘λ΄μ νΉμ±μ λ°μνλ ν둬ννΈ (Embodiment Prompt): λ‘λ΄λ§λ€ ꡬ쑰λ μ΄λ λ°©μμ΄ λ€λ₯΄κΈ° λλ¬Έμ, λͺ¨λ λ‘λ΄μ λμΌν λ°©μμ μ μ΄ λͺ¨λΈμ μ μ©νκΈ° μ΄λ ΅λ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ λ‘λ΄μ νΉμ±μ λͺ μμ μΈ μμ€ν νλΌλ―Έν°λ‘ μ§μ νμ΅νλ λμ λ‘λ΄μ΄ κ³Όκ±°μ μνν νλ λ°μ΄ν°λ₯Ό νμ©νμ¬ λͺ¨λΈμ΄ μ€μ€λ‘ λ‘λ΄μ νΉμ±μ νμ΅νλλ‘ νλ μ κ·Ό λ°©μμ΄ μꡬλλ€. λ€μ λ§ν΄, Embodiment Promptλ λ‘λ΄μ κ³Όκ±° νλ λ°μ΄ν°λ₯Ό μ λ ₯μΌλ‘ μ 곡νμ¬ λͺ¨λΈμ΄ ν΄λΉ λ‘λ΄μ νΉμ±μ μλμΌλ‘ λ°μνλ κΈ°λ²μ μλ―Ένλ€.
κ°λ³ λ‘λ΄ λ°μ΄ν°λ§ νμ΅ν λͺ¨λΈλ³΄λ€, μ¬λ¬ λ‘λ΄μ λ°μ΄ν°λ₯Ό ν΅ν©ν΄ νμ΅ν λͺ¨λΈ(GNM, General Navigation Model)μ΄ μΌκ΄λκ² λμ μ±λ₯μ κΈ°λ‘ν¨μ 보μ¬μ£Όμλ€. λν, κ°λ³ λ‘λ΄μμ νμ΅ν μ μ± λ³΄λ€ λ€μμ λ‘λ΄ λ°μ΄ν°λ₯Ό κ²°ν©ν μ μ± μ΄ λμ± μΌλ°νλ μ±λ₯μ 보μ΄λ©°, λͺ¨λΈμ ν¬κΈ°κ° μ»€μ§ λμλ μ±λ₯μ΄ λ ν¬κ² ν₯μλ¨μ 보μλ€.
4. Downstream Adaptation
μ μνκ³ μλ Robot Foundation Modelμ κΈ°λ°μΌλ‘ λ κ³ μ°¨μμ κΈ°λ₯μ μΆκ°νκΈ° μν μ°κ΅¬κ° μ§νλκ³ μλ€. μ£Όμ μ°κ΅¬ λ°©ν₯μ ν¬κ² μΈ κ°μ§λ‘ λλλλ°, κΈ°λ³Έμ μΌλ‘ νμ΅λ λͺ¨λΈμ λ¨μν λͺ©ν μ§μ μ λλ¬νκ³ μΆ©λμ ννΌνλ κΈ°λ₯λ§μ μννλ€λ©΄ κΈ°μ‘΄ λͺ¨λΈμ μ½κ°μ μΆκ° λ°μ΄ν°μ μ μ ν 보μ ν¨μλ₯Ό μ¬μ©ν΄ νμ΅μμΌ λ‘λ΄μ΄ μ¬νμ μνΈμμ©μ΄ μ΄λ£¨μ΄μ§λ νκ²½μμ λ λμ νλμ νμ΅ν μ μλλ‘ νλ μ°κ΅¬κ° μ§νλκ³ μλ€.
λ λ²μ§Έλ‘ κΈ°μ‘΄μ λͺ¨λΈμ΄ μ΄λ―Έμ§ κΈ°λ° λͺ©νλ₯Ό μ¬μ©νλ€λ©΄, ν μ€νΈ κΈ°λ° λͺ©ν λλ GPS κΈ°λ° λͺ©νλ₯Ό μ μ©νλ κ²μ΄ λ μ μ©ν μ μλ€κ³ νλ¨νμ¬ μ°κ΅¬κ° μνλκ³ μλ€. κ·Έλ¬λ, ν μ€νΈ κΈ°λ° λͺ©νλ₯Ό μ μ©νλ €λ©΄ λͺ¨λ λ°μ΄ν°λ₯Ό ν μ€νΈλ‘ annotationν΄μΌ νλ λ¬Έμ κ° μλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μ΄λ―Έμ§ κΈ°λ° μ μ± μ νμ΅ν ν, GPS μ’νλ λͺ λ Ήμ΄λ₯Ό μΈμ½λ©νλ μλ‘μ΄ λͺ¨λμ μΆκ°νλ λ°©μμ μ¬μ©νλ€κ³ νλ€. μ΄ λ°©μμ GPT λͺ¨λΈμμ μννΈ ν둬νν (Soft Prompting)μ μ¬μ©νλ λ°©μκ³Ό μ μ¬νλ©°, ν₯ν μ°κ΅¬μμλ In-context Prompting λ°©μμ νμ©ν΄ λμ± ν¨κ³Όμ μΈ λͺ©ν μ€μ μ νꡬν μμ μ΄λΌκ³ νλ€.
λ§μ§λ§μΌλ‘ λκ·λͺ¨μ λ‘λ΄ λ°μ΄ν°μ ꡬμΆ(Open Cross-Embodiment Collaboration)μ΄ μ§ν μ€μ΄λ€. μ°κ΅¬ κ²°κ³Όμμ λ λ€μν λ‘λ΄ λ°μ΄ν°λ₯Ό ν΅ν©ν μλ‘ Positive Transfer νμμ΄ λ°μν¨μ νμΈνμμΌλ©°, νΉν manipulationκ³Ό navigation tasksλ₯Ό ν¨κ» μ μ± μΌλ‘ νμ΅ν κ²½μ°μ λ μμ λͺ¨λμμ μ±λ₯μ΄ κ°μ λλ ν¨κ³Όκ° λνλ¬λ€. μ΄λ¬ν μ°κ΅¬λ₯Ό λ°νμΌλ‘ λ λ€μν λ‘λ΄κ³Ό μμ λ°μ΄ν°λ₯Ό λμμ νμ΅νλ νλμ ν΅ν©λ λͺ¨λΈλ‘μ νμ₯ μ°κ΅¬κ° μ§νλκ³ μλ€κ³ νλ€.
5. Conclusion
λ°ν λ΄μ©μ μμ½νλ©΄ λ€μκ³Ό κ°λ€:
- λ‘λ΄ λΆμΌμμ Foundation Modelsμ μΌλ°μ μΌλ‘ λλμ λ°μ΄ν°λ₯Ό νμ©νμ¬ λ‘λ΄μ΄ λ€μν μμ μ ν¨ν΄μ νμ΅νκ³ , μ΄λ₯Ό ν΅ν΄ μ¬λ¬ μμ μ μν κ°λ₯νλλ‘ νλ λͺ¨λΈμ μλ―Ένλ€.
- λͺ¨λΈμ νλ ¨ν λ λ°μ΄ν°μ κ·λͺ¨λ§μΌλ‘ μΆ©λΆνμ§ μμΌλ©°, λ°μ΄ν°μ νμ§κ³Ό λ€μμ±μ μ§μ€νλ Data-centric Perspectiveκ° μ€μνλ€. νμ§λ§, κ³ νμ§ λ°μ΄ν°λ₯Ό ν보νλ κ²μ λμ λΉμ©κ³Ό μ΄λ €μμ΄ λ°λ₯΄λ λ¬Έμ μ΄λ€.
- Dhruv Shah λ°μ¬λ μ°κ΅¬μμ Robot Foundation Modelμ μΆκ°μ μΈ μ§λ νμ΅ μμ΄λ λ€μν λ‘λ΄μμ λ°λ‘ μ¬μ© κ°λ₯νλ©°, μ΄μ’ μΌμλ μλ‘μ΄ νκ²½μμλ μ μ©λ μ μλλ‘ μ€κ³λ λͺ¨λΈμ΄λΌ μ μνλ€.
- μμ λͺ¨λΈμ μ€κ³νκΈ° μν΄μλ Cross-Embodiment Learningμ κ°λ μ΄ νμνλ©°, μ΄λ μλ‘ λ€λ₯Έ λ‘λ΄μ νλ 곡κ°μ ν΅ν©νκ³ λ‘λ΄μ νΉμ±μ λ°μνλ ν둬ννΈλ₯Ό νμ©νμ¬ λͺ¨λΈμ νμ΅νλ λ°©μμ΄λ€. μ΄λ₯Ό ν΅ν΄ κ°λ³μ μΈ νμ΅λ³΄λ€, λ³΄λ€ μΌκ΄μ μ΄κ³ μΌλ°νλ μ±λ₯μ 보μΈλ€λ κ²μ΄ μ€νμ μΌλ‘ μ μ¦λμλ€.
- ν₯ν μ°κ΅¬μμλ κΈ°μ‘΄ λͺ¨λΈμ μ¬νμ 보μν¨μ μΆκ°, μλ‘μ΄ λͺ¨λ¬λ¦¬ν°(ν μ€νΈ/GPS κΈ°λ° λͺ©ν) μ μ©, λ λ§μ λ‘λ΄ λͺ¨λΈ λ° μμ μ νμ΅ν ν΅ν© λͺ¨λΈλ‘μ νμ₯μ λ°©ν₯μ΄ μ§νλ κ²μ΄λ€.
λμΌλ‘, μμ μΈκΈλ λͺ¨λΈ λ° κ΄λ ¨ νλ μμν¬λ μλ GitHubμμ νμΈν μ μλ€.
λ΄κ° μ°κ΅¬νλ νλμμ Dhruv Shah λ°μ¬λμ μ°κ΅¬λ€μ ν° μ£Όλͺ©μ λ°μμκ³ , νμ¬λ λ§μ κ΄μ¬μ λ°κ³ μλ€. μμΌλ‘λ μλ―Έ μλ μ°κ΅¬λ€μ΄ λμ¬ κ²μΌλ‘ κΈ°λλκΈ° λλ¬Έμ, κ³μν΄μ μ΄ν΄λ³Ό μμ μ΄λ€. κ·Έλ¦¬κ³ GitHubμ 곡κ°λ μ¬μ νμ΅λ λͺ¨λΈμ μ°κ΅¬μ€μ λ‘λ΄ νλ«νΌμ μ μ©νκ³ λ€μν λͺ¨λκ³Ό μ°κ³νμ¬ μ€νν΄ λ³Ό κ³νμΈλ°, μμ£Ό ν₯λ―Έλ‘μ΄ μμ μ΄ λ κ² κ°λ€!