Minho Lee

Master's Student

Robotics Engineer

AI Researcher

Blogger

Blog Post

Foundation Models of and for Navigation

Feb 04, 2025 Study
Foundation Models of and for Navigation

πŸ“Œ ICRA 2024 Workshopμ—μ„œ μ—΄λ¦° Vision-Language Models for Navigation and Manipulation (VLMNM)λ₯Ό 주제둜 ν•œ invited talk μ€‘μ—μ„œ ViNT, GNM, NoMaD λ…Όλ¬Έμ˜ μ €μžμΈ Dhruv Shah λ°•μ‚¬λ‹˜μ˜ β€œFoundation Models of and for Navigation” λ°œν‘œλ₯Ό 정리해보렀고 ν•œλ‹€.

μ›Œν¬μˆμ— λŒ€ν•œ 정보와 전체 λ°œν‘œ μ˜μƒμ€ μ•„λž˜ 링크λ₯Ό 톡해 확인할 수 μžˆλ‹€.

1. Foundation Models

λ‘œλ΄‡ λΆ„μ•Όμ˜ 졜근의 λ°œμ „μ„ 보면, μ€‘μš”ν•œ 핡심은 λŒ€λŸ‰μ˜ 데이터λ₯Ό ν™œμš©ν•œ ν•™μŠ΅μ— μžˆλ‹€. λ‹€μ–‘ν•œ μž‘μ—…μ—μ„œ μˆ˜μ§‘λœ 데이터λ₯Ό 톡해 λͺ¨λΈμ΄ μž‘μ—…μ˜ νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜κ³  이λ₯Ό ν™œμš©ν•˜μ—¬ μ—¬λŸ¬ μž‘μ—…μ„ μˆ˜ν–‰ν•  수 μžˆλ„λ‘ ν•˜λŠ” 것이닀. μ΄λŸ¬ν•œ λͺ¨λΈλ“€μ„ β€œFoundation Models”라고 ν•œλ‹€. 일반적으둜 μ΄λŸ¬ν•œ Foundation Model듀은 κ΄‘λ²”μœ„ν•œ 데이터셋을 μ‚¬μš©ν•˜μ—¬ μžκ°€ 지도 ν•™μŠ΅μ„ 톡해 ν•™μŠ΅λ˜λ©°, μ΅œμ†Œν•œμ˜ 지도 ν•™μŠ΅λ§ŒμœΌλ‘œλ„ λ›°μ–΄λ‚œ μΌλ°˜ν™” 및 적응 λŠ₯λ ₯을 κ°–λŠ” 것이 νŠΉμ§•μ΄λ‹€.

μ΄λŸ¬ν•œ λͺ¨λΈλ“€μ€ β€œμΈν„°λ„· 기반 λͺ¨λΈ (Internet Foundation Models)”이라고 ν•  μˆ˜λ„ μžˆλŠ”λ°, κ·Έ μ΄μœ λŠ” 이런 λͺ¨λΈλ“€μ€ λŠ₯λ™μ μœΌλ‘œ 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” 것이 μ•„λ‹ˆλΌ 인터넷에 μ‘΄μž¬ν•˜λŠ” λ‹€μ–‘ν•œ 데이터듀을 ν™œμš©ν•΄ ν›ˆλ ¨λ˜κΈ° λ•Œλ¬Έμ΄λ‹€. μ΄λŸ¬ν•œ 데이터와 λͺ¨λΈμ˜ 톡합은 data-driven roboticsμ—μ„œ μ€‘μš”ν•œ 역할을 ν•  수 μžˆλ‹€.

λͺ¨λΈμ„ ν›ˆλ ¨ν•  λ•Œ λ‹¨μˆœνžˆ λ°μ΄ν„°μ˜ 규λͺ¨λ§ŒμœΌλ‘œ μΆ©λΆ„ν•œ 것은 μ•„λ‹ˆλ‹€. λͺ¨λΈμ˜ μ„±λŠ₯을 높이기 μœ„ν•΄μ„œλŠ” λ°μ΄ν„°μ˜ ν’ˆμ§ˆκ³Ό 닀양성에 μ§‘μ€‘ν•˜λŠ” 데이터 쀑심적 μ ‘κ·Ό(Data-centric perspective)이 μ€‘μš”ν•˜λ‹€. κ·ΈλŸ¬λ‚˜ μ΄λŸ¬ν•œ κ³ ν’ˆμ§ˆμ˜ 그리고 λ‹€μ–‘ν•œ 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” 것은 맀우 μ–΄λ ΅κ³  λΉ„μš©μ΄ 많이 λ“œλŠ” λ¬Έμ œμ΄λ‹€.

μ΄λŸ¬ν•œ κ΄€μ μ—μ„œ Dhruv Shah λ°•μ‚¬λŠ” 기쑴에 μ‘΄μž¬ν•˜λŠ” 데이터λ₯Ό ν™œμš©ν•˜μ—¬ 데이터 기반 λ‘œλ³΄ν‹±μŠ€λ₯Ό μ–΄λ–»κ²Œ μ‹€ν˜„ν•  것인지에 집쀑해 μ™”λ‹€. κΈ°μ‘΄ 데이터듀은 μ„œλ‘œ λ‹€λ₯Έ ν™˜κ²½κ³Ό λ‹€μ–‘ν•œ μž‘μ—…μ—μ„œ μˆ˜μ§‘λ˜μ–΄ κ²‰λ³΄κΈ°μ—λŠ” 맀우 이질적으둜 보일 수 μžˆλ‹€. κ·ΈλŸ¬λ‚˜ μ μ ˆν•œ λͺ©ν‘œμ™€ ꡬ쑰λ₯Ό μ •μ˜ν•˜λ©΄ μ΄λŸ¬ν•œ 데이터λ₯Ό 효과적으둜 ν™œμš©ν•˜μ—¬ λ‘œλ΄‡ κ°„ 전이 κ°€λŠ₯ν•œ μœ μš©ν•œ ν‘œν˜„μ„ ν•™μŠ΅ν•  수 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆλ‹€.

2. Robot Foundation Model

Robot Foundation Modelμ΄λž€ μš©μ–΄λŠ” λ§Žμ€ 의미λ₯Ό ν¬ν•¨ν•˜κ³  있으며, μ‚¬λžŒλ“€λ§ˆλ‹€ 각자 λ‹€λ₯Έ λ°©μ‹μœΌλ‘œ 이해할 μˆ˜λ„ μžˆλ‹€. Dhruv Shah λ°•μ‚¬λŠ” μ—°κ΅¬μ—μ„œ Robot Foundation Model을 ν•œ 번 ν›ˆλ ¨λ˜λ©΄ 좔가적인 지도 ν•™μŠ΅ 없이도 λ‹€μ–‘ν•œ λ‘œλ΄‡μ—μ„œ λ°”λ‘œ μ‚¬μš©ν•  수 μžˆλŠ” λͺ¨λΈμ΄λΌ μ •μ˜ν•˜μ˜€λ‹€. μ΄λŠ” μ„œλ‘œ λ‹€λ₯Έ μ„Όμ„œλ₯Ό 가진 λ‘œλ΄‡, μ „ν˜€ λ‹€λ₯Έ ν™˜κ²½μ— 놓인 λ‘œλ΄‡μ—μ„œλ„ μƒˆλ‘œμš΄ μž‘μ—…μ„ μˆ˜ν–‰ν•  수 μžˆλ„λ‘ μ„€κ³„λœ λͺ¨λΈμ„ μ˜λ―Έν•œλ‹€. 이λ₯Ό μœ„ν•΄μ„œ λͺ¨λΈμ΄ μΆ©μ‘±ν•΄μ•Ό ν•˜λŠ” μ£Όμš” 쑰건은 μ•„λž˜μ™€ κ°™λ‹€:

μ΄λŸ¬ν•œ λͺ¨λΈμ„ λ§Œλ“€κΈ° μœ„ν•΄μ„œλŠ” 기쑴의 κ°œλ³„μ μΈ λ‘œλ΄‡λ³„ ν•™μŠ΅ λ°©μ‹μ—μ„œ λ²—μ–΄λ‚˜, μ—¬λŸ¬ λ‘œλ΄‡μ—μ„œ μˆ˜μ§‘ν•œ 데이터λ₯Ό ν†΅ν•©ν•˜μ—¬ λ‹¨μΌν•œ κ±°λŒ€ 신경망 λͺ¨λΈμ„ ν•™μŠ΅ν•˜λŠ” 방식 (Cross-Embodiment Learning)이 μš”κ΅¬λœλ‹€.

3. Cross-Embodiment Learning

μ„œλ‘œ λ‹€λ₯Έ λ‘œλ΄‡ 데이터λ₯Ό ν•˜λ‚˜μ˜ λͺ¨λΈμ—μ„œ ν•™μŠ΅μ‹œν‚€κΈ° μœ„ν•΄μ„œλŠ” νŠΉμ •ν•œ 섀계 원칙이 ν•„μš”ν•˜λ‹€.

  • κ³΅ν†΅λœ 행동 곡간(action space) μ •μ˜: 각 λ‘œλ΄‡μ€ μ„œλ‘œ λ‹€λ₯Έ 행동 곡간(rotor velocities, joint angles …)을 가진닀. λ”°λΌμ„œ, 이λ₯Ό 톡합할 수 μžˆλŠ” κ³΅ν†΅λœ ν‘œν˜„μ΄ ν•„μš”ν•˜λ‹€.
  • λ‘œλ΄‡μ˜ νŠΉμ„±μ„ λ°˜μ˜ν•˜λŠ” ν”„λ‘¬ν”„νŠΈ (Embodiment Prompt): λ‘œλ΄‡λ§ˆλ‹€ κ΅¬μ‘°λ‚˜ 이동 방식이 λ‹€λ₯΄κΈ° λ•Œλ¬Έμ—, λͺ¨λ“  λ‘œλ΄‡μ— λ™μΌν•œ λ°©μ‹μ˜ μ œμ–΄ λͺ¨λΈμ„ μ μš©ν•˜κΈ° μ–΄λ ΅λ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λ‘œλ΄‡μ˜ νŠΉμ„±μ„ λͺ…μ‹œμ μΈ μ‹œμŠ€ν…œ νŒŒλΌλ―Έν„°λ‘œ 직접 ν•™μŠ΅ν•˜λŠ” λŒ€μ‹  λ‘œλ΄‡μ΄ 과거에 μˆ˜ν–‰ν•œ 행동 데이터λ₯Ό ν™œμš©ν•˜μ—¬ λͺ¨λΈμ΄ 슀슀둜 λ‘œλ΄‡μ˜ νŠΉμ„±μ„ ν•™μŠ΅ν•˜λ„λ‘ ν•˜λŠ” μ ‘κ·Ό 방식이 μš”κ΅¬λœλ‹€. λ‹€μ‹œ 말해, Embodiment Promptλž€ λ‘œλ΄‡μ˜ κ³Όκ±° 행동 데이터λ₯Ό μž…λ ₯으둜 μ œκ³΅ν•˜μ—¬ λͺ¨λΈμ΄ ν•΄λ‹Ή λ‘œλ΄‡μ˜ νŠΉμ„±μ„ μžλ™μœΌλ‘œ λ°˜μ˜ν•˜λŠ” 기법을 μ˜λ―Έν•œλ‹€.

κ°œλ³„ λ‘œλ΄‡ λ°μ΄ν„°λ§Œ ν•™μŠ΅ν•œ λͺ¨λΈλ³΄λ‹€, μ—¬λŸ¬ λ‘œλ΄‡μ˜ 데이터λ₯Ό 톡합해 ν•™μŠ΅ν•œ λͺ¨λΈ(GNM, General Navigation Model)이 μΌκ΄€λ˜κ²Œ 높은 μ„±λŠ₯을 기둝함을 λ³΄μ—¬μ£Όμ—ˆλ‹€. λ˜ν•œ, κ°œλ³„ λ‘œλ΄‡μ—μ„œ ν•™μŠ΅ν•œ 정책보닀 λ‹€μˆ˜μ˜ λ‘œλ΄‡ 데이터λ₯Ό κ²°ν•©ν•œ 정책이 λ”μš± μΌλ°˜ν™”λœ μ„±λŠ₯을 보이며, λͺ¨λΈμ˜ 크기가 컀질 λ•Œμ—λ„ μ„±λŠ₯이 더 크게 ν–₯상됨을 λ³΄μ˜€λ‹€.

4. Downstream Adaptation

μ œμ•ˆν•˜κ³  μžˆλŠ” Robot Foundation Model을 기반으둜 더 κ³ μ°¨μ›μ˜ κΈ°λŠ₯을 μΆ”κ°€ν•˜κΈ° μœ„ν•œ 연ꡬ가 μ§„ν–‰λ˜κ³  μžˆλ‹€. μ£Όμš” 연ꡬ λ°©ν–₯은 크게 μ„Έ κ°€μ§€λ‘œ λ‚˜λ‰˜λŠ”λ°, 기본적으둜 ν•™μŠ΅λœ λͺ¨λΈμ€ λ‹¨μˆœνžˆ λͺ©ν‘œ 지점에 λ„λ‹¬ν•˜κ³  μΆ©λŒμ„ νšŒν”Όν•˜λŠ” κΈ°λŠ₯λ§Œμ„ μˆ˜ν–‰ν•œλ‹€λ©΄ κΈ°μ‘΄ λͺ¨λΈμ— μ•½κ°„μ˜ μΆ”κ°€ 데이터와 μ μ ˆν•œ 보상 ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•΄ ν•™μŠ΅μ‹œμΌœ λ‘œλ΄‡μ΄ μ‚¬νšŒμ  μƒν˜Έμž‘μš©μ΄ μ΄λ£¨μ–΄μ§€λŠ” ν™˜κ²½μ—μ„œ 더 λ‚˜μ€ 행동을 ν•™μŠ΅ν•  수 μžˆλ„λ‘ ν•˜λŠ” 연ꡬ가 μ§„ν–‰λ˜κ³  μžˆλ‹€.

두 번째둜 기쑴의 λͺ¨λΈμ΄ 이미지 기반 λͺ©ν‘œλ₯Ό μ‚¬μš©ν–ˆλ‹€λ©΄, ν…μŠ€νŠΈ 기반 λͺ©ν‘œ λ˜λŠ” GPS 기반 λͺ©ν‘œλ₯Ό μ μš©ν•˜λŠ” 것이 더 μœ μš©ν•  수 μžˆλ‹€κ³  νŒλ‹¨ν•˜μ—¬ 연ꡬ가 μˆ˜ν–‰λ˜κ³  μžˆλ‹€. κ·ΈλŸ¬λ‚˜, ν…μŠ€νŠΈ 기반 λͺ©ν‘œλ₯Ό μ μš©ν•˜λ €λ©΄ λͺ¨λ“  데이터λ₯Ό ν…μŠ€νŠΈλ‘œ annotationν•΄μ•Ό ν•˜λŠ” λ¬Έμ œκ°€ μžˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 이미지 기반 정책을 ν•™μŠ΅ν•œ ν›„, GPS μ’Œν‘œλ‚˜ λͺ…λ Ήμ–΄λ₯Ό μΈμ½”λ”©ν•˜λŠ” μƒˆλ‘œμš΄ λͺ¨λ“ˆμ„ μΆ”κ°€ν•˜λŠ” 방식을 μ‚¬μš©ν–ˆλ‹€κ³  ν•œλ‹€. 이 방식은 GPT λͺ¨λΈμ—μ„œ μ†Œν”„νŠΈ ν”„λ‘¬ν”„νŒ…(Soft Prompting)을 μ‚¬μš©ν•˜λŠ” 방식과 μœ μ‚¬ν•˜λ©°, ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” In-context Prompting 방식을 ν™œμš©ν•΄ λ”μš± 효과적인 λͺ©ν‘œ 섀정을 탐ꡬ할 μ˜ˆμ •μ΄λΌκ³  ν•œλ‹€.

λ§ˆμ§€λ§‰μœΌλ‘œ λŒ€κ·œλͺ¨μ˜ λ‘œλ΄‡ 데이터셋 ꡬ좕(Open Cross-Embodiment Collaboration)이 진행 쀑이닀. 연ꡬ κ²°κ³Όμ—μ„œ 더 λ‹€μ–‘ν•œ λ‘œλ΄‡ 데이터λ₯Ό 톡합할 수둝 Positive Transfer ν˜„μƒμ΄ λ°œμƒν•¨μ„ ν™•μΈν•˜μ˜€μœΌλ©°, 특히 manipulationκ³Ό navigation tasksλ₯Ό ν•¨κ»˜ μ •μ±…μœΌλ‘œ ν•™μŠ΅ν•  κ²½μš°μ— 두 μž‘μ—… λͺ¨λ‘μ—μ„œ μ„±λŠ₯이 κ°œμ„ λ˜λŠ” νš¨κ³Όκ°€ λ‚˜νƒ€λ‚¬λ‹€. μ΄λŸ¬ν•œ 연ꡬλ₯Ό λ°”νƒ•μœΌλ‘œ 더 λ‹€μ–‘ν•œ λ‘œλ΄‡κ³Ό μž‘μ—… 데이터λ₯Ό λ™μ‹œμ— ν•™μŠ΅ν•˜λŠ” ν•˜λ‚˜μ˜ ν†΅ν•©λœ λͺ¨λΈλ‘œμ˜ ν™•μž₯ 연ꡬ가 μ§„ν–‰λ˜κ³  μžˆλ‹€κ³  ν•œλ‹€.

5. Conclusion

λ°œν‘œ λ‚΄μš©μ„ μš”μ•½ν•˜λ©΄ λ‹€μŒκ³Ό κ°™λ‹€:

  • λ‘œλ΄‡ λΆ„μ•Όμ—μ„œ Foundation Models은 일반적으둜 λŒ€λŸ‰μ˜ 데이터λ₯Ό ν™œμš©ν•˜μ—¬ λ‘œλ΄‡μ΄ λ‹€μ–‘ν•œ μž‘μ—…μ˜ νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜κ³ , 이λ₯Ό 톡해 μ—¬λŸ¬ μž‘μ—…μ„ μˆ˜ν–‰ κ°€λŠ₯ν•˜λ„λ‘ ν•˜λŠ” λͺ¨λΈμ„ μ˜λ―Έν•œλ‹€.
  • λͺ¨λΈμ„ ν›ˆλ ¨ν•  λ•Œ λ°μ΄ν„°μ˜ 규λͺ¨λ§ŒμœΌλ‘œ μΆ©λΆ„ν•˜μ§€ μ•ŠμœΌλ©°, λ°μ΄ν„°μ˜ ν’ˆμ§ˆκ³Ό 닀양성에 μ§‘μ€‘ν•˜λŠ” Data-centric Perspectiveκ°€ μ€‘μš”ν•˜λ‹€. ν•˜μ§€λ§Œ, κ³ ν’ˆμ§ˆ 데이터λ₯Ό ν™•λ³΄ν•˜λŠ” 것은 높은 λΉ„μš©κ³Ό 어렀움이 λ”°λ₯΄λŠ” λ¬Έμ œμ΄λ‹€.
  • Dhruv Shah λ°•μ‚¬λŠ” μ—°κ΅¬μ—μ„œ Robot Foundation Model을 좔가적인 지도 ν•™μŠ΅ 없이도 λ‹€μ–‘ν•œ λ‘œλ΄‡μ—μ„œ λ°”λ‘œ μ‚¬μš© κ°€λŠ₯ν•˜λ©°, 이쒅 μ„Όμ„œλ‚˜ μƒˆλ‘œμš΄ ν™˜κ²½μ—μ„œλ„ 적용될 수 μžˆλ„λ‘ μ„€κ³„λœ λͺ¨λΈμ΄λΌ μ •μ˜ν–ˆλ‹€.
  • μœ„μ˜ λͺ¨λΈμ„ μ„€κ³„ν•˜κΈ° μœ„ν•΄μ„œλŠ” Cross-Embodiment Learning의 κ°œλ…μ΄ ν•„μš”ν•˜λ©°, μ΄λŠ” μ„œλ‘œ λ‹€λ₯Έ λ‘œλ΄‡μ˜ 행동 곡간을 ν†΅ν•©ν•˜κ³  λ‘œλ΄‡μ˜ νŠΉμ„±μ„ λ°˜μ˜ν•˜λŠ” ν”„λ‘¬ν”„νŠΈλ₯Ό ν™œμš©ν•˜μ—¬ λͺ¨λΈμ„ ν•™μŠ΅ν•˜λŠ” 방식이닀. 이λ₯Ό 톡해 κ°œλ³„μ μΈ ν•™μŠ΅λ³΄λ‹€, 보닀 일관적이고 μΌλ°˜ν™”λœ μ„±λŠ₯을 λ³΄μΈλ‹€λŠ” 것이 μ‹€ν—˜μ μœΌλ‘œ μž…μ¦λ˜μ—ˆλ‹€.
  • ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” κΈ°μ‘΄ λͺ¨λΈμ— μ‚¬νšŒμ  λ³΄μƒν•¨μˆ˜ μΆ”κ°€, μƒˆλ‘œμš΄ λͺ¨λ‹¬λ¦¬ν‹°(ν…μŠ€νŠΈ/GPS 기반 λͺ©ν‘œ) 적용, 더 λ§Žμ€ λ‘œλ΄‡ λͺ¨λΈ 및 μž‘μ—…μ„ ν•™μŠ΅ν•œ 톡합 λͺ¨λΈλ‘œμ˜ ν™•μž₯의 λ°©ν–₯이 진행될 것이닀.

끝으둜, μ•žμ„œ μ–ΈκΈ‰λœ λͺ¨λΈ 및 κ΄€λ ¨ ν”„λ ˆμž„μ›Œν¬λŠ” μ•„λž˜ GitHubμ—μ„œ 확인할 수 μžˆλ‹€.

λ‚΄κ°€ μ—°κ΅¬ν•˜λŠ” ν•„λ“œμ—μ„œ Dhruv Shah λ°•μ‚¬λ‹˜μ˜ 연ꡬ듀은 큰 μ£Όλͺ©μ„ λ°›μ•˜μ—ˆκ³ , ν˜„μž¬λ„ λ§Žμ€ 관심을 λ°›κ³  μžˆλ‹€. μ•žμœΌλ‘œλ„ 의미 μžˆλŠ” 연ꡬ듀이 λ‚˜μ˜¬ κ²ƒμœΌλ‘œ κΈ°λŒ€λ˜κΈ° λ•Œλ¬Έμ—, κ³„μ†ν•΄μ„œ μ‚΄νŽ΄λ³Ό μ˜ˆμ •μ΄λ‹€. 그리고 GitHub에 곡개된 사전 ν•™μŠ΅λœ λͺ¨λΈμ„ μ—°κ΅¬μ‹€μ˜ λ‘œλ΄‡ ν”Œλž«νΌμ— μ μš©ν•˜κ³  λ‹€μ–‘ν•œ λͺ¨λ“ˆκ³Ό μ—°κ³„ν•˜μ—¬ μ‹€ν—˜ν•΄ λ³Ό κ³„νšμΈλ°, μ•„μ£Ό ν₯미둜운 μž‘μ—…μ΄ 될 것 κ°™λ‹€!


Comments