CES 2024 랜선 보고서 래빗 R1(Rabbit R1)

래빗 R1(Rabbit R1). 의외로 이번 CES 2024에서 입소문 으로 유명해진 출품작입니다. 바로 Rabbit사의 R1 device입니다.

래빗 R1(Rabbit R1), 이건 뭐하는 디바이스일 까요?

이게 뭘까요? (출처: Rabbit 사 홈페이지)

이 귀엽게 생긴 손바닥 만한 크기의 장치는 스마트폰을 대체하는 디바이스는 아닙니다. 이것으로 넷플릭스 영화를 보거나 게임을 할 수는 없습니다.

하지만 우리가 손으로 PC, 태블릿, 워치, 스마트 폰등의 앱들을 터치하거나 타자를 치는등의 번거로운(?) 작업을 대신해 줄 수 있는 디바이스입니다. 

래빗 R1 (Rabbit R1)을 좀 더 쉽게 설명하자면, 나를 잘아는, 즉 내 스마트폰에 어떤 앱들이 깔려 있고 주로 내가 그것을 가지고 무엇을 하는지 잘 아는 개인 비서가 있고, 그 개인 비서에게 내가 사용하는 스마트폰을 준다음, 그 비서에게 “~~ 좀 해 줘”라고 “툭”하고 이야기 하면 그 비서가 나대신 스마트폰과 앱을 사용하여 그 일을 대신 처리해주는 그런 장치 입니다.

우버도 호출할 수 있습니다. 푸시 투 토크 버튼을 누르고 계속 누른 상태에서 “엠파이어 스테이트 빌딩으로 가는 우버를 불러줘”라고 말하면 됩니다.

마치 내가 우버앱을 터치하고 거기에 도착지를 입력하고 우버 서비스를 호출 컨펌을 하는 일을 대신 해 줄 수 있습니다. 

래빗 R1(Rabbit R1)은 몇 초 동안 음성으로 지시 받은 요청을 분석한 후, 화면에 요금이나 다른 세부사항을 보여주는 카드를 표시하고, 확인을 요청합니다. 

식당 예약을 하거나, 항공권을 예약하거나, Spotify 재생 목록에 노래를 추가하는 등 다양한 영역에서도 동일하게 동작합니다.

래빗 R1 (Rabbit R1)이 가진 특별한 점은 이 장치에는 위에서 이야기 한 그 어떤 앱도 없는데도 불구하고 이런 일이 가능하다는 것입니다.

또한 이 디바이스 자체는 앱의 API(클라우드 서비스가 데이터 요청을 위해 사용하는 소프트웨어 게이트웨이, 주로 URL 형태로 지정 됨)에도 연결되지 않습니다.

스마트폰과도 페어링되지 않습니다.

뭐가 다른데요?

그런데, 여기까지 설명을 보고 나면 이걸 굳이? 우리에게 친숙한 A사의 S나 S사의 B 음성지원이 있지 않나? 무엇이 다르지?라는 생각을 가질 수 있는데요.

위의 음성 지원 기능은 해당 디바이스의 입력을 대신하는 기능으로 한 번의 명령에 하나의 어플리케이션 (해당 음성인식을 지원하는)만 조작이 가능한 반면, 이 Rabbit은 우리가 여러개의 앱을 통하여 수행을 해야 하는 복잡한 작업들도 한 번에 수행 할 수 있다는 점입니다.

예를 들어 아침에 일어나서 음악을 틀고 밤 사이 미국 주가를 확인한 후 나에게 온 카톡이 무엇이 있으며 메일을 확인하려고 합니다.

위의 일을 현재 S나 B의 음성인식을 사용하여 하려고 하면, 해당 앱마다 하나 하나씩 해야 할 일을 생각하고 음성인식을 통하여, 앱별로 각 각 지시를 해야 수행이 가능하지만, Rabbit의 경우는 그냥 우리가 생각나는 대로 이야기 하면 디바이스가 알아서 이 모든 일련 과정을 알아서 수행 할 수 있다는 점입니다.

위에서 예로 든 나를 잘아는 개인 비서가 대신 해주는 것처럼 말이죠. (물론 보도자료 기준입니다.) 

아마도 이런 동작 메카니즘을 가장 잘 설명해 주는 것이 래빗사의 홈페이지 그림이 아닐까 싶습니다.

래빗 OS, LAM 개념도

스크린에 있는 유저가 뭐라 이야기 하면 해당 내용이 바이너리 박스에 담겨져 컨베이어 벨트로 각 공정으로 전달됩니다.

토끼들이 열심히 일을 하고 마지막으로 당근으로 변해(액션) 열심히 옮기고 있는 중입니다.(액션 수행)

어떤 기술이 적용 되었나?

Rabbit OS는 각 개인의 웹 포털을 통해 개인이 선택한 앱에 대해 Rabbit OS가 접근을 하도록 할 수 있는 허용을 토글할 수 있는 레이어로 작동합니다.

개인마다 OpenTable, Uber, Spotify, Doordash, Amazon과 같은 서비스에 로그인할 수 있는 링크가 여러 개 있는 Rabbit Hole이라는 웹 페이지가 제공되고 이를 통해 Rabbit OS의 접근을 제어합니다.

이 중 하나를 누르면 로그인하라는 메시지가 나타나고, Rabbit OS에게 연결된 계정을 대신하여 작업을 수행할 수 있는 권한을 부여한다고 설명하고 있습니다.

이렇게 접근 권한이 생성된 백엔드 사이드의 소프트웨어는 Large language model과 Rabbit 사가 개발한 Large action model의 조합으로 동작합니다. 

Large language model은 실제로 사용자가 음성으로 요청한 작업의 문장을 사용하여 사용자가 의도(intent), 즉 “무엇을 하고 싶은지”에 대해 도출해 내고, (실제로 OpenAI의 ChatGPT를 사용한다고 합니다.) 대규모 행동 모델은 이러한 의도를 실현하기 위한 액션을 수행한다고 합니다.

이 LAM은 사람이 하는 행동을 관찰하고 이를 흉내내도록 학습하는 것으로 보입니다.

회사 홈페이지의 LAM 에 대한 소개 내용을 보면, LAM은 neuro-symbolic AI의 최근 성과에 바탕하고 있다고 합니다. 

아울러 “Learning by demonstration”이라는 머신러닝 기술이 자신의 기반 기술이라고 밝히고 있습니다. 

  • Neuro-symbolic programming은 신경과 기호의 두 가지 인공지능 아키텍처를 결합하여 각각의 약점을 보완하고, 추론, 학습, 인지 모델링을 할 수 있는 강력한 인공지능을 만드는 새로운 연구 분야입니다. 
  • Neuro-symbolic 모델은 고수준의 개념이나 알려진 제약 조건을 사용하여 데이터로부터 복잡한 패턴과 표현을 학습합니다. 많이 알려져 있는 AlphaGo 가 바둑의 패턴과 승리 전략을 찾는데 쓴 방법인 몬테카를로 트리 검색 방식도 이 분야의 기술로 알려져 있습니다.

Rabbit사의 LAM은 이를 통해, 많은 어플리케이션과 사람이 그 어플리케이션에서 수행하는 수많은 액션들을 모델링하는데 성공했다고 합니다. 

개발사의 설명에 따르면, 회사는 가장 인기 있는 앱들에 대한 여러 가지 행동을 이미 훈련시켰으며, Rabbit의 능력은 이런 학습의 데이터가 쌓일 수록 점점 성장할 수 있는 가능성을 가지고 있다고 합니다.

개인 정보 보호는?

이쯤 되면 걱정되는 것이 있습니다. 바로 개인 정보 보호이죠.

Rabbit사의 홈페이지에는 아래와 같은 설명이 있습니다.

사용자의 정보와 액션을 처리하는 LAM의 실행환경은 사용자마다 외부와 단절되고 고유한 실행 영역이 할당된다. 그리고 LAM이 접근할 앱에 대한 개인 정보 전달 과정도 프로텍션 될 것이다. 특히 대금을 지불하는 과정등은 사전에 사용자의 동의를 얻도록 할 것이다.

또한 앱의 서비스를 제공하는 서비스 제공자에게는 허위계정등을 통한 접근을 하지 않을 것이며 또한 현재 사용가능한 API를 넘어서는 리버스 엔지니어링을 하지 않을 것이다 정도로 정리 될 수 있을 것 같습니다.

래빗 R1(Rabbit R1), 기대 되는 “Teach mode”

래빗 R1 (Rabbit R1)의 LAM에서 가장 흥미로운 기능 중 하나는 실험적인 “Teach 모드”입니다.(추후 업데이트를 통해 도입될 예정입니다.)

사용자 별로 이 래빗 R1 (Rabbit R1) 디바이스에게 심부름 시킬 일을 직접 가르치고 그 일을 마치 개인 비서에게 명령하듯 시킬 수 있습니다.

방법은 사용자가 래빗 R1 (Rabbit R1)의 카메라를 데스크톱 화면이나 전화기를 보게 하도록 하고 R1이 사용자를 위해서 대신 해주기를 원하는 작업을 수행하면 됩니다. 

위의 행위는 본질적으로 사용자만의 R1에게 자동화하고 싶은 특수한 작업을 배우게 하는 것입니다. 토끼들이 작업을 배우게 되면, 다른 앱 구동과 마찬가지로, 버튼을 누르고 R1에게 우리가 가르친 것을 하도록 요청할 수 있습니다.

현장에 있는 담당직원의 설명에 따르면, 개발 팀은 Diablo IV라는 비디오 게임에서 살아남는 방법을 R1에게 가르쳤다고 말합니다. 게임의 적을 제거하고 체력 바를 채우는 모든 방법을 보여주면서요.(결과가 궁금하네요) 이론적으로, 토끼에게 캐릭터를 만들고 레벨업을 시키라고 요청할 수 있으므로, 게임에서 노가다를 할 필요가 없습니다.

래빗 R1(Rabbit R1) 하드웨어 사양 및 가격

래빗 R1 (Rabbit R1) 적오렌지색의 정사각형 모양의 장치입니다. 이 장치는 스웨덴의 회사인 Teenage Engineering과 협력하여 디자인되었습니다. 

  • 래빗 R1 (Rabbit R1)의 왼쪽에는 2.88인치 터치스크린이 있고, 그 오른쪽에는 아날로그 스크롤 휠이 있습니다.
  • 스크롤 휠 위에는 360도 회전할 수 있는 카메라가 있습니다. 이 카메라는 “Rabbit Eye”라고 불리며, 사용하지 않을 때는 카메라가 위나 아래를 향하게 되어 사실상 프라이버시 셔터 역할을 합니다.
  • 이 카메라는 셀카 카메라나 후면 카메라로 사용할 수 있습니다만, 주된 목적은 위에서 설명한 “Teach mode”에 적용하기 위함입니다.
  • 오른쪽 가장자리에는 R1에 음성 명령을 주기 위해 누르고 계속 누르는 무전기와 같은 푸시 투 토크 버튼이 있고, 끊임없는 연결을 위한 4G LTE SIM 카드 슬롯이 있습니다.
  • 충전을 위한 USB-C 포트가 있고, Rabbit은 한 번 충전으로 “하루 종일” 사용할 수 있다고 합니다.

R1의 가격은 199달러입니다

예약 주문을 받고 있으며(네번째 주문완판이랍니다.), 3월 말에 배송될 예정입니다.

래빗 R1(Rabbit R1) 언어 지원

우리에게는 가장 중요한 부분이죠. 바로 한국어 지원입니다. 

불행하게도 현재 한국어는 지원되지 않습니다. 다행히 “Planned” 상태인 언어에 한국어가 들어가 있으므로 조만간 지원 되길 바랍니다.

영어가 되시는 분은 상관 없을 거구요. 안되는데도 난 써 봐야 겠다라는 분은 음… ChatGPT의 음성지원기능을 써보시는 건 어떨까요? 

마치며

일반적으로 알려져 있는 On-Device AI의 장점은 아래와 같습니다.

  1. 데이터 보안: 사용자 데이터는 기기에 저장되므로, 데이터 유출의 위험이 줄어듭니다.
  2. 개인정보 보호: 개인 데이터가 기기를 벗어나지 않으므로, 개인정보 보호가 강화됩니다.
  3. 오프라인 작동: 인터넷 연결이 없는 상황에서도 AI 기능을 사용할 수 있습니다.

인터넷 연결이 없는 상황에서도 AI를 사용할 수 있다라는 proposition은 잘못된 관점이 아닐까 싶습니다. 해외여행을 가시던 어디를 가시던, 인터넷 연결이 없는 상황을 얼마나 경험하시나요?

진정한 On-Device AI의 장점은 바로 아래 그림의 글에 있습니다.

예. 내 스마트폰에 있는 나만의 콘텍스트를 학습하여 나의 니드에 맞는 나만의 답을 내는 포터블 AI. 이것이 바로 On-device AI의 장점이 아닌가 싶습니다.  

Similar Posts

Leave a Reply