共創するプレーヤーたち
米国発「身体化AI」実装への挑戦（2）

2026年2月26日

前編では、ヒューマノイドを巡る技術動向や研究開発の最前線、「世界モデル」を含む知能アーキテクチャーの進展を概観した。本編では、こうした技術が実際どのように産業化・社会実装へと向かいつつあるのかをヒューマノイド・サミットの主催者および日本発スタートアップ企業へのインタビューを通じて明らかにする。

「投資」ではなく「場」をつくる、ヒューマノイド・サミットの思想

ヒューマノイド・サミットを創設したモダール・アラウィ氏は、自動運転分野での起業経験を経てベンチャーファンド設立に踏み切った。しかし、生成人工知能（AI）ブームの中で、製品やデモが未成熟な段階でも資金が過剰に流入する状況に違和感を覚え、大規模言語モデル（LLM）中心の「AIスタートアップ」への投資には距離を置き、特定分野に深く関与する投資スタイルを選択した。

アラウィ氏が注目したのは、AIを搭載したロボティクス、すなわち身体化AI（embodied AI）だ。「身体化AIの分野には、当時エコシステムが存在しなかった。どこでスタートアップに出会い、どうやって彼らを繋げればいいのかわからなかった。だから最初の投資先としてスタートアップでなく、ヒューマノイド・サミットという『場』をつくることにした。」と語った。こうして2023年に立ち上げたヒューマノイド・サミットは米国や欧州で開催され、設立2年で参加者や関係者の広がりとともに発展してきたという。

またアラウィ氏は、ヒューマノイド開発の技術面で、短期的には視覚・言語・行動モデル（VLAモデル）が実装の中心となる一方、中期的には環境や行動結果を内部的にシミュレーションする「世界モデル」が重要になるとみる。ロボティクス分野では日本が主要な製造拠点となる可能性を強調し、さらにAIモデル分野での国際協業と実行力が不可欠だと指摘した。

「壊れたら交換する」モジュール設計が切り開くヒューマノイド実装

モジュラー型ヒューマノイドを開発する日本発スタートアップのO-ID（本社：東京）のスティアン・ヤコブセン創業者兼最高経営責任者（CEO）と、サイモン・ゴルムゾフ創業者兼最高技術責任者（CTO）の両者は、ヒューマノイドの社会実装における最大の課題を「運用と保守」の面にみている。現在のロボットは一体型が多く、故障時には工場へ送り返す必要があり、復旧までの時間、金銭的損失が大きく、導入を躊躇（ちゅうちょ）させる要因となってきた。

O-IDはこれを解決するため、手や腕といったヒューマノイドの部位をモジュール化し、故障箇所のみを現場で交換できる設計を採用する。ヤコブセン氏は、「今のロボットは壊れると工場に送り返すしかなく、その間は仕事が止まる。だから、壊れた部品だけを外して交換できることが重要だ」と語る。長期運用を前提に考えれば、ロボット全体を買い替えるのではなく、部品単位で修理できる構造は、ユーザーフレンドリーだ。同社は、日本メーカーの持つ部品技術を組み合わせ、ハードウエアは日本で作ることを重視している。

同社の特徴は、ハードウエアだけでなくAIモデルの扱いにも同様の柔軟性を持たせている点だ。ゴルムゾフ氏は、「私たちはAIモデルもロボットの部品だと考えている。重要なのは、特定のモデルに縛られず、必要に応じて外部のモデルを組み込めることだ」と語る。巨大な計算資源を持つ大手テック企業とモデル開発で競争するのではなく、外部モデルを柔軟に統合していく方針だ。リアルタイム制御や学習効率の観点から、広く使われている基板の1つである米国半導体企業エヌビディアのCUDAシステム（注1）を現時点での基盤として採用し、ロボットの“頭脳”、つまり判断を担うAIモデルは差し替え可能とし、技術進化への耐性を持たせている。

用途面では、日本の人手不足を背景に、農業、建設、インフラ保守、洋上作業を想定する。既に屋内レタス工場での実証を進めており、将来的には屋外の農業への展開も視野に入れる。データ戦略としては、模倣学習（Imitation Learning）（注2）や合成データを活用する方針だ。

「おもてなし」をAIに実装、接客体験の世界標準化へ

Omakase.aiは、音声AIを用いた接客・販売支援を主軸に事業を展開してきた。同社の清水正大創業者兼CEOは、「対話の力」を機械に与えることで産業が変わるという信念のもと、生成AIの登場以前からチャット技術に取り組んできた。現在はその成果をロボット領域へ拡張する段階にある。

CEOの清水氏は「接客という行為自体は世界中にある。でも、そこで得られる体験のクオリティーは全然違う。日本は世界で一番おもてなしの接客体験を提供する国だと思っている。AIを通じてその品質を標準にし、世界に広げていきたい」とし、同社の差別化の軸を明らかにした。

単に商品を次々と提案するのではなく、顧客との会話の「間」や「テンポ」の設計を重視する。米国では提案を提示するのに速めのテンポが好まれる一方、日本では提案前に質問を重ねる慎重な会話が好まれる傾向にあるという。こうした傾向を設計に採り入れ、会話速度、提案の順序やブランドトーン（注3）まで調整する。

オンライン上で既に稼働する自社開発の接客AIをロボットに実装することで、店舗や施設での対面接客を目指す。同社の開発リード永尾修一氏によれば、中国のロボット開発企業ユニツリー・ロボティクスのヒューマノイドをベースに開発を進めているという。会話内容の分析を通じて、接客品質の可視化や改善も可能。活用分野としては、店舗、レストラン、ホテル、空港などを想定する。ヒューマノイドへの展開は、人には言いにくい悩みを逆に率直に話せる点や、荷物を持ってもらうなどフィジカルな支援を遠慮なく頼める点で、人的リソースの補完となるとみる。

技術の先にあるもの、ヒューマノイド実装を左右するのはエコシステム

3者のインタビューから浮かび上がるのは、ヒューマノイドの普及に向けたエコシステム設計の重要性だ。ハードウエアや頭脳アーキテクチャーといった個別技術の高度化だけでは不十分であり、それらをどのように運用し、データや外部プレーヤーと結びつけるかというエコシステム設計が、実装や商業化の成否を左右しそうだ。

O-IDは、日本のメーカーが持つロボット部品や製造技術を基盤にヒューマノイドのハードウエアを構築できるとし、AIモデルについても「部品」として捉え、特定のモデルに依存せずに柔軟に統合することが重要だとの考えを示した。一方、Omakase.aiは、日本文化として培われてきた「おもてなし」をAIモデルに組み込み、接客体験の世界標準化を目指す戦略を描く。その実装にあたっては、コスト効率や量産性を重視し、中国製ヒューマノイドを活用するという現実的な選択を取る。

両社のアプローチは技術開発の方向性こそ異なるものの、単独技術の優劣ではなく、分業と協業を前提とした設計思想こそが社会実装を可能にすると考えている点で共通している。両社は、サミット参加を通じて多様なプレーヤーとの接点や技術的示唆を得たと語っており、アラウィ氏が創設した同サミットが、身体化AI分野におけるエコシステム形成の場として機能し始めていることを示している。

注1：: エヌビディアが提供するGPU向けの並列計算を行うためのプラットフォーム。AI学習やリアルタイムの物理シミュレーションを高速化するために利用されており、ヒューマノイド開発でも、周辺環境の認識や複雑な関節制御を低遅延で処理するための主要な技術基盤の1つとなっている。
注2：: 人間の動作をお手本（データ）とし、AIがその動きを直接学習する手法。おのおのの動作を複雑な数式でプログラミングするのではなく、熟練者の動きを真似ることで、ヒューマノイドに複雑な作業を短期間で習得させることができる。
注3：: 広告業界用語で、ブランドがコミュニケーション活動において一貫して用いる言葉遣いやニュアンスのこと。