第一部:無意味な機械

「これは我々が作った道具なのか、それとも我々が作った生物なのか?」

  • サム・アルトマン(OpenAI 最高経営責任者)

出生率が低下しているにもかかわらず、世界は今世紀中に2桁成長し、今後20年で思考力、創造力、生産力のある住民が1000億を突破する。

何百億台ものコンピュータ、自動車、ロボットそしてトースターが接続され、文明の構築と維持のために協力し合い、リソースを知的に配分し、必要とされている場所に移動させる。

世界の労働力が真に急成長を遂げようとしていることを認識するのに、AGI(汎用人工知能)や機械の知を信じる必要はない。良くも悪くも、世界のエネルギー出力は、機械知性によってますます加速したペースで増大し、消費され、方向づけされ続けるだろう。

しかし、一般的なロボットが私たちの労働力や生活に入り込む前に、ロボットは私たちの物理的世界をダイナミックに認識し、反応し、交流する方法を学ぶ必要がある。そのために、ロボットは6つの異なるソフトウェア能力を必要としていると考えることが役に立つ:

  1. ロコモーション: 足や車輪を使って世界を動き回る能力。

  2. マニピュレーション: 世界の物体を動かし、操作する能力。

  3. 空間意味認識: 異なる種類のもの、そしてそれがどの位離れているかを見分ける能力。

  4. マッピング: 直視範囲にないものがどこにあるかを記憶したり、知る能力。

  5. ポジショニング: 特にGPSが使えない屋内環境において、地図に対して自分がどこにいるかを理解する能力。

  6. アプリケーション: これらの能力をタスク指向の行動に結びつけること。

1980年代、ロボット工学者のハンス・モラヴェックは、人間にとって難しい複雑な推論タスクを機械に教えるよりも、微細な運動技能や知覚のような人間にとって直感的に簡単なことを機械に教える方がはるかに難しいと観察した。

一言で言えば、機械にチェスを理解することを教えるのは、卵を割ることを教えるよりも簡単だということだ。

半世紀近く経った現在でも、ロコモーション、マニピュレーション、空間意味認識は非常に難しく計算量の多いタスクのままであり、商業的ヒューマノイドロボットが文字通り最初の一歩を踏み出しつつあるが、これらのロボットが実際の仕事に使えるようになるまでには、まだ多くの課題が残っている。6つの能力をフルに活用できなければ、ロボットは人工知能を物理的な世界に展開することは根本的に不可能なままだ。

しかし、興味深いのは、これらの問題にどの順番で取り組むかが重要だということだ。世界を認識することなく歩くことができる機械は役に立たない。しかし、世界を認識できる機械は、歩けなくとも、世界を操作できなくとも、すぐに役に立つ。

空間コンピューティングは、デジタルの物に物理的世界を理解させる技術だ。まず認識、マッピング、ポジショニングに焦点を当て、ロコモーションやマニピュレーションの解決を必要としないフォームファクターにフィジカルAIを配備することで、Aukiはロボット開発競争において大きくスタートダッシュをかけられることに気づいた。

メガネのフォームファクターを通じて、さらには空間認識機能を備えたスマートフォンを通じて、私たちは現在、物理世界における価値生成AIコパイロットを提供可能だ。iPhoneやスマートグラスが腕や脚のないロボットであるという気づきを受け入れることで、未来の認識スタックの開発を即座に開始しつつ、現在においても現実世界の価値を提供することができる。

重要なのは、認識とマッピングのスタックは協調的である必要があり、複数のロボットやデバイスが、彼らが動作する物理的空間について共有理解を持つことができるようにすることだと考えている。もしあなたのメガネが経路上の障害物を検出した場合、それをロボットに伝え、ロボットがその経路を回避できるようにする必要がある。

では、協調的認識によってロボットに周囲の世界を理解させるには何が必要なのだろうか?

2014年、ナヴァル・ラヴィカントは、機械間のエネルギーとリソースの配分をプログラム的に管理するため、現在私たちの知っているインターネットを構成する4つの基本プロトコルを超える、5つ目のプロトコルが必要になるだろうと賢明に予測した。

  1. リンク層:イーサネットやWi-Fiなどの物理的なハードウェア接続で、デバイスがネットワーク上でデータを送受信できるようにする。

  2. インターネット層:相互接続された複数のネットワークを介して、データのパケットを宛先にルーティングする。

  3. トランスポート層:トランスポート層は、信頼性と秩序あるデータ・パケットの配信を保証し、フロー制御、エラーチェック、データセグメンテーションの管理をする。

  4. アプリケーション層:HTTP、SMTP、FTPなどのプロトコルで、アプリケーションがインターネットとインターフェースできるようにする。

第5のプロトコルは、機械の思考速度で機械同士が価値を交換することを可能にするだろう。希少なリソースの使用について交渉し、配分しようとするマシンエージェントは、互いの間で価値を表現し、保存し、転送するための普遍的なプロトコルを必要とする。

自動運転車やロボットがあふれる都市を想像し、ナヴァルはそれらが何らかの通信チャネルで車線の合流や追い越しの交渉をしている姿を思い浮かべた。結局のところ、道路は希少なリソースであり、時間もそうである。また、自動車やロボットを使用する人間やマシンエージェントは、それぞれ異なる経済的選好を持っている。

機械並みのスピードで移動でき、コンマ何秒かでセント以下の単位の取引ができる、プログラム可能な何らかの形の価値表現が、未来のスマートシティには必須の条件のようだ。当時、ナヴァルは暗号通貨が5層目の候補になると考えていた。

  1. トレード層:機械間で価値と所有権を表現、保存、移転する方法。

しかし、ナヴァルはさらに重要な別のプロトコルの必要性を見逃していた。私たちの物理的空間に対する感覚と理解を共有すること無しに、これらの機械がどのようにして道路について、そして世界一般について推論することができるだろうか?インターネットを使用するだけの機械は、物理的な世界について推論することはできない。

今日、私たちのデジタル機器には、人間が当たり前のように持っている重要な感覚が欠けている。AIの究極の化身が必要とするものは空間感覚、つまり機械深部感覚である。

Last updated