米オープンAI、ChatGPTの音声対話機能を拡充、人間に近い会話体験が可能に

(米国)

ニューヨーク発

2024年09月27日

米国のオープンAIは9月24日、同社が開発を手掛ける対話型人工知能(AI)「ChatGPT」上で、より高度な音声対話機能「アドバンスド・ボイス・モード」を、有料利用者向けに順次提供を開始すると、X(旧Twitter)で発表外部サイトへ、新しいウィンドウで開きますした。

科学技術誌「MITテクノロジー・レビュー」(9月24日)によると、今回発表された「アドバンスド・ボイス・モード」では、ChatGPT上で利用者が音声で質問をすると、人間同士の会話に近い反応速度で回答を出力できるようになった。また、ChatGPTとの対話中でも、会話を途中で中断することができ、利用者の声のトーンから感情を認知し、必要に応じて応答を調整することができる。オープンAIによると、音声を入力した際、出力まで最短232ミリ秒、平均320ミリ秒で応答することができ、人間の反応速度と同程度まで改良された。

今回の新機能は、オープンAIが5月に発表したChatGPTの最新モデル「GPT-4o」が基盤となっている(2024年5月28日記事参照)。これにより、高速での応答が可能で、文章のみならず、画像や音声、映像を即座に解釈することができる。利用者との対話を記憶することができるため、時間をおいても継続的な会話が可能。現時点では日本語を含む50以上の言語に対応し、合計9つの声色からAIの音声を選択できる。

オープンAIが2022年11月にChatGPTを一般公開して以来、生成AIサービスは急速に進化し続けている。最近は、文章作成にとどまらず、今回のように、音声や画像など複数の種類のデータを一度に処理できる「マルチモーダルAI」が注目されている。マルチモーダルAIでは、視覚、聴覚、触覚などの感覚入力を組み合わせることで、より微妙な現実認識を形成するという、人間の本質的なアプローチを模倣する特徴がある。

しかし、音声機能を含むAIモデルには、偽情報拡散のリスクなどに加え、人々がAIチャットボットを人間とみなすようになり、感情的な依存につながる可能性が懸念されている。オープンAIが2024年8月に公表した、同社の最新AIモデル「GPT-4o」の安全性を検証した報告書では、同社の音声機能の利用者が、チャットボットとの「絆の共有を表現する」言葉で会話していることが確認された。CNN(8月8日)は、利用者がAIと社会的関係を築き、人間同士の交流への関心を減らす可能性につながるリスクを指摘し、強力な技術の発展とともに、AIによるリスクも急速に進化していることを浮き彫りにしたとしている。

バイデン政権は2023年10月、AIの開発や利用に関する大統領令(2023年11月1日記事参照)を発令し、米国大手IT企業16社との間で、AIのリスク管理や安全対策に関する「自主的な取り組み」を約束している(2024年7月30日記事参照)。また、2024年8月には、米国AI安全研究所(AISI)が、オープンAIおよびアンスロピックと、AIの安全性に関する研究、試験、評価を目的とした協定を締結しており、両者が主要な新モデルを一般提供する前後でリスクの評価・軽減が可能になるよう、AISIにアクセス権を与えることに合意している(2024年9月10日記事参照)。

(樫葉さくら)

(米国)

ビジネス短信 f44f2a9ec1b9058e