学部研究インターン / HCS Lab
担当 / 2D-3Dグラウンディング、XRオーバーレイ実装、AI生成出力評価
使用技術 / Unity, OpenXR, Gemini
概要
XRエージェントが生成した応答を、ユーザーがより理解しやすくするための研究プロジェクトに参加しました。XRクライアントの物体ベースのオーバーレイと、AI生成出力の品質評価を担当しました。
このプロジェクトでは、実際の場面とつながる視覚的な手がかりを、どこに、どのような形で、いつ提示するべきかを扱いました。論文投稿と匿名性維持のため、具体的なシステム名、実験結果、詳細構造は意図的に省略しています。
担当内容
- UnityとOpenXRベースのXR環境で、視線入力、実際の場面、UIオーバーレイがつながるクライアントの流れを把握し、実装しました。
- 画像ベースの指示対象検出結果を、物体と結びついたXRオーバーレイにつなげる2D-3Dグラウンディング作業を行いました。
- 物体ベースの視覚提示のため、画面座標、カメラ投影、ワールド空間配置のあいだの位置合わせ問題を分析しました。
- AIが生成した出力が、場面文脈、指示対象、応答意図に合っているかを評価しました。
設計上の課題
このプロジェクトの中心課題は、AIが生成した説明を単に音声やテキストで見せるのではなく、ユーザーが見ている実際の場面とつなげて理解できるようにすることでした。
そのためXRクライアントでは、実際の場面の上に表示される視覚的な手がかりが対象位置からずれないように、座標系とオーバーレイ配置を扱う必要がありました。画面座標、カメラ入力、Unityのワールド空間はそれぞれ違う基準を使うため、物体検出モデルの結果をそのままUIに出すだけでは足りず、変換処理が必要でした。
また、生成AIが作ったマルチモーダル出力は、常に正解だとは言えませんでした。視覚的な手がかりが実際の場面の正しい対象を指しているか、説明内容に合う種類の手がかりか、全体の応答の流れとずれていないかを評価する必要がありました。そうした出力結果を確認し、場面文脈と意図した応答に合うかを基準に評価しました。
画面例
匿名性維持のため、画面例は省略しています。