学位論文要旨



No 128767
著者(漢字) 石黒,祥生
著者(英字)
著者(カナ) イシグロ,ヨシオ
標題(和) 行動支援のための視線情報に基づく実世界指向インタフェースに関する研究
標題(洋)
報告番号 128767
報告番号 甲28767
学位授与日 2012.10.31
学位種別 課程博士
学位種類 博士(学際情報学)
学位記番号 博学情第53号
研究科 学際情報学府
専攻 学際情報学
論文審査委員 主査: 東京大学 教授 暦本,純一
 東京大学 教授 坂村,健
 東京大学 教授 越塚,登
 東京大学 教授 佐藤,洋一
 東京大学 教授 植田,一博
内容要旨 要旨を表示する

日常生活において常に自然な状態で視線情報を計測することは,従来困難であった.これが可能であれば,人が見ているものを常に知ることができ,見ている対象,すなわち興味に基づくインタラクションが可能になる.たとえば,読むことができない外国語を見て困っているような状況を考える.常に自然な状態で視線計測することができれば,計測データをもとにコンピュータが実時間で「なにを見ているのか」という情報を細かく把握することができ,記録し,翻訳し,提示するといった処理を行うことが可能になる.本博士論文では,このような行動支援を実現するために視線情報に基づく実世界指向インタフェースの実現に関する研究について述べる.

日常生活中で利用可能な視線認識装置の必要性

これまでの視線認識装置は,限られた実験環境において高い精度で高速に計測することを目的として設計され,人間の眼球運動に関する多くの基礎的知見を獲得してきた.一方で,これらの知見が実際の生活環境でも同じなのか,また得られた知見を活かすことはできないか,というように,実験環境での実験から生活環境での利用へ移行することが今後の眼球運動に関する研究の挑戦的な分野である.また,視線情報を用いたインタラクションに関する研究の多くが,マウスなどの入力でバイスの代わりとして利用する手法などに留まっていた.これも装置の可搬性の問題によるところが大きく,これらの指摘は古くからされているが,依然として解決していない課題である.

視線情報の計測による,注目対象の認識と記録の実現

たとえば,「読むことができない外国語を見て困っている状況」という前述の例を考える.行動認識や画像処理などの研究により,「どこにいるか」,「どのような行動中か」,あるいは「カメラで捉えた対象や文字は何か」,といった情報は高精度に推定できるようになりつつある.このような技術に視線情報が加わることで,上記に加え「どの部分を見ているのか」,「どのように見ているのか」と情報をコンピュータに入力することができる.これにより,外国語の中のどの部分が読めないのか,などのより詳しい情報を利用できる.また,この情報を記録することで,「どこを見ていたのか」,「どのように見ていたのか」を記録することができ,ライフログデータとして,従来の写真のみの場合よりも細かく記録することが可能になり,誰を見ていたのか,見ていないのか,など従来では記録できなかった情報を記録することが可能になる.

視線に基づく行動支援

このように,画像処理など対象を認識する技術と視線情報を組み合わせ,より細かく見ている対象を知ることで,行動支援を実現する.たとえば,複数対象の中から興味の対象を認識でき,さらにトリガボタンや,文字を読んでいるという状態を視線情報と組み合わせる.その結果,「読めない文字を見て,困っていると(あるいはボタンを押すと),自動的にイヤホンから翻訳された音声が再生された」という行動支援を実現することができる.

視覚特性を利用した,行動を阻害しない情報提示手法

また,視覚を用いた情報提示において,どこを見ているかという情報を利用する.デスクトップ環境を主眼に設計された従来のユーザインタフェースでは,屋外活動などデスクトップ以外の環境で利用する場合に問題がある.高機能携帯端末を駅で利用する乗客が近年増加し,画面に注視しながらホームを歩くなどの行動によって接触事故が増加傾向にあるといった報告がされるなど,社会問題になりつつある.そこで,視線情報と視覚特性を利用することで,フィードバック時に視界を妨げない視覚フィードバック手法を実現する必要がある.

本博士論文では,前述の4 つの研究課題に対して,2 章で関連する研究について詳しく述べる.そして,3 章でこれらの3 つの研究に関して必要な要素について視線情報を用いた,情報抽出,コンテキスト推定,さらに情報提示という要素に分類し,詳細を述べる.さらに4 章以降で次のような結果を得た詳細について述べる.

1. 赤外反射フィルタと可視光遮断フィルタを装着した小型カメラを用いることで,誤差1.49 度(標準偏差1.04)で30Hz,装着部の重さが36g という従来の約半分の重量の視線認識装置を実現した( 4 章)

2. 視線情報を用いた展示ガイドシステムを作成し,従来システムとの比較実験を行うことで,視線情報利用によって見たものに基づく解説が可能となり,分かりやすさや操作性に影響することを明らかにした( 5 章)

3. 瞬目を約99% の精度で認識し,小型軽量ながら,瞳孔検出アルゴリズムを改善することで,ユーザの読み動作を眼球運動により約90% の精度で認識し,さらに視線に基づくシーンの抽出により,ライフログデータの閲覧性を向上した( 6 章)

4. 中心視野と周辺視野という人間の視覚特性の違いを利用することで,視界を阻害しない情報提示を実現した( 7 章)

4 章では屋外での視線情報の利用が技術的に可能かどうかを検討するために実際に持ち運び可能な視線認識装置を実現した結果について述べる.従来の視線認識装置は,あらかじめ準備された実験環境下では精度が高く複雑で詳細な眼球運動を計測することができる.しかしながらこれらの装置は日常生活での利用を考慮していない.行動支援を行うためには実際の生活の中での視線計測が必要であるが,従来の機器では視線データの収集が困難であった.そこで,赤外センサを用いた視線計測装置と,赤外反射フィルタを装着したレンズと,可視光カットフィルタを装着した小型カメラを用いた計測装置の2 種類を作成し,比較検討をおこなった.特に,後者のカメラを用いた視線計測装置では,瞳孔検出アルゴリズムの改善によりノイズの影響を低減することで,安価な小型カメラを利用でき, 36g 程度と従来の装置と比べ軽量で,持ち運び可能な視線認識装置を実現した.実際に食事やドライブなど様々な環境で計測を行い,精度評価実験を行った結果,誤差1.49 度(標準偏差1.04),30Hz での推定が可能であることを確認した.

さらに,5 章では実際に視線情報を基に,カメラ映像から注視した人の顔や物,文字などを実時間で抽出することに成功した結果について述べる.頭部カメラのみでも環境の様子は推定することはできると考えられるが,頭部運動を計測することで視界は推定することができるが,頭部運動情報だけでは視界中のどこを見ているかを計測することはできない.実際に3 種類のシーンで計測した結果,頭部カメラの中心と興味の対象の関連性は個人差が大きく,またシーンによって異なるという結果を得た.その結果,カメラで撮影した映像中のどこを見ているかを推定するためには視線情報が必要であることを確認した.

また,実際に,視線情報を用いた行動支援の事例として,展示ガイドシステムを作成し,視線情報を用いない従来の方式と比較することで,視線情報利用の有用性を明らかにした.従来システムでは,操作の簡単さと展示に対する説明の分かりやすさを両立することが難しかったが,視線情報を用いることで見ている対象に関する音声ガイドの再生を簡単な操作で実現し,かつ,見ている対象に基づく解説が可能になるため,同じ解説内容でも,解説が分かりやすいなどの利点を確認した.

6 章では,行動,およびコンテキストの推定に視線情報を組み合わせた結果について述べる.視線情報は,人間の心理状態まで表すことがこれまでの研究で分かっている.目が泳いでいるのか,文字を読んでいるのか,あるいは何かを注視しているのかは,視線情報に現れるため,これを計測する.これにより,"何を","どのように" 見ているかを認識する.これにより,同じ物を見た場合でも,目が泳いで見た場合,あるいは,注視した場合でそれぞれ異なった反応をすることができる.

さらに,視線情報をインタラクションに利用する際には,触ったものすべてを金に換えてしまう神話になぞらえた"Midas Touch Problem" がある.これは,操作対象と注視対象は常に同じではないため,意図しないポインティング操作が発生する問題である.そこで本研究では,注視位置,注視時間,注視位置分布などの視線情報を用いることで,ユーザの状態推定に利用可能か検討を行った.実験を行った結果,本などの文字列を読む動作を約90% の精度で認識した.

また,常用可能視線認識装置を実現することで,視線情報をライフログデータとして利用可能にした.これにより記録した長時間の視線情報を用いることで従来のライフログデータから特徴的なシーンを抽出した.これまで加速度や音などの情報が利用されてきたが,本研究では,記録した視線情報を利用した.さらに,抽出だけでなく,抽出したシーンの表示にも視線情報を利用することで,大規模ライフログデータの閲覧を効率的に行う手法,GazeCloud を提案した.実験により,時間のみを利用するだけでなく注視などの情報に基づいた表示方法が効率的な閲覧に有効であることを確認した.

また,7 章では,行動支援に必要な情報提示技術について述べる.情報の提示技術として現実空間に仮想物体を重畳描画することで,空間的作業を容易にする拡張現実感(Augmented Reality; AR) や複合現実感(Mixed Reality; MR) 技術は活発に研究されており,現実空間に基づく情報提示が可能であり幾何学的整合性高く重畳描画することで,現実と提示情報間の乖離を埋めることができるため,屋外活動などにおける従来のGUI のような問題を解消できると考えられる.しかしながら,AR/MR 技術を利用する場合,View Management 問題が発生する.これは,現実空間に重畳描画する仮想物体の1 つである注釈情報をどのように表示するか,という問題である.そこで,本研究では周辺視野への情報提示手法,Peripheral Vision Annotation を提案した.周辺視野では中心視野に比べ詳細な情報を知覚することはできないが,色や単純な形状を理解することができ,時間的変化にはむしろ敏感であるという人間の視覚特性を利用する.視線情報に基づき,情報の詳細度を切り替えて提示することで,注視対象の現実空間を塞がずに注釈情報の存在を知覚することができる.実験の結果,注視位置を塞がないことで,概要情報を作業の阻害なく知ることが可能であるということを確認した.

以上の博士課程における研究の結果について8 章でまとめる.本博士論文では,常用可能な視線認識装置を実現することで,日常生活における行動支援において視線情報を利用可能にした.これにより,実験環境に依存しない計測を可能にした.視線情報を利用することで,提示情報がより理解しやすいなどの利点を実験により確認するとともに,視線による身体動作以外のユーザのコンテキストの推定について検討を行った.さらに日常的に記録することで,ライフログデータに対するシーン抽出へ応用し,また,視線情報と視覚特性を利用することで,行動を阻害しない情報提示を実現するなど,視線に基づく行動支援を実現した.

審査要旨 要旨を表示する

本研究は、視線情報に基づくウェアラブルコンピューテイング及びそのヒューマンコンピュータインタラクションに関するものである。視線情報は、外界に関する利用者の興味を示し、利用者の行動、たとえば文字を読んでいるのか、他人とアイコンタクトがあるのか、などを示唆する情報源である。本研究では、日常作業で装着できる眼鏡型の視線入力装置を新規に考案・実現し、それに基づいた各種のインタフェース応用について論じている。以下に、本研究の新規性および研究貢献を列挙する。

(1)赤外反射フィルタと可視光遮断フィルタによる構成で、小型カメラを用いることで、誤差1.49度(標準偏差1.04)で30Hz,装着部の重さが36gという従来の約半分ほどの重量の視線認識装置を実現した。従来の視線認識装置は、あらかじめ準備された実験環境下では精度が高く複雑で詳細な眼球運動を計測することができた。しかし、これらの装置は日常生活での利用を考慮していなかった。行動支援を行うためには実際の生活の中での視線計測が必要だが、従来の機器では日常生活に支障なく視線情報を収集することが困難であった。本研究では赤外センサを用いた視線計測装置と、赤外反射フィルタを装着したレンズ、可視光カットフィルタを装着した小型カメラを用いた計測装置2種類を作成し、比較検討をおこなった。その結果、カメラを用いた視線計測装置では、瞳孔検出アルゴリズムの改善によりノイズの影響を低減することで、36g程度と従来の装置と比べ軽量で持ち運び可能な視線認識装置を実現した。実際に食事やドライブなど様々な実世界環境で計測を行い精度評価実験を行った結果、誤差1.49度(標準偏差1.04),30Hzでの視線情報推定が可能であることを確認した。

(2)視線情報を用いた展示ガイドシステムを作成し、従来システムとの比較実験を行うことで視線情報利用によって見たものに基づく解説が可能となり、分かりやすさや操作性に影響することを明らかにした。実際に視線情報を基に、カメラ映像から注視した人の顔や物,文字などを実時間で抽出することに成功した。まず、複数の環境で計測した結果、頭部カメラの中心と興味の対象の関連性は個人差が大きく、また状況によって異なるという結果を得た。その結果、頭部搭載カメラで撮影した映像中のどこを見ているかを推定するためには視線情報が必要であることを確認した。実際に視線情報を用いた行動支援の事例として,展示ガイドシステムを作成し、視線情報を用いない従来の方式と比較することで視線情報利用の有用性を明らかにした。従来システムでは操作の簡単さと展示に対する説明の分かりやすさを両立することが難しかったが、視線情報を用いることで、見ている対象に関する音声ガイドの再生を簡単な操作で実現した。さらに見ている対象に基づく解説が可能になるため、同じ解説内容でも解説が分かりやすいなどの利点を確認した。

(3)瞬目を約99%の精度で認識し、小型軽量ながら、瞳孔検出アルゴリズムを改善することでユーザの読み動作を眼球運動により約90%の精度で認識し,さらに視線に基づくシーンの抽出により、ライフログデータの閲覧性を向上した。記録した長時間の視線情報を用いることで従来のライフログデータから特徴的なシーンを抽出した。これまで加速度や音などの情報が利用されてきたが、本研究では抽出したシーンの表示に視線情報を利用することで、大規模ライフログデータの閲覧を効率的に行う手法を提案した。評価実験により、時間のみを利用するだけでなく注視などの情報に基づいた表示方法が効率的な閲覧に有効であることを確認した。

(4)中心視野と周辺視野という人間の視覚特性の違いを利用することで、視界を阻害しない情報提示を実現した。情報の提示技術として現実空問に仮想物体を重畳描画することで,空間的作業を容易にする拡張現実感(Augmented Reality;AR)技術は活発に研究されており、現実空間に基づく情報提示が可能である。幾何学的整合性の高い重畳描画することで、現実と提示情報間の乖離を埋めることができるため屋外活動などにおける活動の支援に利用可能である。しかし、従来のARを利用する場合,View Management問題が発生する。本研究では周辺視野への情報提示手法,Peripheral Vision Annotationを提案した。これは、周辺視野では中心視野に比べ詳細な情報を知覚することはできないが,色や単純な形状を理解することができ、時間的変化にはむしろ敏感であるという人間の視覚特性を利用している。視線情報に基づき、情報の詳細度を切り替えて提示することで、注視対象の現実空間を塞がずに注釈情報の存在を知覚することができること評価実験を通して確認した。

以上のように、本博士論文では,常用可能な視線認識装置を実現することで、日常生活における行動支援において視線情報を利用可能にした。これにより、実験環境に依存しない計測を可能にした。視線情報を利用することで,提示情報がより理解しやすいなどの利点を実験により確認するとともに、視線による身体動作以外のユーザのコンテキストの推定について検討を行った。さらに日常的に記録することで、ライフログデータに対するシーン抽出へ応用し、視線情報と視覚特性を利用することで行動を阻害しない情報提示を実現するなど、視線に基づく行動支援を提案、実現した。これらの研究成果は従来のヒューマンコンピュータインタラクション研究やウェアラブルコンピュータ研究に新たな知見を与えるものであり、本審査委員会は、本論文が博士(学際情報学)の学位に相当するものと判断する。

UTokyo Repositoryリンク