学位論文要旨



No 120549
著者(漢字) 今井,健
著者(英字)
著者(カナ) イマイ,タケシ
標題(和) 画像診断報告書からの所見抽出
標題(洋)
報告番号 120549
報告番号 甲20549
学位授与日 2005.03.24
学位種別 課程博士
学位種類 博士(学際情報学)
学位記番号 博学情第4号
研究科 学際情報学府
専攻 学際情報学専攻
論文審査委員 主査: 東京大学 助教授 小野木,雄三
 東京大学 教授 辻井,潤一
 東京大学 教授 中川,裕志
 東京大学 助教授 山本,隆一
 東京大学 助教授 田中,久美子
内容要旨 要旨を表示する

 研究背景と目的

 近年、病院情報システム内において日々電子的に蓄積されていく診療情報が飛躍的に増加している。しかし、これらの多くは自然言語(日本語)にて記載されており、データマイニングや知的検索、診断支援、あるいは教育、経営など様々な目的に2次利用するために、適切な構造化手法の確立が求められている。

 情報を入力する際に予め定められたコードを用いるという方法も考えられるが、診療現場において入力された情報をコーディングする専門家(TranscriberあるいはLibrarian)が存在する欧米と違い、我が国では医師が自ら情報を入力しているため、負担を考えると現実的ではない。さらに、最近ではキーボードからの入力だけでなく、連続音声認識技術により、マイクからの音声入力が直接文章に変換されて記録されるようになってきており、自然言語で蓄積される診療情報はますます増加する一方である。そのため、診療情報の構造化には計算機による何らかの支援が必要である。

 欧米の医学・医療分野では用語体系の整備が進んでおり、これらを用いた自然言語処理の研究が盛んに行われている。しかし、我が国においては日本語医学用語における概念や知識の整理が未だ十分に実現されておらず、日本語医学用語など自然言語処理の基盤となるリソースがようやく近年徐々に整備されてきた段階である。

 そのため我が国の医学・医療分野においては従来主に用語解析の研究が成されてきた。また文章からの意味抽出の観点からはSGML化されたテキスト・医学教科書を対象にしたものなどが存在する。しかし、実際の診療情報テキストでは「記入医による表記の多様性」や「臨時一語の出現」などの特徴のため、まず複数の「正規化あるいは標準化」を行う前処理を適用しなければならず、そのような実際の医用文書を対象とした自然言語処理研究はほとんど行われていない。

 本研究ではこのような背景のもと、診断支援システム等への2次利用のため、実際に用いられている診療情報テキストの構造化を目指したものである。そのための第一段階として、そのようなテキストの代表例である画像診断報告書を対象とし、画像診断において重要な「所見」に関する記述を抽出する手法を構築し、その有効性の評価を行った。ここにおいて「所見」とは「ある部位における病変や異常(以下「所見要素」)の存在の有無、あるいは状態に関する記述」のことで、もし存在すれば属性情報も伴う。

 実験材料と方法

 本研究では、東京大学付属病院にて2003年2月までに電子的に蓄積されたCT及びMR画像診断報告書のうち、最近の20,000件のものを対象とした。これを10,000件ずつ排反に分け、1つのセットはルール構築用、もう片方のセットをテスト用とした。

 意味解析や知識の抽出などに自然言語処理分野の知見を援用するためには、そのルールの元となる頻度情報が必要であるが、それには正解タグが付与されたコーパスが必要である。しかし診療情報でそのようなコーパスは未だ存在せず、上記リソースも生コーパスである。

 一般的な自然言語処理分野における解析手法としては、タグ付きコーパスなどからの学習により、頻度情報に基づく構文解析や格フレームの利用などの研究がされているが、本研究対象ではそのようなリソースが存在しない。また新聞などのリソースから構築されたルールと違い分野特有の表現が多く出現することの理由により、本対象分野に適した手法の構築が必要である。そのため、一般に最も精度が高いと言われている用手的な手法によりシステムを構築した。その際画像診断報告書の特性や所見の抽出という目的を考えた時、優先するべきと考えられる要請は以下の通りである。

 (1)「右下腿内側多嚢胞性腫瘤」など複数の語を連接させた臨時一語などを含め、医学用語を正しく認識すること。(2)画像診断領域で一般に重要と言われている「所見に関して確定的に記述されている単文的な文章」をきちんと解析できること。(3)医学・医療分野では重要な「数値・記号表現」を正しく認識すること。

 これらの点を踏まえ、以下の4っの手順でシステム構築を行った。

 Step1)正規化処理と形態素解析

 形態素解析を行う前に、生コーパス中の文章を1文毎に分割しなければならないが、文章の区切り記号の多様性や文中の数値・記号表現との区別が困難である問題が存在する。そのため、数値・記号表現のタグ付け処理、各文毎への分割処理を行い、その後で形態素解析処理を行った。形態素解析にはJUMANを用い、既存の統制用語集である医学用語シソーラス第5版、ICD10対応標準病名マスター、からの71,253語に加え、手動で構成した画像診断領域特有の辞書3,413語を形態素解析用の辞書に追加した。

 Step2)IDIOM化処理

 本論文では、IDIOMとは複数の形態素を統合した、より大きな意味上のまとまりのこととする。この段階では、Step1の結果複数に分割されてしまう臨時一語などの医学用語を結合し、【部位名】や【所見要素】などの意味属性を付与した。また、文末の「存在の有無」や「状態の記述」を表す【主張句】を1語に統合した。さらに、意味上の要素をなるべく大きく抽出するために、数値・記号表現の属性化、並列関係処理、近接係り受け処理など、再帰的な統合処理を行った。

 Step3)カテゴリフィルタ

 画像診断報告書中の文章はその内容によって「所見」「検査内容」「比較対象」「病状」「リコメンデーション」などのカテゴリに分類される。文末における統語的なフィルタリング処理によって、「所見カテゴリ」の文章だけを選別し、所見抽出の対象とした。

 Step4)文型パターンを用いた所見の抽出

 この段階では日本語を含み、また単文的な構造を持っ所見文を対象とし、所見抽出を行った。まず、各文章に対し「部位」「所見要素」の後に取り得る助詞と「文末の主張句」の組み合わせに基づくメタ情報である「格に基づいた文型パターン」を考えた。さらに、これが所見記述を表す際の最も簡単な構造である「自明な単文」という概念を導入し、文型パターンとのマッチングにより、最終的な所見抽出を行った。

 システムの評価

 本システムの各処理の性能を、医学知識を持っ専門家によってっけられた正解との比較実験により評価した。尚、評価実験の際は、肝臓に関する所見を含むテスト用セット3,370件のものから、ランダムに抽出した30件中の329文を対象とした。

Step1からStep3のまでの各処理にっいての成績を以下のTable1に示す。

 上記のように、いずれも高精度の処理が可能であることが示された。またこれらはルール構築用セットにおける成績ともほぼ同様であり、矛盾しないという結果を得た。

 次に、Step4の「格を用いた文型パターンによる、所見抽出」であるが、Step3までの処理を経て抽出された、日本語を含む所見文章258文の文型パターンに対し「自明な単文」は24種類構成された。これを用いたパターンマッチングによる所見抽出の成績はRecall=44.6%,Precision=100%であり、これはルールセットに対する成績(Recall=45.2%,Precision=100%)と矛盾しない。

 また、今回は所見に関して単文的な構造を持つ所見文を対象としている。このようなものは207文存在し、対象を「単文所見」に限定したRecallは55.6%であった。

考察とまとめ

 テストセット中の全329文中、「日本語を含む所見文」は76%、さらに「単文的な所見」は63%である。また、全150個の文型パターン中、自明な単文構造を用いて生成されたわずか24個(16%)の文型パターンのみで、単文的な所見に対し精度100%のまま55.6%の再現率を実現することができた。

 これにはStep1から3までの処理が文型の正規化あるいは簡単化に大きく寄与したためであると考えられるが、これらの主要な処理の効用を「その処理を除外した時にどの程度Recallが低下するか」という基準で調べた。その影響度をTable2に示す。

 これらは所見抽出の前段階として構築したStep1から3中の主要な処理であるが、いずれも最終的な所見抽出に大きな影響を及ぼす重要な処理であることが定量的に示された。

 また今回作成した画像診断領域の辞書(3,413語)についても同様に除外して実験したところ、Recallが37.7pも低下した。これは、その他追加した統制用語集71,253語よりも量としてはかなり少ないが、正規化処理やIDIOM化処理よりも重大な影響を持つことが判明した。

 さらに、再現率の向上に向けては、(1)文頭における典型的な表現(2)英語辞書の追加(3)文末主張句の3つの簡単な改良を施すだけで、特にアルゴリズムを変更することなく、7割程度までRecallが改善されることが示唆された。しかし、これ以外のものについては、「部位IDIOMの高度化」や「倒置表現」「複雑な係受け構造」など、本システムのアルゴリズムや手法自体をより高度に改良する必要があることが判明した。

 本システムでは、所見に関する単文構造に関してのみ抽出を行った。単文構造の抽出精度を高めるためには、上記の考察が参考にできると思われ、今後の課題である。一方で次の段階として、複文・長文の類を対象にする必要があるが、単文に対する文型パターンの知見が十分に得られた後、文中の主張句を考えることで、単文に対する文型パターンを再帰的に適用すれば、単純な複文・重文構造を解析することが可能になると思われる。

 また、抽出された所見情報における「部位などの情報欠損」「ゼロ代名詞問題」については、何らかの照応解析が必要であるが、これについては箇条書き段落における部位のスコープを適用できる可能性がある。

 また本システムの対象を一般化し、他の医用文書を対象とする観点からは、医学・医療分野においてはほぼ共通に使われ、かつその中でのジャンルに依存しにくい「数値・記号表現」についての「正規化処理」が適用可能である可能性が高く、今後の検証が必要である。また、インシデントレポートや、病理検査レポートなどでは、画像診断領域とは異なる分野特有の表現が使われるため、本研究における分野固有辞書(3,413語)のような辞書を統制用語集に追加する必要があるだろう。これは本研究における分野固有辞書の効用の大きさから見ても重要であると思われる。

 本研究で取り上げた「所見」は医療分野における多くの診療情報テキストに共通する重要情報であり、所見を構成する要素に大きな差異はないため、電子カルテや病理検査など他の報告書からの所見抽出にも同様の手法が適用できると考えられる。その一方で、インシデントレポートのような対象は、所見を記述する「部位」+「所見要素」+「主張句」など、分野に特有な頻出の言い回しが少なく、タグ付きコーパスを用いた機械学習などの手段を考えなければならないだろう。しかし、本研究のような医学用語認識、属性表現抽出の手法を適用することで、コーパス作成の支援に寄与することができ、その後では一般的な自然言語処理の知見が援用できる可能性がある。

 従来我が国の医学・医療分野において、画像診断報告書など実際の診療情報テキストを対象とした情報抽出はほとんど行われて来なかった経緯があるが、必要なリソースを含め1から処理体系を構築した本研究の成果は今後ますます盛んになると思われる医学・医療分野での自然言語処理研究の突破口となる重要な基盤を築くものである。

Table 1 Step1から3までの主な評価実験結果

Table2 所見抽出に対する各処理の影響

審査要旨 要旨を表示する

近年、診療文書は紙カルテに代わり、電子的に蓄積されるようになってきている。今後は蓄積された情報を利用して診療や研究に応用することが期待されているところであるが、診療文書の多くは自然言語で記述されているために、情報を抽出することは困難とされている。本論文は、日本語の自然言語で記述された診療文書の中でも比較的重要度の高い画像診断報告書から所見を抽出する手法を、東大病院で蓄積された2万件の報告書を材料として自然言語処理の技術と用手的ルール構築により開発し、その成績を評価したものであり、下記の結果を得ている。

1. 辞書の構築と意味属性の付与

 日本語医学統制用語集(日本医学用語シソーラス第5版、ICD10対応電子カルテ用標準病名マスター)71253語に対し「医部位」「疾患名」「検査手技・機器名」3種の意味属性を付与し、蓄積された画像診断報告書から抽出した語彙3413語に対し「医変化」「医状態」「医所見」「医修飾」など、計29種の意味属性を付与した。併せて74666語の辞書を構成した。

2. 正規化処理

 画像診断報告書の文体・記法は医師や検査種別によって異なるため、文章を切り出すためには、表記の揺れを統一し日付・数値・記号・省略・箇条書きなどをタグ付けする必要がある。ルールセット1万件から用手的に計191個のルールを構築した。テストセットから肝臓に関する記述を含むレポート3370件からランダムに抽出した30件(329文、数値・記号表現195件)に対する成績は、数値・記号表現のタグ付けでは精度 / 再現率(以下P / Rと記載)は99.0% / 99.5%、文章切り出しではP / Rともに100%であった。

3. IDIOM化

 画像診断報告書の所見記述内容は【部位】【所見要素】【主張】という意味内容に分類される。例えば「肝左葉に大きさ3cmの腫瘍が存在する」の場合、[肝左葉【部位】]に[大きさ3 cmの腫瘍【所見要素】]が[存在する【主張】]となる。それぞれの意味内容は複数の形態素の連接であるため、これらを併せて意味上のまとまりにする処理をIDIOM化処理と呼ぶ。これは以下の4つ(A-D)の処理に分けられる。

A. 医学用語のIDIOM化

(1) 複合語候補の生成:

 医学用語の多くは漢字とカタカナの連接であることから以下のルールを構築した。

・漢字のみ・かつ動詞でない場合に結合する

・1文字以上のカタカナと漢字で構成され、かつ名詞である限り結合する

 上記テストセット(複合語候補128件)での成績は、99.1% / 89.8%であった。

(2) 複合語候補の属性決定処理:取り出した複合語が【部位】【所見要素】のいずれの意味内容に分類されるかを、以下のルールで決定する。

・部位関連属性を持った形態素が最後の場合は【部位】

・所見要素関連属性を持った形態素が最後の場合は【所見要素】

・「医部位」の後ろが「医修飾」「一般名詞」「接尾辞」「形容詞」のみなら【部位】

・「医変化」「医状態」「医所見」の後ろが一般名詞なら【所見要素】

・「医疾患」の後ろが「サ変名詞」か「医修飾」なら【所見要素】

 テストセットでの成績は98.0% / 85.2%であった。

B. 文末主張句のIDIOM化

(1) 文末主張句の表面的な肯定・否定表現の特定

 文末の動詞句・形容詞句に関して「認める」「疑われる」「正常だ」など26種のルールを頻度順に構築、さらに文末の疾患名言い切りに対するルールを追加して表面上の肯定・否定を識別した。また表現に応じて3段階の確信度を付与した。テストセット329文に対し、肯定・否定タグが正しく付されたものは66%、言い切り型を含めると71.3%、さらに本研究の目的である目本語を含む所見文を対象とすると94%が回収された。成績は100% / 94.0%。

(2) 文末主張句の静的状態・変化・存在への分類

 以下のルールで文末を処理する。

・変化:「医変化」「医所見」属性の【所見要素】+<肯定・否定>

・状態:「医状態」属性の【所見要素】+<肯定・否定(言い切りを含む) >

・存在:上記以外の<肯定・否定>

 テストセットで日本語を含む所見文に対する成績は100% / 84.5%であった。

C. 数値・記号表現・形容詞の属性化

 【部位】【所見要素】の属性として数値・記号表現・形容詞を包含させることにより、IDIOMをより大きなまとまりにする処理である。例えば「左肺上葉S1+2」では「左肺上葉【部位】に「S1+2」という肺区画を示す記号が【部位】の属性として取り込まれる。「医修飾」に分類される修飾語336語を用いて、以下のルールを構築した。

・記号表現:【部位】+「記号表現」       →【部位】に統合

・数値表現:「数値表現」+「の」+【所見要素】 →【所見要素】に統合

・「医修飾」+「に、の、な」+【所見要素】   →【所見要素】に統合

・「医修飾、形容詞、連体詞」+【所見要素】   →【所見要素】に統合

 テストセットに対する成績は、記号・数値は100% / 93.9%、形容詞は96.3% / 91.9%。

D. 並列IDIOMの再結合、部位同士・所見要素同士の係り受けの統合

(1) 並列関係:【部位】同士、【所見要素】同士が、(「や」「と」「、」「・」「及び」「および」「ないし」)で結ばれている限り結合し、ひとつのIDIOMとして統合する。

(2) 近隣係り受け:例えば「局所再発を疑わせる腫瘤性病変」の場合、2つの【所見要素】のうち後者が主体で前者は修飾であり、これを1つの【所見要素】IDIOMとして統合する。ルールセットでは2つの【所見要素】の間に挟まれる形態素の数は3個以下であったため、これらのパターンを頻度順に収集してルールを構築した。また【部位】における係り受け関係は間に1形態素を含むものだけであり、頻度最上位の「の」で結ばれるものに対するルールを作成した。テストセットに対する成績は100% / 73.1%。

 IDIOM化の総合成績:Bについては単独に評価可能で100% / 84.5%、ACDには依存関係があるため累積的に評価して98.4% / 86.9%であった。

4. カテゴリフィルタ

 画像診断報告書の全体は「検査内容」「比較対象」「病状」「所見」「リコメンデーション」のカテゴリに分けられる。所見抽出を行うためには所見カテゴリを正しく識別する必要があり、これをカテゴリフィルタで行う。文末の典型的な言い回しを利用して34個のフィルタを構築し、テストセットに対する成績は100% / 97.2%。

5. 格を利用した文型パターンに基づく所見抽出

 以上の処理により、所見を記述した文章はIDIOMと助詞だけで構成されたIDIOM列に変換されている。画像診断報告書で所見を記述する文章の多くは単文的な文章であることに着目し、3種類のIDIOMがそれぞれ、高々ひとつしか含まれないIDIOM列パターン(自明な単文)を識別するルールを構築した。ルールセットでの再現率は45.2%、テストセットでは44.6%、精度はいずれも100%であった。またテストセットで単文のみを対象とした場合の再現率は55.6%であった。

6. 各処理の効用

 本システムを使った所見の抽出成績は55.6%であるが、各処理を除いた成績によって個々の効用を調べた。並列・係り受けでは23.7%、数値記号表現のタグ付けでは24.6%、数値記号・形容詞の属性化では33.3%、複合語候補への属性付与では46.4%に成績が低下した。また本研究で構築した辞書を除いた場合は17.9%であった。辞書が最も大きな寄与を、次に並列・係り受け処理および数値記号表現のタグ付けが重要であることが示された。

以上に基づき、文頭のIDIOM化失敗例への対策、IDIOM化に影響する語彙の辞書への追加、文末主張句ルールの改善に関する簡単な改良を行った場合の成績を推定することにより、再現率を71%にまで改善できることが示された。

以上、本論文では自然言語で記述される画像診断報告書からの所見内容抽出を100%に近い精度を維持しながら再現率を向上する方針で用手的にルール構築を行い、最終的に55.6%の所見を抽出するという結果を得ている。これは日本語自然言語で記述された画像診断報告書からの情報抽出としては初めての成果である。また新聞や出版物などのきれいな文章ではなく、複数の医師が様々なスタイルで記述している変異の多い文章を対象としているにもかかわらず、一定の成績を出していること、特に診療においてとりわけ重要な記号・数値表現を高率に抽出している点は高く評価できる。また本研究の手法自体はSemantic Grammarに分類され、現在の自然言語処理における最新の技術ではないが、日本の医療分野における自然言語処理の土台と位置づけられる。特に今後、医療分野で自然言語処理システムを開発していくためには、機械学習の材料としてタグ付きコーパスの構築が必須であるが、本研究の成果により生コーパスからタグ付きコーパスヘの変換を支援するツールを作ることが可能である。その点でも本研究は今後の研究の土台となるものである。

本論文は、医療情報学(医学)と自然言語処理(理工学)との境界領域の研究である。自然言語処理の立場からは、言語処理の要素技術を現実の医療分野のテキストに適用することに関して、博士の価値がある新規性のある研究である。医療情報学においては、電子カルテをはじめとして医療の電子化が進み、医学専門用語を含んだ日本語テキストから情報を抽出する技術が重要になりつつある状況下で、日本の医療情報学に大きなインパクトを与える新規性のある研究である。

以上により、本審査委員会は、本論文が博士(学際情報学)の学位に相当するものと判断する。

UTokyo Repositoryリンク