学位論文要旨



No 120918
著者(漢字) 松井,宗也
著者(英字)
著者(カナ) マツイ,ムネヤ
標題(和) 裾の厚い分布の適合度検定
標題(洋) Goodness-of-Fit-Tests for Heavy Tailed Distributions
報告番号 120918
報告番号 甲20918
学位授与日 2006.03.23
学位種別 課程博士
学位種類 博士(経済学)
学位記番号 博経第203号
研究科 大学院経済学研究科
専攻 経済理論専攻
論文審査委員 主査: 東京大学 教授 竹村,彰通
 東京大学 教授 國友,直人
 東京大学 教授 矢島,美寛
 東京大学 教授 久保川,達也
 東京大学 助教授 大森,裕浩
内容要旨 要旨を表示する

最初に本研究の統計学や経済学における位置づけを述べ,後に本文の要旨を各章ごとに関連付けながら述べる.

現代統計学において正規分布の果たす役割は大きい.ある統計モデルを考えたときにその確率要素に仮定されるのはまず正規分布である.正規性の仮定は便利で多くの利点を持つことが理由として挙げられる.しかし,正規性の仮定だけでは十分に説明できない統計データがあることは昔から知られてきた.近年注目を集めている裾の厚いデータもそうである.正規分布はその性質から裾が指数的に減少する場合以外はデータへの当てはまりがよくない.経済学では以前から金融時系列データが裾の厚い分布によってよく説明されることが分かっている.また保険の分野でも裾の厚さは注目を浴びている。さらに最近ではWorld Wide Webに関する多くのデータは裾が厚いことが分かってきた.その他裾が厚いとされるデータが観察される分野は,統計物理,信号処理,通信など多岐にわたる.データをモデル化する目的は,説明,予測,リスク管理など様々である.本論文では裾の厚いモデルを論じる.

裾の厚いデータをモデル化する方法はいくつかある。詳しくは本論文の前書きを参照されたい.ここでは最も簡単なものとして直接データに裾の厚い分布を当てはめる方法のみ挙げておく.我々が主に扱うのもこの方法である.第1.1節に,実際のデータに対し当てはまりが良いとされる分布を紹介する.ごく最近であるがt分布に歪みを入れるなどの新しい分布の研究が盛んになりつつあり,それについても触れている.注意しなければならないのは,理論的な背景から創られた分布や分布自体が複雑なものもあり一概に簡単とは言えない点である.

今までに裾の厚いデータに対して多くの研究がなされてきた.新しいモデルや分布の構築,それに関連した推定量の考案などが挙げられる.ただ,こうした新しいモデルや分布の検証に関する研究はまだ少ない.具体的には実際のデータに照らし合わせ,モデルや分布の仮定が妥当であるか検証する研究である.統計モデルが現実のデータをよく説明するために考え出されるとしたら,実際によく説明されているかを検証することは重要である.モデルの構築,検証という繰り返しがよりよいモデルを生んでゆく.また説明できる限界を知ることも重要である.

この方向ではモデル選択や分布の適合度検定などの研究分野が挙げられる.モデル選択に関しては本論文の前書きを参照されたい.我々の取り扱う研究は裾の厚い分布の適合度検定に関してである.この研究は裾の厚いデータを直接分布によってモデル化する際,その当てはまり具合を調べる研究である.正しいと仮定される分布とデータから得られる経験分布との距離を何らかの方法で測り,その離れ具合を見て検定を行う.カイ2乗検定が最も有名であるが,他にコルモゴロフ・スミルノフ検定,アンダーソン・ダーリン検定などが知られている.

本論文扱う対象は安定分布という裾の厚い分布のクラスである.正規分布以外は2次のモーメントを持たないことで知られている.扱う理由は本文の前書きにも述べているが以下に簡単に述べる.「安定分布は一般中心極限定理の極限分布として得られる重要な分布で,正規分布の自然な拡張と考えることができる.理論的には古くからいろいろと応用が考えられている.加法過程の中でも時間のスケールに関して不変な確率過程を表現する分布族として知られている.」

ただし忘れてはならない欠点もある.2次以上の有限モーメントを持つ分布がモデル化できない.多くの安定分布は密度関数が解析的に表現できないことなどである.前者に関しては第1.1節に述べる他の分布族を用いればよい.後者の欠点が大きい為,実際の取り扱いがやや難しい.

さて我々は安定分布に関する適合度検定を行なうわけであるが,解析的に表現できない密度関数もしくは分布関数をどう取り扱うかという問題が残る.解決方法としては分布関数と一対一の関係にある特性関数を用いる.正しいと仮定される分布の特性関数とデータから得られる経験特性関数の距離を見るのである.以下では本文の各章の内容を我々の目的である安定分布の適合度検定とのつながりに触れつつ述べる.

第1章(導入)は導入として基本的なことを述べる.第1.1節(裾の厚い分布)ではこれから応用が期待されるであろう裾の厚い分布族を簡単な性質を交え述べる.一般化ハイパボリック分布,一般化t分布,安定分布の3つである.安定分布以外の分布への適合度検定も応用として考えられる.特に後の章で取り扱う安定分布に関しては第1.2節(安定分布の特筆すべき性質)でFeller(1971)に沿って理論的な性質に触れる.安定分布が一般化中心極限定理の極限分布をなすということの意味を明確に述べた.第1.3節(適合度検定)では適合度検定の基本的なものとしてクラメール・ホンミーゼス統計量とアンダーソン・ダーリン統計量をAnderson and Darling(1952)に基づいてやや詳しく解説する.これらは仮定される分布とデータから得られる経験的な分布の2乗距離に重み関数を掛けて積分し導出される.第4,5章で見る経験特性関数を用いた適合度検定も2乗距離を測るタイプの検定であり共通する部分も多いのでここで予め説明しておく.

第2章(安定分布の密度とその微分)では安定分布の欠点であった密度関数の取り扱いを対称安定分布の場合に述べる.密度関数とパラメータに関する微分を数値的に求め,それを用いてフィッシャー情報量を計算した.方法としては密度関数のZolotarevによる積分表現と密度関数の無限級数展開を組み合わせ数値的な計算を行うものである.Nolan(1997)を改良したものとなっている.

第3章では安定分布の最尤推定量の性質について論じる.先行研究や第2章を見れば最尤法は数値的に可能なことが分かる.理論的にもパラメータ空間の境界を除いては漸近正規性も証明されている.ただし正規分布に近づくにつれて情報量が発散するためこの周辺での最尤法の挙動は明らかではなかった.Nagaev and Shkol'nik(1988)は対称な場合に正規分布近くでの指数パラメータαの情報量の挙動を明らかにした.この章ではこれを拡張して一般安定分布の全てのパラメータの情報量の挙動を明らかにした.

第5,6章では前の章の結果を用いて最終目的である対称安定分布の適合度検定を行う.検定統計量としてはデータから推定されたパラメータを代入した真の特性関数とデータから経験的に得られた特性関数との2乗距離に重み関数をかけて積分したものである.指数パラメータαを未知として扱うか既知として扱うかによって2通りの検定を考えた.未知として取り扱う場合は検定の対象が分布族になることに注意されたい。パラメータの推定量としては主にMLEを用いた.検定統計量の分布は通常モンテカルロ実験により求められるが本論文では他に数値的にその漸近分布を求めた。第1.4節でもあるように検定統計量の漸近分布はガウス過程を2乗して積分したもので与えられる.まずガウス過程の共分散構造を解析的に求め,それを固有値展開することで検定統計量の特性関数が求まる.そして特性関数を数値的に反転して漸近分布を求めた.特に反転に経路積分Slepian(1957)を用いた点が新しい点である.対立仮説に対する検出力もモンテカルロ実験により導出した.(要旨ここまで)

審査要旨 要旨を表示する

経済学では以前から金融時系列データが裾の厚い分布によってよく説明されることが指摘されている。また保険の分野でも分布の裾の厚さが重要な話題である。その他、裾が厚いとされるデータが観察される分野は、統計物理、信号処理、通信など多岐にわたり重要である。本論文はこの裾の厚い分布の適合度検定に関して詳細に検討している。分布の適合度検定とはデータを特定の確率分布によってモデル化する際、その当てはまり具合を調べるための統計的に重要な分野の一つである。モデルにおいて仮定される分布とデータから得られる経験分布との距離を何らかの方法で測り、その離れ具合を見て検定を行う。本論文で詳しく扱っている分布のクラスは安定分布という裾の厚い分布のクラスであり、正規分布以外は2次のモーメントを持たないことで知られている。

第1章では研究に必要な基本的な事項が述べられている。第1.1 節では今後の応用が期待されている様々な裾の厚い分布族の性質を整理している。一般化ハイパボリック分布、一般化t 分布、安定分布の3 つである。いずれも正規分布より裾の厚い分布を実現でき、さらに左右の非対称性を実現できることから様々なデータに柔軟に対応できる。特に後の章で取り扱う安定分布に関しては第1.2 節でFeller (1971) に沿って理論的な性質についてコンパクトにまとめている。第1.3 節では適合度検定の基本的なものとしてクラメール・フォンミーゼス統計量とアンダーソン・ダーリング統計量をAnderson and Darling (1952) に基づいてやや詳しく解説している。両統計量は実際に最もよく使われているノンパラメトリックな適合度検定である。これらは仮定される分布とデータから得られる経験的な分布の2 乗距離に重み関数をかけて積分し導出される。経験過程を2 乗して重みをつけて積分したものと理解でき、結果として両統計量は漸近的にガウス過程の2 乗を積分したものに収束する。クラメール・フォンミーゼス統計量の重みは定数、アンダーソン・ダーリング統計量の重みはガウス過程の共分散関数の逆数を用いる。第4、5章で導入される経験特性関数を用いた適合度検定も2 乗距離を測るタイプの検定であり共通する部分が多い。

第2章では安定分布の密度関数の数値計算が詳しく論じられている。多くの安定分布は、その特性関数は解析的に表現できるのに対し、密度関数は初等的な関数で表すことができない。そのため統計的な取り扱いに工夫が必要である。密度関数を計算する方法としては特性関数を数値的に直接反転する方法、Zolotarev による積分表現を用いる方法、密度関数の無限級数展開を用いる方法がある。最初の方法は一般的ではあるが、振動する関数の無限区間の積分が必要となり数値的な困難がある。そこで本論文では密度関数のZolotarev による積分表現と密度関数の無限級数展開を組み合わせ、対称安定分布の場合に密度の正確な数値計算を行っている。具体的には、積分表現のみを用いるとパラメータや標本の範囲によっては密度関数の値が不正確になる場合があり、その不正確な範囲を確定し無限級数表現で代替している。さらに密度のパラメータに関する微分を数値的に求めパラメータによる分布の変化を詳しく分析している。その結果を用いてフィッシャー情報量を計算しまた最尤法のモンテカルロ実験を行っている。両者が整合的であったことから数値計算の正確性が保証される。モンテカルロ実験による観測情報量も、尤度関数の2 回微分を使うものと使わないものとに分けて分析されている。前者は後者と比べ分散が小さいかわりにバイアスが大きいことが明らかにされた。

第3章では正規分布の近傍での安定分布のフィッシャー情報量行列の挙動が詳しく分析されている。安定分布の中で全てのモーメントを有する正規分布(. = 2) は特異な存在である。他の安定分布と異なり裾が多項式ではなく指数的に減少する。それにもかかわらず一次元の分布に関する限り安定分布は連続的に正規分布に近づく。ただし推定に関しては、そのパラメータ(R,  ̄, 1, .) を最尤推定する際に正規分布(. = 2) のところで. のフィッシャー情報量が無限大に発散することが知られている。これは標本が大きい場合、正規分布からの標本ならば. の最尤推定量は. =2 の値を高い確率で返すという興味深い現象である。このような場合には無限大に発散する際のオーダーを求めることが興味深い問題である。先行研究ではNagaev and Shkol'nik (1988) は対称安定分布の正規分布近くでの挙動を明らかにし、. の情報量の発散のオーダーを求めている。密度関数のZolotarev による積分表現を詳しく解析することで正規分布近くの安定分布の密度に漸近的に迫るアプローチである。安定分布の無限級数展開のアイディアも用いられている。第3 章ではこれを拡張して一般安定分布の正規分布近くでの挙動を明らかにしている。パラメータ. が0 でない場合、密度関数は正負の領域で非対称的に正規分布へ近づく。更に密度の微分を詳しく解析し全てのパラメータの情報量の挙動を明らかにしている。正規分布のところでは情報量行列の. の要素が0 に退化したり. と. の交差する要素が無限大に発散するなどパラメータ毎に異なる。正規分布近くの安定分布は応用も広いので今後数値的にこれらの結果を検証することも重要である。

第4章では安定分布のひとつであるコーシー分布の適合度検定が論じられている。コーシー分布はt 分布にも属し特にその密度関数が簡単に表現できるが、安定分布への応用を考慮に入れて経験特性関数を用いた適合度検定が行われている。この検定統計量は経験特性関数とパラメータに推定量を代入した特性関数との2 乗誤差を考え、重み関数をかけて積分したもので与えられる。推定量として分位点を用いたものはGAurtler and Henze (2000) に既に与えられており、本論文ではそれを拡張してパラメータ推定を経験特性関数とMLE によるもので与え比較している。モンテカルロ実験によると先行研究と競合的な検定統計量を構成することが分かる。ここでは対立仮説や重みによって検出力が変化するので重み関数の選択が重要となる。先行研究と大きく異なる点は、検定統計量の漸近分布をモンテカルロ実験によるのではなく漸近理論に基づく近似により求めた点である。具体的な手順は以下のようである。本論文で提案されている検定統計量は経験特性関数過程に重みをかけて2 乗して積分したものと考えられ、従って検定統計量は漸近的にガウス過程に重みをかけて2 乗積分したもので表現できる。このガウス過程の共分散構造の固有値展開を用いれば、検定統計量は漸近的にカイ2 乗分布に固有値をかけたものの無限和で表現できる。よってその特性関数が無限積の形で求まり、それを反転することにより検定統計量の漸近分布が求まる。本論文ではガウス過程の共分散構造が具体的に計算され固有値を数値的に近似している。特に共分散構造においては、ガウス過程の正の時間と負の時間で相関が無いことから、漸近統計量は自由度2 のカイ2 乗分布の無限和に従い、特性関数の反転の際に留数の定理を用いることができる。数値計算で近似された検定統計量の漸近分布と、標本の大きさ200 程度のモンテカルロ実験によるそれとが一致いてしてることから、両者の整合性が確認されている。

第5章では対称安定分布の適合度検定が論じられている。対象とされている検定は対称安定分布全体の分布系に対する検定(H1) と指数が既知(. 固定) の対称安定分布に従うという検定(H2) の2 つである. 第4 章のコーシー分布の研究を安定分布に拡張したものと考えられるが、密度関数が陽に表せないため数値計算が多く用いられている。また4 章の結果を一般化し、経験特性関数を用いた適合度検定で推定量が漸近有効性を持つ場合に検定統計量の漸近的なガウス過程を導いている。すなわち、ガウス過程の共分散構造が特性関数と特性関数のパラメータに関する微分、情報量行列で表現できることを示している。固有値近似を経て検定統計量の漸近分布の特性関数が近似され、それを反転すれば分布が求まる点はコーシー分布の場合と同様である。ただし留数の定理が一般的には利用できないため、Slepian(1957) の手法を用い特性関数を複素平面に拡張して経路を工夫することで反転公式を計算している。特性関数は2 価関数の無限積となっており分岐点を2 個ずつ組み合わせその間を切断し、分岐点のペアをそれぞれまわる周回積分の手法を用いている。検定統計量の漸近分布の密度関数はこの周回積分の無限和になっている。無限和は交代級数になっており収束は速い。H1 とH2 の両仮説とも推定量に経験特性関数によるものと最尤法によるものを用いた2 つの適合度検定が考えられている。両推定量とも漸近的な分布が計算でき、漸近検定統計量のガウス過程の共分散関数が計算されている。ただ対象とする範囲が分布系全体と広いため数値的な研究は最尤法によるものに限られている。ここでもコーシー分布の場合と同様に数値計算で近似された検定統計量の漸近分布と、標本の大きさ200 程度のモンテカルロ実験によるそれとが一致いていることから両者の整合性が確かめられている。経験特性過程は裾が重い場合に原点近くでの収束が速いことも併せて確かめられている。分布系に関する(H1) 適合度検定をどの様に構成するかに関してはいくつかのアイディアが述べらているがまだ検討が必要である。なぜならこの場合は. の値によって検定統計量の分布が変化するため、. の範囲を制限したり上限をとるなどの検定の手続きが必要となる。従って対立仮説の分布を与えたもとでのモンテカルロ実験などはなされていない。パラメータ. 固定の安定分布に従うという検定(H2) では対立仮説にはt 分布を用いてモンテカルロ実験をしている。統計モデルでしばしばその確率要素がt 分布か安定分布かということが問題になるからである。安定分布の帰無仮説の裾が厚い場合は良く検出できているが、裾が短く正規分布に近い場合は検出力は小さい。これは正規分布近くの安定分布とt 分布の形が非常によく似ているためである。裾の挙動は両者でかなり異なるのが、分布全体の形状は似ているので実際に検定を用いる際には注意が必要であることがわかる。

講評:

第1章における裾の厚い分布の様々なモデルに関しては、それぞれのモデルの意味づけが必ずしも十分ではないという印象があった。第2 章および第3 章の安定分布の密度関数やフィッシャー情報量に関する結果は、既存の文献結果をかなり改善しており有用であると判断される。第4 章および第5 章における適合度検定については、提案されている統計量が一般的な検定統計量であり、t 分布などの特定の対立仮説に関してかならずしも良い検出力を持たない点が指摘された。

論文審査の結論:

松井氏は、大学院課程を通じて、裾の重い分布族として応用上も重要な安定分布の研究に取り組み、複素積分上の工夫や数値計算上の工夫を駆使して、安定分布の扱いに関する多くの理論的結果を導いた。これらの結果は、安定分布を用いた統計的モデリングを支える基礎的な技術として重要なものであり、今後の応用も期待できる。このような意味で、本論文は本研究科が要求する課程博士の基準を十分に満たしていると考えられる。したがって、この審査委員会は、本論文を博士(経済学)の学位を授与するにふさわしいと全員一致で判断した。

UTokyo Repositoryリンク