井手剛が書いた本のサポートページです。
異常検知と変化検知 (講談社, 2015)
[冒頭部立ち読み] [ 講談社サイエンティフィクのページ]
本書は、前著『 入門 機械学習による異常検知』の続編と位置づけられます。統計学における伝統的な仮説検定の枠にとらわれず、最新の機械学習の技術を幅広く盛り込みながら、異常検知・変化検知の実用的な技術を体系的に解説するよう努力しました。
理論構成上の本書の特色は、異常検知問題を「ネイマン・ピアソン決定則」と本書が呼ぶ考え方に基づく意思決定の問題として定義し、通常いわゆるベイズ決定則に基づいて行われる2値分類問題との違いを明確に区別していることです。これによりラベル付きデータの取り扱いが明確になり、また、共著者の杉山さんのグループがここ数年精力的に展開してきた密度比推定理論とのつながりも明確になります。この点において、前著『入門 機械学習による異常検知』を補完するものになっていると思います。
異常検知問題と2値分類問題の間を埋める問題設定として、「半教師つき学習」という手法があります。加えて、マルチタスク学習など、実問題で使える別の手法もいくつか盛り込みたかったところですが、ページ数の制約が厳しいので断念しました。これは今後の課題とします。
異常検知についての成書はほとんどないため、前著と同様、教科書としては本書で初めて書かれる内容も多いと思います。異常検知の諸手法についてはもちろんですが、機械学習の基礎にかかる部分でも、たとえばこんなことを書いています。
- マージン最大化近傍法という計量学習の手法の解説。これは昔作ったある論文の解説資料が割と役に立っているようなので、本にもきちんと書いておこうと思いました。
- 混合正規分布の逐次更新アルゴリズムの完全な導出。山西先生のご著書で挫折してしまった人はぜひ。
- 方向データ(長さがそろったベクトル)の取り扱いの詳しい解説。
- ガウス過程回帰の完全な導出と、実験計画法への応用。ガウス過程回帰は工学のいろんなところに顔を出しますが、ミステリアスな方法だと思われているようなので、完備された解説を書きました。
- 対マルコフグラフの基礎について相当詳しい解説。間接相関と直接相関の違い、偏相関の概念など、割と気合を入れて解説しています。
上記からもわかるとおり、本書は、これまで体系的に解説されることがほとんどなかった異常検知・変化検知の理論を解説する理論の本です。「難しいことは考えたくないけどプログラムは書きたい」というタイプの人は、本書ではなくて前著をお手にとられるとよいかと思います。
本書は、前著よりもちょっと難しめになっていますが、前著を完全に理解していれば、スペース上省略せざるを得なかった計算の詳細もきっと追えることと思います。前著とあわせて読むことで、実数値データについて現時点で知られている異常検知技術を網羅的に把握できるようになることを期待しています。
もしお気づきの点ありましたら些細な点でも結構ですから book@ide-research.net までご連絡いただけますと幸いです。
入門 機械学習による異常検知 ─Rによる実践ガイド (コロナ社, 2015)
- 章末問題解答
- 標本分散の定義についての補遺(Nで割るのか N-1 で割るのか)
- F分布からカイ2乗分布の導出についての補遺
- 3.3.4 節 カーネル密度推定のRコードについての補足
- 3.6.2 節 支持ベクトルデータ記述法のRコードについての補足
本書の最大の目的は、異常検知の基本技術を完全に理解することです。「完全に」というのは、データの表し方から始まって、異常度の計算の仕方まで曖昧さなく理解できるということです。一般に、異常検知を行う対象はモノごとにかなり違うので、前処理から機械学習的タスクまでツールを使って流れ作業的に行えるテキスト解析や画像解析とは状況が違うと思います。そのような場合、異常検知の基礎理論それ自体への理解は避けては通れないと思います。したがって、まずはそれを伝えることが第1の目的です。
一方、現場の問題を解決するためには、それを実装する必要があります。実は本書で主に想定している読者は、機械・電気・材料・制御などの非計算機系の学科を卒業して実務に携わっているエンジニアです。そういう人たちは、機械学習のツール群に通じていないと思われるので、まずは「最初の一歩」の壁を取り除くことに注力しました。それが第2の目的です。
この二つの目的の最適なバランスをとるため、Rの実行例は、数行で書けるもの(したがってすでにパッケージとして実装されているもの)が主です。しかしそれだけでも、同種の本がほとんどない現状では、十分日本のエンジニアの「実践ガイド」にはなると思っています。
本書はラベルなしデータに関する基礎事項を中心にまとめました。本書で手を動かしつつ基礎を確実にしてから、より発展的な内容の『異常検知と変化検知』に進むと理想的かと思います。
この本は、大学理系の教養課程程度の数学を十分理解していることを前提にしています。この点、やや敷居が高い読者もかなりいるようですので、もっと基礎からやり直すための本も構想中です。ご要望などありましたらどしどしお寄せ下さい。
誤りをなくすべく出版前に最善を尽くしましたが、完璧とはいきませんでした。申し訳ありません。もしお気づきの点ありましたら、どんな些細な点でも結構ですので book@ide-research.net までご連絡いただけますと幸いです。
- 初版第1刷の誤植 (図6.3(b)の原版 [epsファイル / pdfファイル])
- 初版第2刷の誤植 (図6.3(b)の原版 [epsファイル / pdfファイル])
- 初版第3刷の誤植
- 初版第4刷の誤植
- 初版第5-7刷の誤植
- 初版第8刷の誤植
大規模計算時代の統計推論 ─原理と発展 (監訳・翻訳, 共立出版, 2020)
統計学の巨匠 Efron教授とHastie教授の手による統計学史の本。統計学の概念の形成過程、とりわけ2010年代以降の、統計的機械学習理論との緊張感をはらむ相互作用に興味があればこの本を置いて他にない。
題材は基礎理論に限られるものの、その記述は深く、重い。翻訳の話が来たとき、英語版(原著のウェブサイトからpdfがダウンロード可能)に目を通してみたが、その時の印象と、翻訳の際に深く読んでみたときの印象が全然違った。業界の空気感のようなものが高尚な表現に織り込まれていることも多く、翻訳プロジェクトを通してわかったことは、この本を原著で著者の意図通り理解できるのは、本当に限られた一握りであろうということだ。普通の人は、翻訳に伴う誤差を考慮したとしても、(おそらく原著を傍らで参照しつつ)翻訳版を読むのが最も生産的であろう。
多人数で翻訳を行ったためもあり、出版にこぎつけるまでプロジェクト管理上の問題が多々生じた。それを挽回すべく、藤澤さん以下、若い統計学者の皆さんが、最後の最後まで必死に努力を重ねた。多大な労力を費やし閲読を行った共立出版の担当者の貢献も大きかった。彼らに敬意を表したい。
統計的学習の基礎 (監訳・翻訳, 共立出版, 2014)
[共立出版のページ]
本書はオムロンの井尻善久さんのリーダーシップの下で企画されました。ある学会で初めてお会いした時にこの計画を聞かされ、そのときは私のような応用寄りで仕事をしてきた人間が関わってよいのか分からなかったので、「まずは杉山さんに意見を聞いてみたら」とお答えしました。杉山さんを筆頭に、畏れ多くも、栗田先生、前田さん、神嶌さんと本書の監訳に携われたのは心からの光栄でした。
当初は私は監訳者としての関与だったのですが、6章(「カーネル平滑化法」)担当の方が途中で体調を崩され、私が引き継ぐことになりました。おそらく体調が悪かったがゆえだと思いますが、引き継いだ仕掛品の原稿は、機械翻訳で見られる規則性も直訳に見られる忠実性もなく、気まぐれにそれらしい日本語を当てたようなある意味芸術的な代物で、しかも悪いことに締め切りの時期は個人的に渡米の準備と立ち上げで忙殺されており、十分の質の仕事ができなかったかもしれないと危惧しています。人生勉強にはなりましたが、辛い記憶です。
井尻さんは所属企業で重要なプロジェクトをいくつも任されている様子で、その多忙の合間を縫い、おそらく睡眠時間を削って出版社との折衝や取りまとめ作業を行われたのだと思います。コミュニティへの貢献という観点で、ビショップ本における神嶌さんに勝るとも劣らないすばらしいものだったと思います。本当に頭が下がります。
翻訳プロジェクトのずうっと前に、原著は一通り読んでいましたが、説明を省略している箇所や、いまひとつ文意が取れない箇所が多数あり、難しい本だなという印象でした。今回、第一線の研究者が、内容吟味の上理解可能な内容になるように訳していますので、原著よりもはるかに価値のある本になったと思います。原著はpdfで公開されていますが、あえて高価なこの訳書を買う必要があるか問われたら、絶対ある、と答えたいと思います。
パターン認識と機械学習 (翻訳, 丸善, 2012; シュプリンガー, 2008)
本書の翻訳プロジェクトにかかわったのは神嶌敏弘さんからのメールが発端です。2006年頃だったと思いますが、当時は機械学習はまったくのマイナー分野で、本屋には専用の棚すらなく、数学書のある棚の端の方に置かれるような感じでした。神嶌さんのリーダーシップの下、おそるおそる出版社に提案書を送り、何とか実現にこぎつけました。
C. M. ビショップは理論物理で学位を取った人です。同じく物理で学位を取った私とは波長が合ったのか、原著はそれこそ熱狂的な勢いで読みました。一部の章を除き、すべての式を追ったと思います。そのような最高の本の翻訳プロジェクトに関われたのは本当に光栄なことでした。
神嶌さんの超人的なプロジェクト管理能力により、本書の翻訳の質は非常に高くなっていると思います。本書が、(2014年の時点で)上下合計数万部の記録的大ヒットになっているのもうなづけます。
分担執筆の本についての情報をまとめておきます。
AI・データサイエンスシリーズ 異常検知からリスク管理へ (2022)
私の人生の恩人である山西健司教授との共著という栄に浴した本。私は 『分散分権型環境での機械学習とリスク管理』 という章を担当しています。これは以前取り組んだ分散分権型機械学習問題のまとめに当たるものです。かなりのページを費やして、ブロックチェーンとビットコインの技術について解説をしています。サトシ・ナカモト論文に書かれている「ギャンブラーの破産問題」を詳しく解説しているのが特色。これはほとんどの通俗的解説では無視しており、その結果、ビットコインが確率的決着性(probabilistic finality; 終状態が確率的にしか決まらないという性質)を持つプロトコルである、という本質的な特徴を見落としています。ハッシュチェーンにすればセキュリティが確保されるわけではありません。その他、下記の岩波本でも書いたグラフィカルラッソ算法の(タイポなどを直した)再解説、エクスパンダ―グラフと呼ばれるネットワーク構造の不思議な性質など、割と独自性のある内容だと思います。買って損はないはず。
岩波データサイエンス Vol.5 (2017)
私は 『依存関係にスパース性を入れる — グラフィカル lasso の話』という章を担当しています。グラフィカルラッソ算法の導出を書いているのがひとつの特徴。Deep Learning革命以前の手法ですが、実世界のセンサーデータなどでは深層学習を何も考えず使っても労多くて益少なしという事実があるため、2022年現在でもなお、現場的には最優先の選択肢のひとつになっています。