目次
データ分析で何ができるか
この記事の前編では、データ分析の目標設定にまつわる問題をお話ししました。今回は、実現性についてお話しします。
実現性の検討
ビジネス課題の多くはデータ分析で解決できません。実現性を検討し無理な取り組みは打ち切るべきです。検討は2つのステップで進めることができます。
最初のステップでは、まず、課題が発生するしくみの仮説を立てます。データ分析の個々の手法は、シンプルな問題しか解くことができません。そのため、課題が発生するしくみを、シンプルな問題の組みあわせで説明する仮説を立てます。そして、取り組む課題に要素技術を適用する現実的な方法を考えることで、新しいビジネスプロセスサービスや製品を生産するための一連のタスクの流れを導きます。
次のステップでは、新しいビジネスプロセスが課題解決に適しているか検討します。※1原因となる問題が複数あれば、一部の問題を解決しても十分なインパクトが出せるとは限りません。また、要素技術の取り込みは、ヒト・モノ・カネの大きすぎる負担を招くかもしれません。さらに、まだ成熟していない手法の採用は、技術リスクを高めます。
ヒトが理解できるか?
人間の想像力は限られています。どれだけデータを解析しても、ユーザーがどのような不確定性にさらされているかを理解しなければ、本質的な課題に気づくことはできません。また、参画者の相互理解が進まない限り、プロジェクト内のコミュニケーションは噛み合いません。理解が進むまえの段階では、難易度の高い課題への取りくみは避けるべきです。
理解を進めるには直接会うことが有効です。現地でできることは限られています。現場に足を運び直接会って話を聞いても、得られる情報量そのものは、実はそれほど多くないかもしれません。しかし、対面でのコミュニケーションがあるのとないのとでは、その後の理解と信頼関係が大きく変わってくるように感じます。
データは準備できるか?
データ分析には、統計解析的統計的推定または統計的仮説検定を用いてデータを解釈することな手法と機械学習的機械にデータの確率的な生成規則を学習させる手法な手法があります。機械学習的な手法は、大きなデータと豊富な計算資源があれば、しくみのわからない現象でも分析できます。逆に、データ生成のしくみがわかれば、データが少なくても統計的なモデルでうまく分析できる場合があります。また、データがほとんどない場合でも、シミュレーション数値シミュレーション。システムの時間発展のふるまいをコンピュータで模倣して追いかけることや数理最適化不等式で記述された制約条件のもとで、目的関数を最小化(または最大化)する決定変数を見つけることといった周辺分野の手法でアプローチできるかもしれません。このように、データやドメイン知識の量は、取りうるアプローチに影響します。
費用が効果に見合うか?
データの準備や、分析モデルの運用保守には相応のコストが掛かります。分析でえられる効果が小さい場合は、コストを下げないと導入できません。コストを抑えるために、粗い粒度のデータで使える手法や、計算負荷の少ない運用デザインを選ぶ必要があるかもしれません。
現代の技術で解けるか?
実現性は時代とともに変化します。現代の状況を知るためには、先行文献の調査や有識者ヒアリングが有効です。先行して商用化された事例はあるか。まだ実証実験のプレスリリースしか出てないか。白書政府が作成する報告書の通称や論文などで、どのような手法が採用され、どのくらいの精度が出ているのか。実装は公開されているか。研究開発の要素が強すぎないか。枯れた手法によるバックアッププランは組めるか。
いま現在の状況を調べるとき、過去の流れを踏まえておくと役に立ちます。次の章では、分析手法のおおまかな歴史をお話しします。

データ分析手法の歴史
※技術の背景が不要な方は、この章は読み流してください。
前史
データ分析の基本的な手法として集計が挙げられます。紀元前2000年頃のエジプトでは既に国勢調査による人口の集計が行われていたようです。1662年に毛織物商のJ.Grauntは、ロンドンの死亡表死亡表(Bill of mortality)。ロンドンの各教区における毎週の埋葬者数の集計表。1532年から1858年に掛けて発行されたを集計し、隠れたパターンをデータから発見しました。Grauntのように、観測されたデータから未知の法則や現象を推測することは帰納推論にあたります。
1740年に哲学者のD.Humeは帰納推論複数の観測にもとづいて一般的な法則を導く推論が何らかの自然の斉一性同じような条件のもとでは、同じような現象が起きるという仮定の仮定を避けられないことを指摘しました。データ分析でよく用いられる自然の斉一性は個々のサンプルが同じ確率分布ランダムな変数がある範囲の値をとるような事象の集まりに対し、確率値を対応させる関数に従うという仮定です。
統計解析
同じ分布に従う標本を大量に集めると、データの形成する分布はもとの分布に近づいていきます。統計学者のK.Peasonは、大量に集めた観察データが形成する分布を、データの従う分布と同一視し、簡潔な理論分布で記述する手法を研究しました。1900年には、記述の正確さを評価するための検定統計的仮説検定。仮説が正しければ理論分布に従うような統計量を作り、仮説を棄却するか判断する手続きも提案しています。
K.Peasonのアプローチは、大量のサンプルを集めることが難しい実験データの分析には使えません。そこで、統計学者のR.A.Fisherは、データが形成する分布を考えることをやめて、小サンプルの実験データにも適用できる統計理論を作りました。データの生成されやすさを尤度ゆうど。あるデータの生成されやすさを、そのデータにおける確率密度であらわしたものといいます。1912年から1922年にかけて、Fisherは尤度を最大化するようにモデルを推定する最尤法尤度を最大にするパラメータを求め、真の分布のパラメータの推定値とする手法を開発しました。Fisherは、データが最初から理論分布に従って生成されると仮定しています。これは、データの構造を調べる立場から、可能世界の構造複数のありうる世界のあいだの到達可能性の関係を調べる立場への転換です。
1964年にIBM社パンチカード式の会計機を発明したH.Hollerithが設立した会社から合併・改名を経て誕生したIT企業はメインフレーム巨大な組織の基幹業務などを集中管理するシステムで使われる大型の汎用コンピュータのシリーズSystem360性能とコストは異なるが同じソフトウェア互換性をもつ「汎用コンピュータファミリ」を実現したメインフレーム。世界的に大ヒットしたを発売しました。様々な用途に対応し、世代やサイズ間の互換性を持つSystem360は社会に広く受け入れられました。多くの企業がコンピュータを導入し、業務に利用するようになります。1970年には計算機科学者のE.Coddがリレーショナルデータベース色々な変数のあいだの関係を、複数の表形式にまとめて蓄積するデータベースの概念を提案します。計算力の高いコンピュータと大量のデータを活用し、きわめて大きなパラメータ数をもつ複雑な統計モデルが実用され始めました。
Fisher以来の最尤法の枠組みでは、サンプル数に対してパラメータ数が非常に大きなモデルをうまく扱うことができません。一方、ベイズ推定観測されたデータから、想定するベイズモデルのもとで、興味のある変数の従う分布を推定することでは、大きなパラメータ数を持つモデルも自然に取り扱うことができます。しかし、正当な知識の抽出を目的とするFisher以来の統計学は、恣意的な調整を必要とするベイズ推定を適切な手法と見なしませんでした。さらに、複雑なベイズモデルデータを生成する分布の構造と、分布のパラメータが従う分布とを指定したものの推定には非現実的な計算コストがかかるため、幅広い実用化には至っていませんでした。
1971年に統計学者の赤池弘次が、良い予測モデルを選ぶための指標を提案します。指標を導く議論の中で、Fisherの尤度はモデルの予測能力の偏った推定量データから算出できる量を統計量という。真の分布を特徴づける量を、良く近似する統計量を推定量というと見なせることを指摘しました。赤池氏の世界観を受け入れると、それ以前の統計学は、良い予測モデルを探す問題を近似的に解いてきたかのように見えます。これは、真のモデルのパラメータを推定する立場から、より良い予測モデルを探す立場への転換です。良い予測を目的とすることで、最尤推定かベイズ推定かによらず、統計モデルを統一的に比較できるようになりました。※2
1984年に数学者のS.Gemanらは、複雑なベイズモデルを簡単な手続きで高速に推定できる手法を提案します。これはMCMC※3と呼ばれる手法の一種でした。これに影響された統計学者のA.Gelfandらは、1990年に、MCMCによるベイズ推定で、統計学の標準的なモデルを簡単かつ効率的に扱う実例をいくつも示しました。これがきっかけとなって、ベイズ推定は急速に発展し、複雑な現象の分析にベイズモデルを利用できるようになりました。
機械学習
1982年にインターネットの概念が提唱され、1990年には世界初のウェブページが公開されました。インターネットの登場によりデータの流通量は爆発的に増大します。また、1990年代には、企業の意思決定のために社内業務用のデータを統合して時系列で蓄積するデータウェアハウス意志決定のため、主題別に編成され、統合され、時系列で、削除や更新しないデータの集合体の導入が始まりました。蓄積された大規模データの多くは、データ生成の統計モデルが知られていないものです。統計モデルの仮説を立てられなければ、ベイズ推定による分析アプローチは使えません。一方、データドリブンで良い予測モデルを作ることを目的とする(統計的)機械学習機械にデータの確率的な生成規則を学習させる手法は、強い仮説を必要としません。そのため、良い仮説を見つけるための探索的分析※4や、強い仮説なしでのモデリング対象とする現象の単純化した模型を作ることに、機械学習が使われるようになりました。
1992年に、数学者のS.Gemanらは機械学習の分野にバイアス・バリアンス・トレードオフ※5の概念を持ち込みました。予測誤差の期待値ランダムな変数の値の、実現確率による重みづけ和を汎化誤差既知のデータで訓練されたモデルによる未知のデータの予測誤差の期待値といいます。Gemanは学習データの選び方に関する汎化誤差の平均を考え、モデルの性質による揺らぎ(バイアス推定したモデルの平均的な偏り)とデータの選び方による揺らぎ(バリアンスさまざまな訓練データで推定したモデルのばらつき)との和に分解しました。そして、モデルを複雑にしていくにつれて、バイアスは改善するが、バリアンスは急激に悪化することを実験で示しました。このトレードオフから、複雑すぎないモデルを使うべきだ、という指針が得られます。この指針は広く信じられるようになりました。
数学者のV.Vapnikは、1990年代までにモデルの汎化誤差を評価する理論を作りました。Vapnikは、汎化誤差が、学習時のあてはまりを表す経験誤差訓練データで計測したモデルの誤差。モデルのあてはまりの悪さとモデルの複雑さとで決まる上界を超えないことを示しました。1995年に、Vapnikらは経験誤差やモデルの複雑さをコントロールできるように設計された機械学習手法であるSVM(Support Vector Machines)ある種の変換で特徴量を増やしてから、データとの距離を最大化する境界面を描くことで、分類器を作成する手法を提案します。Vapnikの上界は、モデルの複雑さが大きくなるにつれて悪くなる性質を持つため、複雑すぎないモデルを使うべきだという指針と矛盾しません。
1990年に計算機科学者のR.Schareが「ランダムより僅かに良い予測をする弱い学習器ランダムな学習器より僅かに予測精度が高い学習器を組み合わせて強い学習器ランダムな学習器より著しく予測精度が高い学習器を作ることができるか?」という問いに肯定的な回答を与えました。この結果を基礎として機械学習モデル訓練データ中の関係を学習し、未知のデータについて予測する機械をアンサンブル学習多数の弱い学習器を組み合わせて強い学習器を作る手法の総称する手法が発展していきます。1995年には、逐次的に誤差を改善するように弱い学習器を追加していくブースティング精度に応じて重みづけられた弱い学習器を逐次的に追加して強い学習器を作る手法の実用的な手法が提案されました。1996年に、計算機科学者のC.Cortesらは、ブースティングの汎化誤差既知のデータで訓練されたモデルによる未知のデータの予測誤差の期待値を評価する実験を行い、どれだけモデルを複雑にしても汎化誤差の悪化が始まらないケースがあると報告しました。直感に反するこの現象は「ブースティングにおける過学習への抵抗」と呼ばれます。
人間の神経系のしくみに動機づけられた学習器既知のデータからタスクの解き方を学習できるモデルであるニューラルネット入力の重みづけ和を変換して出力を算出するユニットを、いくつも繋いで作られた学習器の研究は機械学習の黎明期から続けられていました。ニューラルネットは、単純な関数入力された数に対して、出力する数をひとつ対応させる規則を関数というの合成を繰り返して複雑な入出力関係を表現します。1980年代には、十分なデータ量と、高速な計算機、さらに良い初期パラメータ機械学習モデルを逐次的なアルゴリズムでデータにあてはめる際に、パラメータの探索を開始する出発点とする値が与えられれば、合成回数が非常に多い深層ニューラルネット狭義には4層以上のニューラルネットを深層ニューラルネットと呼ぶ。2層なら単純パーセプトロン、3層なら階層型ニューラルネットを効果的に学習できることが知られていました。学習に必要な計算の多くは行列演算数を並べた表を行列と呼ぶ。データ分析に必要なさまざまな処理は、行列の和や積や分解などに帰着できるです。1999年にNVIDIA社アメリカ合衆国カリフォルニア州にある半導体メーカー。半導体の中でも特にGPUを汎用計算用途に拡張したGPGPUの設計に特化しているが画像処理主にコンピュータを使用して、画像を変形したり、色合いを変えたり、別の画像と合成したり、画像から何らかの情報を取り出す等の処理全般を指すにおける行列演算を高速に処理できるGPU(Graphics Processing Unit)リアルタイム画像処理に特化した演算装置を発明します。2006年に汎用GPU演算用のCUDAアーキテクチャ(Compute Unified Device Architecture)NVIDIA社が開発・提供している、GPU向けの汎用並列コンピューティングプラットフォームが発表され、GPUを学習時の計算に利用できるようになりました。また、同年に計算機科学者のG.Hintonが、良い初期パラメータを高速に見つける最初の手法を提案します。効果的な学習が実現し、深層学習の端緒となりました。2012年に、大規模なデータセットによるコンペで、GPUを利用して訓練された深層学習器多数の階層をもつニューラルネットが高い成績を挙げて優勝します。深層学習に注目が集まり、研究と応用が急速に進みはじめました。この学習器は、120万ほどの学習サンプル数に対して、6000万ほどのパラメータをもつ、複雑なモデルでした。複雑な学習器では、Vapnikの上界モデルの汎化誤差を上から押さえる評価式のひとつ。データサイズに比したモデルの複雑さと経験誤差で決まり、モデルが複雑になると大きくなるで保証される汎化性能が悪くなります。複雑な深層学習器がなぜ実際にはうまく汎化既知のデータで訓練されたモデルが、未知のデータを予測できるようになることできているのかは、重要な未解決問題となりました。
2017年に、統計物理学者のM.Advaniらが、浅いニューラルネット入力層・中間層・出力層の3つの層だけからなるニューラルネットの複雑さを増していくにつれて、一度は悪化した汎化誤差が再び改善をはじめるという現象を観察しました。これは、広く信じられてきたバイアス推定したモデルの平均的な偏り・バリアンスさまざまな訓練データで推定したモデルのばらつき・トレードオフ仮説※5からの示唆に反しています。2019年には、この現象は二重降下モデルの複雑さを増やしていくにつれて、一度は予測誤差が増加するが、その後、二度目の減少を始めるという現象と呼ばれるようになりました。2重降下は、ニューラルネットに限らずかなり一般的な条件でおきると予想されています。計算機科学者のP.Nakkiranらは、実用的な多くの深層学習器で実験を行い、2重降下現象を確認しています。
データ分析手法の限界
現在、実用されている分析手法には深刻な限界があります。多くの手法は、データが同一の分布確率分布。ランダムな変数がある範囲の値をとるような事象の集まりに対し、確率値を対応させる関数から生成されるという自然の斉一性同じような条件のもとでは、同じような現象が起きるという仮定を仮定しています。そのような仮定のもとでモデルを汎化既知のデータで訓練されたモデルが、未知のデータを予測できるようになることできても、変化するビジネス環境への適応を支援できないことはよくあります。そのため、データの分布が変化しても妥当な予測ができる手法の開発が求められます。この方向では、敵対的訓練実データを摂動して作られる最凶の攻撃に対して、最もロバストに振る舞うモデルを訓練する手法や(統計的)因果推論実験や観察のデータにもとづいて、介入の因果効果を推定したり、変数のあいだの因果関係を探索する手法によるアプローチなどで研究が進められており、強力な手法の出現が待ち望まれます。
まとめ
この記事では2回に渡り、データ分析の活用や実現性の問題を追いかけてきました。実際の案件では、ビジネスパーソンをはじめとするクライアントと私たち分析者とのあいだで、こうした論点を話し合いながら、分析を企画・推進していくことになります。
Insight Edgeでは商社トレーディング業務を通じて獲得された情報や人間資産を活用し、様々な業界でのビジネス機会を発見・実装する機能を持つ一種の投資ファンドグループの内製エンジニア集団として、DX推進の技術支援をおこなっています。データ分析で解決したいお悩みごとがありましたら、まずはお気軽にご相談ください。