BIプラットフォームを提供する「DOMO」は、「Data Never Sleeps 7.0」※1というインターネット上で1分間に生み出されるデータ量を表したインフォグラフィックを公開しています。これによると、Twitterでは1分間に511,200ツイート、Instagramでは55,140枚の写真投稿、YouTubeでは4,500,000回再生、Netflixでは694,444時間分の映画やドラマがストリーミング配信されています。業務においても同様に様々な種類のデータ(情報)に触れ、その中から必要なデータを選択して様々な判断に活用していると思います。
今回は、膨大なデータに囲まれた環境で有益な情報を伝える手段であるデータビジュアライゼーション(データ視覚化)について、その目的や効果、デザインする時のポイントなどをお伝えできればと思います。
目次
データ注目の背景
データは様々な意思決定やアクションに使われてます。近年のように変化が早く、VUCA(先行きが不透明で、将来の予測が困難な状態)の時代に対しては、データドリブン(KKDという勘、経験、度胸だけに頼るのではなく、売上データや製品データ、他社のデータなどの様々なデータを蓄積し、そのデータの分析結果をもとに、課題解決のための施策立案やビジネスの意思決定を行う業務プロセス)が注目されています。データの収集から視覚化、分析、意思決定をいかに早く正確に行うことができるかが、経営や業務遂行に必要となってきています。
データの種類
冒頭で少し具体的なデータに触れましたが、データは2種類に分けることができます。一つは質的データ、もう一つは量的データです。
質的データ
質的データとは、分類や種類を区別するためのデータのことです。そのままのデータでは足したり引いたり演算のできない変数です。この質的データを評価する基準(尺度)は下記2つがあります。
名義尺度
分類の順序に意味がなく、データを区分するものです。例えば、社員に割り振る社員番号や性別(男性を1、女性を2としたデータ)、血液型、電話番号のようなデータのことです。ポイントとして、ここでの数値は分類としての記号の意味を持つだけで、「10は1より大きい」というような計算できる数値としての意味は持ちません。
順序尺度
分類の順序に意味があるデータです。例えば、Webサイトの使いやすさアンケートで「1.使いにくい、2.普通、3.使いやすい」というデータがあった場合、 「1.使いにくい」よりも「3.使いやすい」のほうがユーザビリティが高いと言えるが、順序を演算して「3倍使いやすい」と言うことはできないです。 テストの順位や学年などのデータも同様で、演算しても意味が無いデータは質的データに当てはまります。これらの数値は大小関係にのみ意味があると言えます。
量的データ
量的データとは、数値として意味のあるデータのことです。質的データとは異なり、足したり引いたり演算ができる変数です。この量的データを評価する基準(尺度)は下記2つがあります。
間隔尺度
データの間隔に意味があるものです。テストの点数や気温、年齢など、和(+)や差(-)の演算が可能で、ゼロもひとつの状態にすぎないデータのことです。ゼロに関して言えば、例えば摂氏0度は水が凍る温度であるという意味であり、「温度がない状態」を意味しないです。このように間隔尺度は、個々のデータの等間隔が保証されているので、足し算や引き算により統計量の算出が可能なデータのことを言います。
比例尺度
データの比率に意味があるものです。身長や時間、速度、売上金額など、和差積商(+ – x /)の演算が可能で、ゼロが何もないことを意味するデータのことです。例えば、重さが10グラムと20グラムであれば、後者が前者より2倍重いという表現ができます。また、重さが0グラムは「重みがない」ということを意味します。このように、比例尺度は等間隔に加えて、ゼロを基点とすることができる尺度で、四則演算が全て可能なデータと言えます。
各尺度のデータ水準
ここで解説した4種類のデータ水準を比べると、名義尺度データが最も水準が低く、順序尺度データ、間隔尺度データ、比例尺度データの順に水準が高くなります。デザインする際には、このデータ水準とデータの意味をしっかりと理解することが必要になります。
データビジュアライゼーション(データ視覚化)のデザインとは
データの種類について簡単に触れましたが、データだけでは「すぐに」「わかりやすく」伝えることは難しいです。例えば、受験生10,000人の5教科のテストデータがあった場合、10,000行のExcelデータをそのまま渡されても、データから「何を言いたいのか」を読み取るのに「時間がかかる」と思います。もしそれが、5教科ごとの平均点のデータ、教科別点数の分布図や割合、設問ごとの正誤率など、グラフや図のような視覚的なデータになっていたらどうでしょうか。データから「何を言いたいのか」が「すぐに」「わかりやすく」伝えることができると思います。
データを見るのは誰か
デザインにおける基本で最も重要なことですが、データを見るユーザーは「誰か」を考える必要があります。このユーザーのリテラシーに合わせて視覚化することで「何を言いたいのか」が「すぐに」「わかりやすく」伝えることができます。とは言うものの、ユーザーリテラシーのセグメントを細かく決めても、それ以上に多くの人が見ることもあり得るので、ある程度多くの人が理解しやすいユーザーを想定して考えると良いと思います。
データの目的
データを使用する目的はいくつか考えられます。例えば、経営や事業などを判断をするため、現在の稼働状況がどうなっているか確認するため、過去のデータから仮説を立案するため、もしくは検証するため、データをもとに事実を誰かに伝えるためなど様々です。目的に応じて、データを最適に表現することが必要です。私が以前参画したプロジェクトで行ったデータビジュアライズのデザインをする際に考えたことを以下に示します。
①気づきを増やす
このプロジェクトでは、環境データや製品の状態、稼働状況、他の施設との送受信データなど様々なデータを扱いました。BIツールを活用して同一時間や期間、場所、カテゴリーなど様々な切り口から同時もしくは瞬時に複数のデータを見れるように視覚化のデザインを行いました。これにより、膨大なデータから新たな価値を見つけるための気づきが増えることを期待してます。
②危険を伝える
このプロジェクトでは、複数の庫内にモノを保管してその内部温度などを遠隔で管理するものでした。保管しているモノの温度が条件によって上昇し発火する恐れがあるため、庫内の温度がしきい値を超えたら「アラートを通知」するようにデザインしてます。また、ダッシュボードとして複数の庫内の現在の状態と過去の状態を見れるようにしており、過去のデータからはその傾向などの分析が可能です。当然、温度情報はプライオリティが高いので、最上段(一番最初にユーザーが見る位置)に示すこともポイントでした。また、「アラートを通知」することは視覚化とは異なりますが、ダッシュボード画面を見ていない場合を想定してデザインしてます。
③認知/理解を早くする
前述した10,000人の5教科のテストデータ(Excelの表データ)だけを渡されるケースにおいて、受け手が内容を理解するための負荷や時間が発生します。データを視覚化する上で重要なことは、受け手(この記事ではユーザーのこと)に負荷をかけずに瞬時に理解してもらうことにあります。仮に30秒で理解できるものを視覚化することで5秒でできた場合、ユーザーが多ければ多いほどその負荷軽減量は多くなります。誰が見るのかに加えて、どのくらいのユーザーが見るのかを考えることで、その重要度も増していくと考えます。
データを構造化して考える
①②③以外にも、上司への報告として事実を伝えるデータ視覚化、広く分かりやすく伝えるために事実を説明するためのデータ視覚化、予測を含む仮説検証するためのデータ視覚化などが考えられます。
改めてデータについて考えると、雑音やノイズなどの当人にとって不要なデータを含めた「すべてのデータ」の上位概念に「意味のあるデータ」があり、更に上位に「価値のあるデータ」というように構造化して考えると分かりやすいと思います。
データ名称 | データの内容 | データの重要度 |
---|---|---|
価値のあるデータ | 生活や業務に活用できるデータ | 高 |
意味のあるデータ | 意味をもつデータ | 中 |
すべてのデータ | ノイズを含めたすべてのデータ | 低 |
①では「意味のあるデータ」から「価値のあるデータ」を探索すること、②ではしきい値を超えた「価値のあるデータ」を即時伝えること、③では「価値のあるデータ」を早く認知/理解させることがポイントになっていると考えます。
視覚化の種類
データビジュアライゼーション(データ視覚化)のデザインについて具体例を交えて説明してきました。ここからは、データを見るユーザーを想定し、データを分かりやすく表現できる図やグラフの種類をみていきます。今回は私の実務に沿った形で、動的な表現を想定しています。
動的に表現できるデータ
参考にするのは、「Highcharts」「Chart.js」です。こちらのサイトのデモ画面で動的に表現できる図やグラフの種類を確認できます。以下では「Highcharts」で表現できるグラフを種別ごとに解説します。
Line charts(折れ線グラフ)
折れ線グラフは、データの変化を表すグラフです。時系列に沿ってデータがどのように変化しているか、変化の傾向を大まかにつかむのに適しています。また、複数の折れ線グラフを色や形(模様)※2で区別して表示することで対象を比較することが可能です。例えば、気温や売上推移などを表現する際に用いられます。
Area charts(面グラフ)
面グラフは、折れ線グラフに基づき定量データを表し、軸と折れ線で挟まれた領域に色を付けたグラフです。折れ線グラフと比べてデータ増減の推移だけではなく、全体的な総量を表現するのに適しています。例えば、電力量や新規定期購読者などの推移を視覚化する際に用いられます。
Column and bar charts(棒グラフ)
棒グラフは、同じ尺度の複数のデータを並べて比較するグラフです。データ量が視覚的に把握できるので、事業部ごとの売上や教科ごとの平均点など、連続性のないデータを比較する際に適しています。
Pie chart(円グラフ)
円グラフは、データに占める構成要素の割合を表すグラフです。ある量に占める内訳や構成を視覚的に伝えることに適しています。例えば、市場のシェア、年代別割合、アンケート回答結果など、全体に対してどのくらいの比率を持つかを表現する際に用いられます。
Scatter and bubble charts(散布図とバブルチャート)
散布図
散布図は2つの量的データに相関関係があるかどうかを表す際に便利なグラフです。注意点としては、散布図で2つの量的データの間に関係性の有無を示すことだけであり、因果関係を示すものではないということです。ちなみに、量的データ同士だけではなく、量的データが原因、質的データが結果となる場合にも活用可能です。例えば、年齢と年収の関係、身長と平均体重の相関などに用いられます。
バブルチャート
散布図が2つのデータだったのに対して、バブルチャートは3つのデータを1つのグラフに配置し、その関係性を表すグラフです。X軸Y軸に加え、円の大きさで表現します。例えば、X軸に商品の販売数、Y軸に売上額、バブルの大きさで市場シェアを表すなど3次元的に表現する際に用いられます。
3D charts(3Dグラフ)
3Dグラフは、立体的なグラフの総称です。棒グラフや円グラフを単に立体的にするだけでなく、全体を回転させたり仰角を変更することも可能です。視覚的なインパクトを持たすためだけに使用する場合もあるので、2Dグラフで表現できる場合は積極的に使用しなくても良いと思います。
Gauge chart(ゲージチャート)
ゲージチャートは、ゲージ(測定間隔)やメモリに1つの数値データを表し、そのデータが許容範囲に収まっているかどうかを確認する場合に便利なグラフです。赤や黄色、緑の範囲で表示したゲージは、現在の値をすばやく評価することが可能です。例えば、製品温度にしきい値を設けて表現する場合や車の速度計などに用いられます。
Heat and tree maps(ヒートマップとツリーマップ)
ヒートマップ
ヒートマップは、数値を色の強弱をつけることで表すグラフです。時系列に並べることで、時間の経過に伴う変化を表現することにも使用できます。例えば、あるWebサイト内のページでユーザーの目線が集まる箇所を色別で強弱をつけて表現して、どのコンテンツやパーツを見ているかを分析する際に用いられます。ただし、折れ線グラフの説明でも触れましたが、色だけで表現すると分かりにくい人もいるということを意識して、配慮したデザインにすることも重要です。
ツリーマップ
ツリーマップは、階層構造のデータを長方形の面積と色の組み合わせにより視覚化したグラフです。長方形の面積は各データのサイズ(数値)、色はデータの属性を表し、限られた空間でコンパクトに表現されます。円グラフに比べて表現できる面積が広いため、より直感的に分かりやすくなります。例えば、47都道府県の人口を表す際に用いられます。
Styled mode / Combinations / Accessible charts /Dynamic charts / More chart types(その他のグラフ)
これまでに説明したグラフ以外にも、ナレッジグラフやピラミッド図、タイムライン、組織図、異なるグラフの組合せ、グラフのカスタマイズなどの表現が可能です。使用する際は、「見た目が格好良い」「インパクトがある」などの理由で選ぶことはせず、ユーザーに「すぐに」「分かりやすく」伝えられるものを選ぶことをお勧めします。
静的に表現できるデータ:インフォグラフィック
今回は動的に表現できることを前提に視覚化の種類をご紹介しましたが、静的なものであれば様々なデータビジュアライゼーション(データ視覚化)表現が可能です。その一つにインフォグラフィックという表現があります。冒頭紹介したDOMOの例や電車の路線図もこれに該当します。情報を分かりやすく伝える手法として触れる機会があると思いますので、ぜひ興味を持っていただければと思います。
まとめ
日々の生活や業務において様々なデータに触れることが多いと思います。データを見た時に「どういう意味?」「分かりにくい」などと感じた時は、この記事を参考に考えていただければ嬉しいです。データを活用する際は、誰かに伝えることを意識してデータビジュアライゼーション(データ視覚化)を考えていただければと思います。