統計解析という言葉はよく聞きますが、統計解析が実世界やビジネスのリアルシーンでどのように使われているのか、イメージが湧かない人も多いと思います。そもそも統計解析とは何なのか? どういうところで活用されているのか? ビッグデータとの関連性は? そんな率直な質問を日本アイ・ビー・エム株式会社の『IBM SPSS』担当の社員の方にお話を聞きました。未来のデータサイエンティストを目指す学生はもちろん、統計解析を苦手に感じている学生も「ちょっと挑戦してみようかな?」と興味を持てる取材になりました。

お話をしてくれた方 西牧 洋一郎さん
profile_ibm1999年に前身となるSPSS Inc.に入社。以来、現在までお客様のソフトウェア導入に携わる。現在はアナリティクス事業部にて、お客様の課題を直接聞きとり、よりスムーズなデータ解析を実現するために支援をしている。
経済学部経営学科出身。
お話をしてくれた方 西澤 英子さん
profile_ibm2IBMソフトウェア販売におけるテクニカル・セールスを担当。前職の製薬業界での分析コンサルティング経験を生かし、ビジネスアナリティクス、ならびにビジネスインテリジェンス製品を用いた幅広いデータ活用をクライアントへ提案している。
国際関係学部国際関係学科出身。
お話を聞いた人 青野 将大
MY FUTURE CAMPUS学生スタッフ 東京大学3年生 農学部国際開発農学専修
profile_ibm3サッカーサークルの他に学生団体に2つ入っていて、趣味はフットサルやサッカー、ボルダリングなどアクティビティ全般が好き。将来は日本ではなく、海外の勤務を希望している。成熟した市場ではなく、成長途上の国々で市場とともに、勤務企業の成長を成し遂げたいこと、マーケティングなどを通して国家ごとの文化の違いに触れたいと考えている。

統計解析とは何なのか?

―― MFC学生スタッフの青野です。じつは私は大学で国際開発農学を専攻しており、土壌の成分分析など、統計解析とはまったく無縁ではありません。とは言っても、統計解析についてうまく説明できないというか、統計解析が実社会でどう役立つのか、正直、ピンと来ない分野なんです……。

西牧さん なるほど。おそらく大学の授業でも統計解析には触れているはずですが、統計解析を理解するために、例として物理と比べてみましょうか。物理学は自然界の現象を様々な視点から研究し、最終的には一つの答え・法則を見つける学問です。一方で統計解析はデータをたくさん集めて、その中から物事の性質や規則性、ときには不規則性を見つけ、物事に結論を付けさせるためのものです。ですから1つの答えではなく、いくつかのパターンを提示でき、心理学や医学、マーケティングなど人が密接に関わる分野でよく使われています。おそらく農学部ならいつの時期にどの畑に何の種をまけば収穫量が上がるかを研究していると思いますが、そのような場面でも統計解析が使われているはずです。

―― あっ、確かにそのような勉強をしました。ある村の稲の収穫量について統計解析を行った記憶があります。最近はビッグデータの話題もよく聞きます。鉄道会社がビッグデータを活用して乗降客の動きを分析しているそうですね。

西澤さん 確かに今、ビッグデータに注目が集まっていますが、統計解析をわかりやすく理解するために、まずは統計解析とビッグデータを切り分けて考えて見ましょう。そもそも、統計解析とは、サンプリングされたデータを使って母集団とよばれる全体集合の傾向を推定したり検定したりして、結論を述べる方法論です。全体のデータを取得できないので、サンプリングされた代表データをエビデンスとして用い、分析者の考えを述べていくアプローチです。データ分析といったら、統計解析アプローチが用いられることが一般的でした。しかし最近、データ分析の現場に変化が現れました。その大きな原因がビッグデータです。私たちは今、スマホやICカードなどを普通に持っており、そこから巨大なビッグデータを集められるようになりました。いままでの想定を超えるような量や種類のデータが日々集められるようになり、いままでのサンプルデータを用いたアプローチだけでは、大量データを処理できないという現実に遭遇しました。そのようなビッグデータを高速かつ正確に分析するために、今まさに新規テクノロジーがどんどん投入されていますので、ビッグデータ分析は、IBMも含めさまざまな企業が注目しています。

西牧さん つまり大量のデータを集められるようになり、これまで分析できなかったものができる時代になりました。例えば先の鉄道のケースでは、ICカードを利用する乗客が母集団となり、サンプリングの必要がありません。対象データ全域から直接、これまで気付かなかった価値あるパターンを発見することができます。一方、ニュースでよく内閣支持率が発表されてますね。あの調査は、極めて少ない対象であっても適切なサンプリング手法にのっとっているので、日本人全体の支持率を推定できます。また、ビッグデータ分析が大規模データから直接仮説を発見する、『仮説発見型』といわれることに対して、統計解析は、あらかじめ立てられた仮説を適切な手続きで検証する『仮説検証型』と言えます。

―― ビッグデータは仮説発見型、統計解析は仮説検証型――。大変わかりやすいですね。ところでこの“仮説”について疑問があります。世の中にはたくさんのデータがありますが、その中からどうやって仮説を立てればいいんでしょうか?

西牧さん 仮説を立てるには前提としてその領域における「知識」が必要です。これだけコンピュータが進化していますから、機械学習から得たアルゴリズムでデータを分析し、コンピュータが関連性のある項目を見つけ、仮説のヒントを与えてくれます。ただしこれも人間の知識があってこそ。ビッグデータは仮説発見型と言いましたが、闇雲に分析しても仮説が見つかるわけではありません。こんな仮説が立てられるのではないかな、という視点を持つことが極めて重要です。今回の『SPSS Datathon 2016』に参加する皆さんに、ぜひ知っておいてもらいたいことですが、まず仮説を立てたいのなら、これから調べようとしているテーマや領域について事前にじっくりと調査し知識を得てください。そうするとどういう切り口でデータを解析すればよいのか、どんな仮説を立てるとよいのかが見えてくると思います。

_dsc0041

『IBM SPSS』を使うメリット

―― 統計解析についてはよくわかりました。では、『IBM SPSS』について教えていただきたいのですが、どのような統計解析ができますか? 簡単に使えますか?

西澤さん 統計解析ツール『IBM SPSS』は一つのブランドで、その中には用途やジャンルに応じたいくつもの製品があります。まず『IBM SPSS Statistics』は、誰にでも簡単にデータ分析ができるソフトで様々な形式のデータを読み込めます。病院が医療系データを統計解析したり、人口統計調査やアンケート結果の分析に使われたりしています。もともとはアメリカの大統領選の浮動票を予測するために開発されたソフトで、「人」に関する多様なデータを分析できます。操作も簡単ですよ。『IBM SPSS Modeler』はデータマイニング・ワークベンチで、大量のデータや変数の多いデータを分析できます。膨大なデータから未知の法則を発見するという点では、先ほどのビッグデータの解析に通じます。今回の『SPSS Datathon 2016』では『IBM SPSS Statistics』『IBM SPSS Modeler』それぞれ部門を用意しています。

―― 『IBM SPSS』は、他の統計解析ソフトや表計算ソフトとどのような違いがありますか? 学生の場合、表計算ソフトを分析に利用している人も多いのですが……。

西牧さん 例えばあるフリーの統計解析ソフトの場合は、簡単なプログラムを自分で書く必要があります。その点では『IBM SPSS』はそのような設定をしなくてもGUI操作ができるため初心者でも使いやすく、直感的に操作できるというメリットがあります。また必要があればですが、プログラミングによって複雑な処理を制御することも可能です。

西澤さん 最近の表計算ソフトは機能が充実し便利に使えるので、その便利さに慣れてしまって抜け出せない人もいるんですよ(笑)。ただし統計解析を重視する学会の発表では、表計算ソフトのデータにはあまり信用がないという話を聞きました。統計解析には正しいステップが必要で、それはエビデンスにもなります。先ほど、分析には仮定を立てるための「知識」が必要だとお話ししましたが、同様に「手順」も重視されます。どのようなプロセスでこのデータを導き分析したのか。その手順を踏んで答えに近づいていけるのが統計解析ソフトとして実績を重ねてきた『IBM SPSS』です。

―― お二人の話しを聞いていると、私も『IBM SPSS』を使っていろいろ分析してみたいと思いました。日本では統計解析を農業に用いることは珍しくありませんが、海外ではまだまだです。そういう地域では有意義な結果をもたらしそうです。

西牧さん ぜひ試してみてください。まずは“道具”として割り切って使ってもらってもいいんです。本来は統計解析をする理由や課題があるにもかかわらず必要な手順やルールを知らなかったせいで挫折する人がいます。しかし『IBM SPSS』はその手順を押さえることができるので、まずは道具として使ってもらい、そこから理解を深めていくアプローチもあります。結論を得るための道具だと考えてください。

_dsc0003

学生の視点、買う側の視点をフルに活かして挑戦

―― 今回の『SPSS Datathon 2016』では、参加する学生の皆さんたちはどのような着眼点でチャレンジすればいいでしょうか?

西牧さん 『SPSS Statistics』は論文部門もEntry部門も特定のテーマは設けていませんので、今日、青野さんとお話しした内容を参考に、知識・仮説・手順の大切さを知って挑戦してください。『SPSS Modeler Challenge部門』については、ある小売店舗における購買データの分析とデータに基づいた販促施策を考えてもらいます。参加者には同じデータを使ってもらうことになりますが、このデータをどのように分析していくかが、皆さんの腕の見せどころ。一つ、大きなヒントを皆さんにお伝えしておきます。今回は学生の皆さんもきっとよく訪れるチェーンの店舗が舞台です。皆さんがそのお店を訪れたときに、どんなサービスを受けたいのかを想像してください。売る側ではなくサービスを受ける側の視点でぜひ今回のテーマに挑んでほしいです。

―― 今後ますますデータ社会は進みます。AIなどを利用した新しいテクノロジーもどんどん出てくると思います。統計解析の未来はどのようになっていくのでしょうか?

西澤さん データが増えテクノロジーも進化すれば、もっと快適で高速の統計解析ができるようになるでしょう。すでに統計解析の世界では高速化が広がっています。統計解析への期待は高まり、企業や社会において分析ができる人材というのは、今後より求められていくとも思います。また自分自身で統計解析をする人も増えていくでしょうね。

西牧さん 高度化する社会の中で私たちが感じていることは、どんなにテクノロジーが進んでもおそらく本質は変わらないということです。スピーディーに統計解析ができるようになると、青野さんなら気象データなども踏まえて、いつのタイミングで肥料をまけばよいのかを簡単に分析できるようになるでしょう。しかしそこで実際に肥料をまくかどうかを決めるのは青野さん自身です。最終判断を人間が担うのは、ツールがどんなに進化しても変わらないことだと思います。

―― 今日の話を聞いて統計解析への興味が高まりました。私が見てきた発展途上国ではデータ分析でクリアできそうな問題がたくさんあるからです。最後に、『SPSS Datathon 2016』へ挑戦する学生へ、ぜひメッセージをお願いします。

西澤さん 青野さんの言う通り、海外ではまだ感覚値に頼って農業を行っている国も多いでしょうから、そういう面で日本の統計解析技術を支援に活かしてもらえるといいですね。なおデータ解析はあくまで手段です。その解析結果を用いて自分は何をしたいのかをよく考えてください。青野さんなら統計解析によって、その国の農業を支援し豊かさに貢献したいという目的がありますよね。それと同じように、参加する学生の皆さんも目的を持ち、そのための解析を楽しんでください!

西牧さん 私は学生時代から統計学のゼミで学び、データ分析に関わってもう20年になります。計算機センターにあったメインフレームからUNIX、クラウドなどツールの変遷も見てきました。その中で、データと正しく向き合いその価値を引き出す取り組みの本質は変わらないと思っています。統計解析は新商品の発売にも大きく影響しており、世の中にないものを新しい視点で出すお手伝いができるのは本当におもしろいですよ。そのために常識にとらわれない切り口・仮説が必要です。それができるのは学生の特権。私たちをうならせるユニークな統計解析、分析を期待しています!

_dsc0079


青野 将大の取材後記

_dsc0128

統計解析というのは学生にとってやはり難しそうに見える分野ですよね。ただ今回の記事を読んでいただければ日常生活とはいわずも、様々な場面で統計という分野は使われており、将来的にはとても大事な学問であることが理解できたかなと思います。今回SPSS Datathon 2016に参加する学生の方がこの取材記事から何か一つ着眼点を得て自分の考察に生かせてもらえれば嬉しいです。みなさん頑張ってください!

PAGE TOP