【SPSS DATATHON 2016 学生取材シリーズ】「緻密に仮説を積み上げて、大胆な視点で分析を」


統計解析という言葉はよく聞きますが、統計解析が実世界やビジネスのリアルシーンでどのように使われているのか、イメージが湧かない人も多いと思います。そもそも統計解析とは何なのか? どういうところで活用されているのか? ビッグデータとの関連性は? そんな率直な質問を日本アイ・ビー・エム株式会社の『IBM SPSS』担当の社員の方にお話を聞きました。未来のデータサイエンティストを目指す学生はもちろん、統計解析を苦手に感じている学生も「ちょっと挑戦してみようかな?」と興味を持てる取材になりました。

お話をしてくれた方 西牧 洋一郎さん
profile_ibm1999年に前身となるSPSS Inc.に入社。以来、現在までお客様のソフトウェア導入に携わる。現在はアナリティクス事業部にて、お客様の課題を直接聞きとり、よりスムーズなデータ解析を実現するために支援をしている。
経済学部経営学科出身。
お話をしてくれた方 西澤 英子さん
profile_ibm2IBMソフトウェア販売におけるテクニカル・セールスを担当。前職の製薬業界での分析コンサルティング経験を生かし、ビジネスアナリティクス、ならびにビジネスインテリジェンス製品を用いた幅広いデータ活用をクライアントへ提案している。
国際関係学部国際関係学科出身。
お話を聞いた人 青野 将大
MY FUTURE CAMPUS学生スタッフ
profile_ibm3サッカーサークルの他に学生団体に2つ入っていて、趣味はフットサルやサッカー、ボルダリングなどアクティビティ全般が好き。将来は日本ではなく、海外の勤務を希望している。成熟した市場ではなく、成長途上の国々で市場とともに、勤務企業の成長を成し遂げたいこと、マーケティングなどを通して国家ごとの文化の違いに触れたいと考えている。

統計解析とは何なのか?

―― MFC学生スタッフの青野です。じつは私は大学で国際開発農学を専攻しており、土壌の成分分析など、統計解析とはまったく無縁ではありません。とは言っても、統計解析についてうまく説明できないというか、統計解析が実社会でどう役立つのか、正直、ピンと来ない分野なんです……。

西牧さん なるほど。おそらく大学の授業でも統計解析には触れているはずですが、統計解析を理解するために、例として物理と比べてみましょうか。物理学は自然界の現象を様々な視点から研究し、最終的には一つの答え・法則を見つける学問です。一方で統計解析はデータをたくさん集めて、その中から物事の性質や規則性、ときには不規則性を見つけ、物事に結論を付けさせるためのものです。ですから1つの答えではなく、いくつかのパターンを提示でき、心理学や医学、マーケティングなど人が密接に関わる分野でよく使われています。おそらく農学部ならいつの時期にどの畑に何の種をまけば収穫量が上がるかを研究していると思いますが、そのような場面でも統計解析が使われているはずです。

―― あっ、確かにそのような勉強をしました。ある村の稲の収穫量について統計解析を行った記憶があります。最近はビッグデータの話題もよく聞きます。鉄道会社がビッグデータを活用して乗降客の動きを分析しているそうですね。

西澤さん 確かに今、ビッグデータに注目が集まっていますが、統計解析をわかりやすく理解するために、まずは統計解析とビッグデータを切り分けて考えて見ましょう。そもそも、統計解析とは、サンプリングされたデータを使って母集団とよばれる全体集合の傾向を推定したり検定したりして、結論を述べる方法論です。全体のデータを取得できないので、サンプリングされた代表データをエビデンスとして用い、分析者の考えを述べていくアプローチです。データ分析といったら、統計解析アプローチが用いられることが一般的でした。しかし最近、データ分析の現場に変化が現れました。その大きな原因がビッグデータです。私たちは今、スマホやICカードなどを普通に持っており、そこから巨大なビッグデータを集められるようになりました。いままでの想定を超えるような量や種類のデータが日々集められるようになり、いままでのサンプルデータを用いたアプローチだけでは、大量データを処理できないという現実に遭遇しました。そのようなビッグデータを高速かつ正確に分析するために、今まさに新規テクノロジーがどんどん投入されていますので、ビッグデータ分析は、IBMも含めさまざまな企業が注目しています。

西牧さん つまり大量のデータを集められるようになり、これまで分析できなかったものができる時代になりました。例えば先の鉄道のケースでは、ICカードを利用する乗客が母集団となり、サンプリングの必要がありません。対象データ全域から直接、これまで気付かなかった価値あるパターンを発見することができます。一方、ニュースでよく内閣支持率が発表されてますね。あの調査は、極めて少ない対象であっても適切なサンプリング手法にのっとっているので、日本人全体の支持率を推定できます。また、ビッグデータ分析が大規模データから直接仮説を発見する、『仮説発見型』といわれることに対して、統計解析は、あらかじめ立てられた仮説を適切な手続きで検証する『仮説検証型』と言えます。

―― ビッグデータは仮説発見型、統計解析は仮説検証型――。大変わかりやすいですね。ところでこの“仮説”について疑問があります。世の中にはたくさんのデータがありますが、その中からどうやって仮説を立てればいいんでしょうか?

西牧さん 仮説を立てるには前提としてその領域における「知識」が必要です。これだけコンピュータが進化していますから、機械学習から得たアルゴリズムでデータを分析し、コンピュータが関連性のある項目を見つけ、仮説のヒントを与えてくれます。ただしこれも人間の知識があってこそ。ビッグデータは仮説発見型と言いましたが、闇雲に分析しても仮説が見つかるわけではありません。こんな仮説が立てられるのではないかな、という視点を持つことが極めて重要です。今回の『SPSS Datathon 2016』に参加する皆さんに、ぜひ知っておいてもらいたいことですが、まず仮説を立てたいのなら、これから調べようとしているテーマや領域について事前にじっくりと調査し知識を得てください。そうするとどういう切り口でデータを解析すればよいのか、どんな仮説を立てるとよいのかが見えてくると思います。

_dsc0041

『IBM SPSS』を使うメリット

―― 統計解析についてはよくわかりました。では、『IBM SPSS』について教えていただきたいのですが、どのような統計解析ができますか? 簡単に使えますか?

西澤さん 統計解析ツール『IBM SPSS』は一つのブランドで、その中には用途やジャンルに応じたいくつもの製品があります。まず『IBM SPSS Statistics』は、誰にでも簡単にデータ分析ができるソフトで様々な形式のデータを読み込めます。病院が医療系データを統計解析したり、人口統計調査やアンケート結果の分析に使われたりしています。もともとはアメリカの大統領選の浮動票を予測するために開発されたソフトで、「人」に関する多様なデータを分析できます。操作も簡単ですよ。『IBM SPSS Modeler』はデータマイニング・ワークベンチで、大量のデータや変数の多いデータを分析できます。膨大なデータから未知の法則を発見するという点では、先ほどのビッグデータの解析に通じます。今回の『SPSS Datathon 2016』では『IBM SPSS Statistics』『IBM SPSS Modeler』それぞれ部門を用意しています。

―― 『IBM SPSS』は、他の統計解析ソフトや表計算ソフトとどのような違いがありますか? 学生の場合、表計算ソフトを分析に利用している人も多いのですが……。

西牧さん 例えばあるフリーの統計解析ソフトの場合は、簡単なプログラムを自分で書く必要があります。その点では『IBM SPSS』はそのような設定をしなくてもGUI操作ができるため初心者でも使いやすく、直感的に操作できるというメリットがあります。また必要があればですが、プログラミングによって複雑な処理を制御することも可能です。

西澤さん 最近の表計算ソフトは機能が充実し便利に使えるので、その便利さに慣れてしまって抜け出せない人もいるんですよ(笑)。ただし統計解析を重視する学会の発表では、表計算ソフトのデータにはあまり信用がないという話を聞きました。統計解析には正しいステップが必要で、それはエビデンスにもなります。先ほど、分析には仮定を立てるための「知識」が必要だとお話ししましたが、同様に「手順」も重視されます。どのようなプロセスでこのデータを導き分析したのか。その手順を踏んで答えに近づいていけるのが統計解析ソフトとして実績を重ねてきた『IBM SPSS』です。

―― お二人の話しを聞いていると、私も『IBM SPSS』を使っていろいろ分析してみたいと思いました。日本では統計解析を農業に用いることは珍しくありませんが、海外ではまだまだです。そういう地域では有意義な結果をもたらしそうです。

西牧さん ぜひ試してみてください。まずは“道具”として割り切って使ってもらってもいいんです。本来は統計解析をする理由や課題があるにもかかわらず必要な手順やルールを知らなかったせいで挫折する人がいます。しかし『IBM SPSS』はその手順を押さえることができるので、まずは道具として使ってもらい、そこから理解を深めていくアプローチもあります。結論を得るための道具だと考えてください。

_dsc0003

permalink.
PAGE TOP