Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る

8月 25th, 2017 | Posted by admin in 長橋のつぶやき - (Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る はコメントを受け付けていません。)

9月に新しい書籍を上梓させていただくことになりました。
3年近く前から、インプレスさんと一緒にデータサイエンス・Rのセミナーを開催させていただきました。
爾来、受講者の方からのフィードバックを重ね、ブラッシュアップし、書籍としてまとめました。
セミナーでニーズが高いところを重点的にカバーしています。
これからはじめてRを学習されたい方、機械学習を導入したい方ぜひご一読ください!

Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る
Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る 長橋 賢吾

インプレス 2017-09-08
売り上げランキング : 23229

Amazonで詳しく見る by G-Tools

支持率から許容誤差を考える

1月 18th, 2017 | Posted by admin in 長橋のつぶやき - (支持率から許容誤差を考える はコメントを受け付けていません。)

以前、ビックデータ時代だからこそスモールデータの手法の理解も大事というエントリを投稿しました。

で、自分はあまりテレビを見ないのですが、たまたまCNNによる世論調査で1000名を対象に米国時期大統領トランプ氏を支持するかしないかについて、世論調査したところ以前オバマ氏が81%のところ40%で支持率が低いという報道でした。

あらかじめ言うと、自分はこの結果に、とく賛成・反対はありません。むしろ、純粋にデータサイエンス的にこれが有意かどうか純粋に興味があります。

一番、確実なアプローチは、米国民3.189億人に賛成か反対かを問うこと。いわゆる、ビックデータのアプローチ。ただ、これが本当にできるかといえば意外と難しい気がする。11月の大統領選挙でも、多くのメディアがヒラリー氏優先と伝えたものの、蓋を開けたら違う結果になったように、”ビックデータ”で解決できる話でないと思う。

となると、やっぱり、母集団からサンプリングして、そのサンプルから母集団を推定するというアプローチが妥当で、統計の世界では、サンプルの許容誤差という考え方があります。一般的には誤差5%つまり100のうち95が正しくて5が誤ると想定すると、許容誤差のサンプル数は(正規分布の5%信頼水準 1.96)^2 x (支持率 0.5x非支持率 0.5)/(標本誤差 0.05)^2 = 384、つまり、384人にアンケートを取れば、理論上、許容誤差に収まる、なので、1000人は許容誤差の範囲といえるかもしれない。

ただ、この5%の許容誤差を1%にすると、(正規分布の5%信頼水準 2.58)^2 x (支持率 0.5x非支持率 0.5)/(標本誤差 0.01)^2 = 16,641人、384人くらべて43倍のサンプル数が必要になる。

というわけで、ここから何がいえるか?この許容誤差の5%というのは、完全無作為に抽出する前提であれば成立するかもしれない。ただ、ただでさえ、CNNはトランプ氏から”うそのメディア”というレッテルを貼れて、質疑を拒否されたほど対立関係にあるので、もしかしたら、何かしらのバイアスがかかって”完全無作為”とはなっていないかもしれない。

というわけで、この精度をあげるには、1.CNNとは独立な機関によってサンプル抽出する、もしくは、2.許容誤差を5%から下げる、ともう少し尤もらしくなると思うのでした。

データサイエンス基礎講座 2017<機械学習のための数学基礎編>

12月 20th, 2016 | Posted by admin in 長橋のつぶやき - (データサイエンス基礎講座 2017<機械学習のための数学基礎編> はコメントを受け付けていません。)

 2年ほど前からインプレスさんと一緒にデータサイエンス基礎講座をやらせていただいており、来年2月分についても募集がスタートしました。

 今回は機械学習のための数学基礎編ということで、わりと、数学(統計学)をメインに扱います。いま、ディープラーニングとか機械が人間を越えるような答えを出す時代になりました。ただ、すべてを機械任せておけばよいとわけでもないと思っています。

 やっぱり、何が正しいかを自分で考えて、仮説を立てて、データで検証する。その道具として統計はアリかと思っています。たとえば、確率分布でいえば、正規分布は割とポピュラーですが、カイ二乗分布、あるいはt分布、いわゆる”スモールデータ”を分析する手法ですが、母集団をよりよく知る大事なツールだと思います。

 今回はこの手の確率分布の話からディープラーニングの数理までR演習を含めて取り扱います。大学のセメスターの授業を4回で扱うので、シンドイところもありますが、受講者の躓くポイントを2年かけて潰してきました。最後は巣籠さんの講演もあります。興味があればぜひ。

https://www.impressbm.co.jp/event/datascientist201702/

要領が良い人と悪い人

10月 21st, 2016 | Posted by admin in 長橋のつぶやき - (要領が良い人と悪い人 はコメントを受け付けていません。)

先日、ある方と”要領のよい人”について話して、いろいろ得ることがありました。

 ま、要領が良いか、悪いかといえば、当たり前だけど良い方が良いことは間違いない。つまり、どんなことにあたっても、卒なくこなす、これが一般的な要領の良い人だと思う。

 で、自分はここ2年間くらい、エンジニア向けにデータサイエンスの授業をやっていますが、その中で必ず登場するのが、正規分布。ま、正規分布をザックリいうと、世の中の事象はだいたい平均に収斂するという考え方。こうしたザックリした考え方なので、ランダムウォークっぽい事象をモデル化したり、わりと便利な考え方です。

 そして、この要領が良い人は、おそらく、正規分布っぽい考え方をしているような気がします。世の中、何が起こるかわからない、でも、2σ(±5%くらいで起こる確率)、3σ(±0.03%くらいで起きる確率)は滅多に起きないので、それを排除して、一番、起こりやすいことに選択と集中する、だから、省エネできると。

 でも、思うのは、世の中、要領が良い人ばっかりだと、結局のところ、平均に起きることばかりを考えてしまうと言えるかもしれない。むしろ、絶対起きないと思われる2σ、3σを考える”要領が悪い人”も必要かもしれない。というわけで、結論、やっぱり、要領がいい人だけではなく、要領が悪い人、両方、必要かもしれない。

 最後に告知。ここ2年間、データサイエンスの授業をやってきましたが、参加者を中心にデータサイエンス友の会という集まりを10月26日開催します。誰でも参加可能で、まだ、参加OKのようです。ご興味があればぜひ!

https://www.impressbm.co.jp/event/datascientist201610/society.html

70年前のデータサイエンティスト – 「大本営参謀の情報戦記」

11月 21st, 2015 | Posted by admin in 日々の思い | 長橋のつぶやき - (70年前のデータサイエンティスト – 「大本営参謀の情報戦記」 はコメントを受け付けていません。)

久しぶりにワクワクしながら本を読むという経験をしたので、忘れないためにも久しぶりにブログ更新です。

「大本営参謀の情報戦記 情報なき国家の悲劇」(堀栄三 文春文庫)という本です。

著書は、戦前の陸軍士官学校を出て、その後、陸軍大学校を卒業して、昭和18年10月 大本営陸軍参謀としてドイツ方面の戦局を収集・分析するいわゆる情報参謀の任につく。その後、ソ連、米国と転じ、米軍がどのような戦術で、どれくらいの規模で、いつどこに上陸するといったアメリカ軍の行軍について、公開情報、これまでの戦法、無線・暗号解読、諜者などのソースを基に多角的に分析、「敵軍戦法はやわり」といった冊子にまとめる。その分析手法について、彼はこう語る。

常に断片的な細かいものでも丹念に収集し、分類整理して統計を出し、広い川原の砂の中から一粒の砂金を見つけ出すような情報職人の仕事であった。(同書p221)

こうした緻密な分析から、マレーの虎と畏怖された山下奉文大将が率いる第14方面軍の情報参謀として、戦局が悪化するなか、米軍のフィリピン上陸の地点について、航空機の経路、無線でのやりとり、米軍の思惑などから、ルソン島西部のリンガエン湾に上陸すると予測し、それが的中。さらには、戦争が長引いていれば、米国は日本本土上陸として、米軍は昭和20年11月に九州南部、志布志湾への上陸を実際に計画(オリンピック作戦)していたが、彼ならびに彼が所属する大本営6課はこれを正確に予測。米軍の行動を的確に予測することから「マッカーサー参謀」と呼ばれた。

様々な情報を多角的に分析、数値化して、次のアクションを予測する、彼は自分の役割について「情報職人」と呼称する、これは今でいえば、データサイエンティストそのものだと思う。というわけで、データサイエンティスト自体は、大昔から存在していたわけで、名前が変わっただけ(情報職人→データサイエンティスト)だと思う。

そして、彼がどう情報を「数値化」したか。彼は、「鉄量」というKPI(Key Parameter Index:重要評価指標)を提示する。というのは、日本とアメリカでは「師団」(軍隊の一方面での作戦を遂行する単位、自分の大雑把な理解では営業、総務、技術を兼ね備えた一つの会社)といっても構成が違うので、同じ土俵で比較できない、だから、どれだけ火力があるか、それを鉄量というKPIで比較。いうまでもなく、鉄用という観点ではいうまでもなく圧倒的に米軍が勝り、彼はこう指摘する。

堀は師団という名称よりも、鉄量(火力)の差を重視していた。ほかの人々は、鉄量は精神力で克服できるという呪術的思考であった。(同書p215)

自分が思うに、これは70年前の過去の出来事と片づけることができない、いまにも通用する教訓があると思う。その一つが、データを活用した経営。データを活用した経営は大事といわれるものの、すべての会社がデータを活用しているとは限らない。自分もここ1年くらいデータサイエンスのセミナーをやらせていただきまして、いろいろな会社のデータ活用事例を教えていただきました。その感じでは、やっぱり、「うちの部門の勘は正しいから、データをつかわなくてもいい」というケースはまだ結構あるようにおもいます、いってみれば、鉄量は精神力で克服できるという発想に近いかもしれない。

ただ、「勘は正しいから、データをつかわなくてもいい」というのは、これはこれで、それほど全否定するべき話ではないと思う。勘というのは長い経験に裏打ちされたものであり、むしろ、データ分析よりも正しい場合もある。ただ、問題は何かというと、まさに、本書で指摘されている戦果の誤認識だと思う。著者は、昭和19年10月、台湾沖航空戦を間近に目撃。

黒板の前に座った司令官らしい将官を中心に、数人の幕僚たちに戦果を報告していた。
「○○機、空母アリゾナ型撃沈!」
「よーし、ご苦労だった!」
戦果が直ちに黒板に書かれる。
「○○機、エンタープライズ轟沈!」
「やった!よし、ご苦労!」
また黒板に書き込まれる。
その間に入電がある。別の将校が紙片を読む。
「やった、やった、戦艦2撃沈、重巡21轟沈」
黒板の戦果は次々と膨らんでいく。
(同書p161)

その後、彼が、暗い海のなかでどうして自分の爆弾でやったと確信しているか、アリゾナの艦型、などを質問しても、あいまいな返事しかしない、結局のところ、戦果を検証せずに、「轟沈、撃沈」と誇張、実際の戦果は、その3分の1、5分の1であったにもかかわらず、その誤った戦果をもとに、次の作戦を立案するため、相手を過小評価してしまう。それが情報なき国家の悲劇の原因であったと筆者は指摘する。

これは意外と今でも多いと思う。やっぱり、ビジネスでもうまくいっていないとき、それを正しく受け入れるのは、難しい。でも、それを正しく現状を受け入れないで、精神論で突破できるの一点張りだと、現状を正しく認識できず、ずるずると泥沼になる。だからこそ、きちんと数量化されたデータをもとに客観的に分析し、次の一手を打つ。これが情報職人、あるいは、データサイエンティストの役割だと思う。そうした点で、客観的な状況を受け入れるための経営陣、トップの度量も必要だと思う。フィリピンの第14方面軍の山下大将は彼に対してこう命令する。

レイテはこれから激戦になるだろう。今後の推移を十分見守らなければならないが、いずれは敵はルソン島に来る。いつ、どこに、どれくらいの敵がくるか、君は冷静に、どこまでも冷静に専心考えて貰いたい。これが大将の君への特命だ。口外厳禁!」(同書p190)

やっぱり、人間だれでも自分の都合が悪い情報はシャットダウンしたいと思う、でも、それをあえてシャットダウンせずに、フェアに判断する、やはり、それはトップの度量だと思う。自分の経験でも、データを使って意思決定する多くの会社は、経営、トップがよい情報、悪い情報、すべてひっくるめて判断する会社が多い。一方で、旧陸軍は、作戦の方針を決める大本営と一言にいっても、その中枢である作戦課が「奥の院」のように単独で作戦を決定し、情報を軽視したところに問題があると指摘した筆者の指摘は、そっくりそのまま、ビックデータ課をつくったところで、それを経営として活用しなければ意味がないという話と同じと思う。

戦後70年、二度とこうした悲劇を繰り返さないためには、やはり、データによるチェック機能というのは、国、国家に限らずとても重要なことだと思う。そんなことを70年前のデータサイエンティストから学びました。