Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る

8月 25th, 2017 | Posted by admin in 長橋のつぶやき - (Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る はコメントを受け付けていません。)

9月に新しい書籍を上梓させていただくことになりました。
3年近く前から、インプレスさんと一緒にデータサイエンス・Rのセミナーを開催させていただきました。
爾来、受講者の方からのフィードバックを重ね、ブラッシュアップし、書籍としてまとめました。
セミナーでニーズが高いところを重点的にカバーしています。
これからはじめてRを学習されたい方、機械学習を導入したい方ぜひご一読ください!

Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る
Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る 長橋 賢吾

インプレス 2017-09-08
売り上げランキング : 23229

Amazonで詳しく見る by G-Tools

支持率から許容誤差を考える

1月 18th, 2017 | Posted by admin in 長橋のつぶやき - (支持率から許容誤差を考える はコメントを受け付けていません。)

以前、ビックデータ時代だからこそスモールデータの手法の理解も大事というエントリを投稿しました。

で、自分はあまりテレビを見ないのですが、たまたまCNNによる世論調査で1000名を対象に米国時期大統領トランプ氏を支持するかしないかについて、世論調査したところ以前オバマ氏が81%のところ40%で支持率が低いという報道でした。

あらかじめ言うと、自分はこの結果に、とく賛成・反対はありません。むしろ、純粋にデータサイエンス的にこれが有意かどうか純粋に興味があります。

一番、確実なアプローチは、米国民3.189億人に賛成か反対かを問うこと。いわゆる、ビックデータのアプローチ。ただ、これが本当にできるかといえば意外と難しい気がする。11月の大統領選挙でも、多くのメディアがヒラリー氏優先と伝えたものの、蓋を開けたら違う結果になったように、”ビックデータ”で解決できる話でないと思う。

となると、やっぱり、母集団からサンプリングして、そのサンプルから母集団を推定するというアプローチが妥当で、統計の世界では、サンプルの許容誤差という考え方があります。一般的には誤差5%つまり100のうち95が正しくて5が誤ると想定すると、許容誤差のサンプル数は(正規分布の5%信頼水準 1.96)^2 x (支持率 0.5x非支持率 0.5)/(標本誤差 0.05)^2 = 384、つまり、384人にアンケートを取れば、理論上、許容誤差に収まる、なので、1000人は許容誤差の範囲といえるかもしれない。

ただ、この5%の許容誤差を1%にすると、(正規分布の5%信頼水準 2.58)^2 x (支持率 0.5x非支持率 0.5)/(標本誤差 0.01)^2 = 16,641人、384人くらべて43倍のサンプル数が必要になる。

というわけで、ここから何がいえるか?この許容誤差の5%というのは、完全無作為に抽出する前提であれば成立するかもしれない。ただ、ただでさえ、CNNはトランプ氏から”うそのメディア”というレッテルを貼れて、質疑を拒否されたほど対立関係にあるので、もしかしたら、何かしらのバイアスがかかって”完全無作為”とはなっていないかもしれない。

というわけで、この精度をあげるには、1.CNNとは独立な機関によってサンプル抽出する、もしくは、2.許容誤差を5%から下げる、ともう少し尤もらしくなると思うのでした。

加賀屋でおもてなしを考える

12月 24th, 2016 | Posted by admin in 長橋のつぶやき - (加賀屋でおもてなしを考える はコメントを受け付けていません。)

昨日、今日と和倉温泉の加賀屋にいく機会があり、いろいろと気づきがありました。

 いままで世界中でいろいろなホテル・旅館に滞在する機会がありましたが、加賀屋はおもてなしという点では、自分の中ではダントツでベストです。すばらしい旅館です。やはり、従業員一人一人が「どうしたらお客さまにとって過ごしやすい滞在ができるか」ということを徹底的に考えていて、すべてがその目線でサービスされています。たとえば、浴衣だと寝にくいだろうという配慮から夜にはパジャマを提供したり、男性には男性向けの食器、女性には女性の食器、アメニティ、タオル、何から何まで、ここまでやるかというところまで徹底しています。なので、1回だけではなく2回、3回とリピーターになる理由がとてもよくわかりました。

 やはり、このモデルはおカネがかかる。お客様に常に快適に過ごしてもらうには、仲居さんが一人で沢山お客様を相手にしていては対応できないので、結果的に従業員を増やし、かつ、研修のコストも結構かかると思う。くわえて、設備についても、常に新しく入れ替えたり、料理を変えたりしないと、ライバルに追いつかれてしまうので、やはり、常に投資をしないと競争優位を保てないモデルだと思う。そういう意味で、競合を圧倒的な投資・M&Aで出し抜くアマゾン、もしくは競馬で稼いだ賞金をすべて投資につぎ込むノーザンファームのビジネスモデルに近いかもしれない。

 この稼いだ金を全部つぎ込む全力投球型ビジネスモデルの場合、自分の経験では、やはり、どんどん投資して強くなるプレイヤーと投資の余力がなくなりジリ貧に陥るプレイヤーの二極化になりやすい。加賀屋も前者のプレイヤーで、今後もどんどん投資して強くなると思います。

 というわけで、旅館・ホテルにとどまることなく加賀屋から学ぶべき点はたくさんあります。もちろん、加賀屋のように大規模な投資は、よほどの規模でないかぎり体力的にもキツイと思う。でも、「どうしたらお客様にとって過ごしやすい滞在ができるか?」というのは知恵を絞れば実現できる気もする。たとえば、そのアプローチがデータの活用。お客様にかかわるデータを徹底的に集めて、どんな新聞を読むのか、どんな食べ物が好きなのか、枕の好みなど大規模な投資をしなくてもお客様のことを理解できる手段はいろいろあると思う。百聞は一見に如かず、加賀屋での心地よい滞在からいろいろ得るものがありました。

img_0807

 

データサイエンス基礎講座 2017<機械学習のための数学基礎編>

12月 20th, 2016 | Posted by admin in 長橋のつぶやき - (データサイエンス基礎講座 2017<機械学習のための数学基礎編> はコメントを受け付けていません。)

 2年ほど前からインプレスさんと一緒にデータサイエンス基礎講座をやらせていただいており、来年2月分についても募集がスタートしました。

 今回は機械学習のための数学基礎編ということで、わりと、数学(統計学)をメインに扱います。いま、ディープラーニングとか機械が人間を越えるような答えを出す時代になりました。ただ、すべてを機械任せておけばよいとわけでもないと思っています。

 やっぱり、何が正しいかを自分で考えて、仮説を立てて、データで検証する。その道具として統計はアリかと思っています。たとえば、確率分布でいえば、正規分布は割とポピュラーですが、カイ二乗分布、あるいはt分布、いわゆる”スモールデータ”を分析する手法ですが、母集団をよりよく知る大事なツールだと思います。

 今回はこの手の確率分布の話からディープラーニングの数理までR演習を含めて取り扱います。大学のセメスターの授業を4回で扱うので、シンドイところもありますが、受講者の躓くポイントを2年かけて潰してきました。最後は巣籠さんの講演もあります。興味があればぜひ。

https://www.impressbm.co.jp/event/datascientist201702/

Pythonを使って学ぶ機械学習~PC実習つきセミナー

11月 4th, 2016 | Posted by admin in 長橋のつぶやき - (Pythonを使って学ぶ機械学習~PC実習つきセミナー はコメントを受け付けていません。)

何度かセミナーを開催させていただいております情報機構さんで、来年1月にPythonの機械学習セミナーを開催します。


Pythonを使って学ぶ機械学習~PC実習つきセミナー~

70年前のデータサイエンティスト – 「大本営参謀の情報戦記」

11月 21st, 2015 | Posted by admin in 日々の思い | 長橋のつぶやき - (70年前のデータサイエンティスト – 「大本営参謀の情報戦記」 はコメントを受け付けていません。)

久しぶりにワクワクしながら本を読むという経験をしたので、忘れないためにも久しぶりにブログ更新です。

「大本営参謀の情報戦記 情報なき国家の悲劇」(堀栄三 文春文庫)という本です。

著書は、戦前の陸軍士官学校を出て、その後、陸軍大学校を卒業して、昭和18年10月 大本営陸軍参謀としてドイツ方面の戦局を収集・分析するいわゆる情報参謀の任につく。その後、ソ連、米国と転じ、米軍がどのような戦術で、どれくらいの規模で、いつどこに上陸するといったアメリカ軍の行軍について、公開情報、これまでの戦法、無線・暗号解読、諜者などのソースを基に多角的に分析、「敵軍戦法はやわり」といった冊子にまとめる。その分析手法について、彼はこう語る。

常に断片的な細かいものでも丹念に収集し、分類整理して統計を出し、広い川原の砂の中から一粒の砂金を見つけ出すような情報職人の仕事であった。(同書p221)

こうした緻密な分析から、マレーの虎と畏怖された山下奉文大将が率いる第14方面軍の情報参謀として、戦局が悪化するなか、米軍のフィリピン上陸の地点について、航空機の経路、無線でのやりとり、米軍の思惑などから、ルソン島西部のリンガエン湾に上陸すると予測し、それが的中。さらには、戦争が長引いていれば、米国は日本本土上陸として、米軍は昭和20年11月に九州南部、志布志湾への上陸を実際に計画(オリンピック作戦)していたが、彼ならびに彼が所属する大本営6課はこれを正確に予測。米軍の行動を的確に予測することから「マッカーサー参謀」と呼ばれた。

様々な情報を多角的に分析、数値化して、次のアクションを予測する、彼は自分の役割について「情報職人」と呼称する、これは今でいえば、データサイエンティストそのものだと思う。というわけで、データサイエンティスト自体は、大昔から存在していたわけで、名前が変わっただけ(情報職人→データサイエンティスト)だと思う。

そして、彼がどう情報を「数値化」したか。彼は、「鉄量」というKPI(Key Parameter Index:重要評価指標)を提示する。というのは、日本とアメリカでは「師団」(軍隊の一方面での作戦を遂行する単位、自分の大雑把な理解では営業、総務、技術を兼ね備えた一つの会社)といっても構成が違うので、同じ土俵で比較できない、だから、どれだけ火力があるか、それを鉄量というKPIで比較。いうまでもなく、鉄用という観点ではいうまでもなく圧倒的に米軍が勝り、彼はこう指摘する。

堀は師団という名称よりも、鉄量(火力)の差を重視していた。ほかの人々は、鉄量は精神力で克服できるという呪術的思考であった。(同書p215)

自分が思うに、これは70年前の過去の出来事と片づけることができない、いまにも通用する教訓があると思う。その一つが、データを活用した経営。データを活用した経営は大事といわれるものの、すべての会社がデータを活用しているとは限らない。自分もここ1年くらいデータサイエンスのセミナーをやらせていただきまして、いろいろな会社のデータ活用事例を教えていただきました。その感じでは、やっぱり、「うちの部門の勘は正しいから、データをつかわなくてもいい」というケースはまだ結構あるようにおもいます、いってみれば、鉄量は精神力で克服できるという発想に近いかもしれない。

ただ、「勘は正しいから、データをつかわなくてもいい」というのは、これはこれで、それほど全否定するべき話ではないと思う。勘というのは長い経験に裏打ちされたものであり、むしろ、データ分析よりも正しい場合もある。ただ、問題は何かというと、まさに、本書で指摘されている戦果の誤認識だと思う。著者は、昭和19年10月、台湾沖航空戦を間近に目撃。

黒板の前に座った司令官らしい将官を中心に、数人の幕僚たちに戦果を報告していた。
「○○機、空母アリゾナ型撃沈!」
「よーし、ご苦労だった!」
戦果が直ちに黒板に書かれる。
「○○機、エンタープライズ轟沈!」
「やった!よし、ご苦労!」
また黒板に書き込まれる。
その間に入電がある。別の将校が紙片を読む。
「やった、やった、戦艦2撃沈、重巡21轟沈」
黒板の戦果は次々と膨らんでいく。
(同書p161)

その後、彼が、暗い海のなかでどうして自分の爆弾でやったと確信しているか、アリゾナの艦型、などを質問しても、あいまいな返事しかしない、結局のところ、戦果を検証せずに、「轟沈、撃沈」と誇張、実際の戦果は、その3分の1、5分の1であったにもかかわらず、その誤った戦果をもとに、次の作戦を立案するため、相手を過小評価してしまう。それが情報なき国家の悲劇の原因であったと筆者は指摘する。

これは意外と今でも多いと思う。やっぱり、ビジネスでもうまくいっていないとき、それを正しく受け入れるのは、難しい。でも、それを正しく現状を受け入れないで、精神論で突破できるの一点張りだと、現状を正しく認識できず、ずるずると泥沼になる。だからこそ、きちんと数量化されたデータをもとに客観的に分析し、次の一手を打つ。これが情報職人、あるいは、データサイエンティストの役割だと思う。そうした点で、客観的な状況を受け入れるための経営陣、トップの度量も必要だと思う。フィリピンの第14方面軍の山下大将は彼に対してこう命令する。

レイテはこれから激戦になるだろう。今後の推移を十分見守らなければならないが、いずれは敵はルソン島に来る。いつ、どこに、どれくらいの敵がくるか、君は冷静に、どこまでも冷静に専心考えて貰いたい。これが大将の君への特命だ。口外厳禁!」(同書p190)

やっぱり、人間だれでも自分の都合が悪い情報はシャットダウンしたいと思う、でも、それをあえてシャットダウンせずに、フェアに判断する、やはり、それはトップの度量だと思う。自分の経験でも、データを使って意思決定する多くの会社は、経営、トップがよい情報、悪い情報、すべてひっくるめて判断する会社が多い。一方で、旧陸軍は、作戦の方針を決める大本営と一言にいっても、その中枢である作戦課が「奥の院」のように単独で作戦を決定し、情報を軽視したところに問題があると指摘した筆者の指摘は、そっくりそのまま、ビックデータ課をつくったところで、それを経営として活用しなければ意味がないという話と同じと思う。

戦後70年、二度とこうした悲劇を繰り返さないためには、やはり、データによるチェック機能というのは、国、国家に限らずとても重要なことだと思う。そんなことを70年前のデータサイエンティストから学びました。

世界ハイテクウオッチ ラックスペース

8月 27th, 2015 | Posted by admin in イノベーション | テクノロジー | 長橋のつぶやき - (世界ハイテクウオッチ ラックスペース はコメントを受け付けていません。)

http://www.sbbit.jp/article/cont1/30098?ref=150827bit

連載中の米国ハイテク企業ウオッチにラックスペースの記事を寄稿させていただきました。

【連載】米国ハイテク企業ウォッチ
ラックスペースは、なぜアマゾンAWSやマイクロソフトAzureと「互角に」戦えているのか
http://www.sbbit.jp/article/cont1/30098?ref=150827bit

データサイエンス基礎講座【超初級・実践編】in 京都

1月 12th, 2015 | Posted by admin in お知らせ - (データサイエンス基礎講座【超初級・実践編】in 京都 はコメントを受け付けていません。)

http://www.impressbm.co.jp/event/datascientist201502kyoto/index.html

昨年12月に開催させていただきました「データサイエンス基礎講座」【超初級・実践編】を2月に京都で開催します。統計の基礎から機械学習の基礎(カーネル法、アンサンブル学習など)までRの実践を通じて学べる講座です。ぜひ、ご参加ください。

データサイエンス基礎講座【超初級・実践編】in 京都
http://www.impressbm.co.jp/event/datascientist201502kyoto/index.html

「第五の権力—Googleには見えている未来」

6月 22nd, 2014 | Posted by admin in イノベーション | テクノロジー | 長橋のつぶやき - (「第五の権力—Googleには見えている未来」 はコメントを受け付けていません。)

ダイヤモンド社小島様より献本いただきました。ありがとうございました。

結論から言うと、この本はGoogleの人間(エリック・シュミット&ジャレット・コーエン)によって書かれているものの、
Googleがこれからどうなるかということは書かれていない、むしろ、Googleがこれから立ち向かわなければならない問題を記述していると言える。

自分がはじめてネットを使うようになったのが1996年、それから比べるとネットは誰もが便利に使われるようになった。

そして、こうしたネットを使うようになり便利になる一方で新しく考えなければいけない問題も増えてきている。

今後、起きる問題について論じているのが、本書であり、自分なりにまとめると、「国家と個人のアイデンティティ」の問題に帰着すると思う。

Googleの成功は言うまでもなく検索ビジネス。2000年初め、ごちゃごちゃだったウェブの世界をページランク(引用されているページから順に検索結果を表示)という革新的な検索技術で、一気にネットの主役となり、その後もAndroidの成功、さらには、Google Glass、自動運転自動車など、その勢いはとどまるところを知らない。

その源流となるGoogleのビジネスモデルは、ウェブを通じてできるだけたくさんの情報を取得すること、いわば、ウェブ民主主義的なものがベースにあると思う。

とはいうものの、ネットが良くも悪くも世の中に影響を及ぼすとき、それを規制しようとする動きも当然でてくる。それが国家による抑制。

たとえば、筆者は、オンラインアイデンティティとして、次の動きがでてくると指摘する。

政府にとっては、追跡不能で正体不明の匿名の市民、いわば、「隠れ人」をオンラインで大勢野放しにしておくのは、リスクが高すぎると考えても不思議ではない。そこで、仮想世界に影響力を及ぼすために、各市民をオンラインアカウントと紐づけして、国家レベルでの認証を義務つける、といった措置をとるだろう。(p48)

結局のところ、国境を越えて誰もが自由に情報を発信することができるネットが国家によるネットが生まれると。具体的には、こう指摘する。

 「政府がフィルタリングなどによってインターネットを規制すれば、グローバルであるべきインターネットが「国ごとのネットワークの寄せ集め」とかす、という懸念が生じる。そうなれば、やがてワールドワイド(世界規模の)ウェブは砕け散り、「ロシアのインターネット」や「アメリカのインターネット」などが乱立するようになるだろう。(p129)

やはり、ネットを通じてサイバーテロ、それは、単にネットだけの攻撃ではなくて、無人飛行などのデジタル操縦も脅威となり、そうした脅威に対応するために、何かしらのフィルタリング、規制が必要にならざるをえないと。

もちろん、これはネット全体のなかのほんの一部に過ぎなく、これがすべてではない。ただし、こうした事態が加速すると、ネットのオープン性はどんどん低下せざるをえない。本書はこうしたネット規制社会への警鐘と自分は理解しました。そして、最後はこう指摘する。

出会いと好機が重なるところには、無限の可能性がある。世界中の人たちの生活の質を高めるには、コネクティビティを通じて出会いを広げ、テクノロジーを通じて機会を生み出していくのが一番である。

やっぱり、ネットはコネクティビティを通じて、出会いを広げ、さまざまな機会を生み出す。これを追求すべきとなんだと思う。

ビックデータとスモールデータのはざまで

1月 4th, 2014 | Posted by admin in 長橋のつぶやき - (ビックデータとスモールデータのはざまで はコメントを受け付けていません。)

最近、スモールデータという言葉を聞くようになった。

いうまでもなく、ビックデータに対するアンチテーゼだ。

ビックデータとスモールデータ、何が違うのだろうか?

結局のところ、自分の理解では、誰が意思決定するか、という話だと思う。

ビックデータの場合の意思決定は、コンピュータ、膨大なデータの中から、人間によってプログラムされたアルゴリズムを基に、パターン(例:ワインの熟成度、ユーザの嗜好(この商品をかったユーザは、この別の商品も買う)、などなど)を発見する。この場合は、データが多ければ多いほど良いので、必然的に人間の出番は少なくなる。

一方、スモールデータの場合、 “小さい”データであるので、判断するのは人間だ。結局のところ、情報理論で重要なのは、S/N(Signal/Noise)比、ノイズばっかりで信号(Signal)が少なければ意味がない。だから、ノイズを減らして、S/N比を上げる、そうすれば、必然的にデータは少なくなり、”スモールデータ”となる。

では、この”ビックデータ”と”スモールデータ”、どちらがよいか?

単純に比較はできないけど、結局のところ、どうパターンを見つけるかという話だと思う。




ビックデータにしろ、スモールデータにしろ、重要なのは、データの中からあるパターンを(この購買履歴のあるユーザに、別の商品を提案すれば売れるなど)見つけることだと思う。そして、ビックデータはコンピュータによるアプローチ、スモールデータはどちらかといえば人間によるアプローチ、どちらが優れているとは一概に言えない。

たしかに、コンピュータの処理能力は上がってきているけど、回帰分析をする場合であれば、どれを説明変数にすればいいなど、結局のところ、やはり、人間の知見が必要だと思う。

コンピュータ頼みもダメだし、かといって、人間頼み一遍でもダメ、コンピュータと人間とのはざまでのバランス、これが大事なんだと思ったのでした。

ちなみに、パターンを見つけるという話は、拙著「ビックデータ戦略」で触れていますので、こちらもご参照ください。