2015年12月31日木曜日

2015年を振り返る

毎年恒例の振り返りのコーナー。
年の瀬に書き留めておくことで意外と良いこともある。

さて、2015年であるが、所属会社の新体制の中でデータ分析に軸をおいたディレクターという肩書きで売り出していくことを決めていた。
これは前職時代において、Webディレクターがあまりにも自社データに関して知らなかったので、啓蒙活動をしたらどうなるのかという実証実験を兼ねた自分の思惑だった。

前年の4ヶ月ほどに分析ネタの仕込みを終えていたので、比較的スムーズに行うことができた気がする。
社内での情報発信や社外でもディレクターの立場でトーク。そのスライドを社内に再度発信という形で地盤を整えた。
しかし、なかなかその試みが軌道に乗らなかったが、同僚の願いで勉強会という形で開催。それをまたフィードバックしたら他の部署でも伝搬的に広まった。
その時期に同僚である青木さんが10年SQL本を出版した経緯もあり、ちょっとしたSQLブームが起きて、みんなSQLを書くようになっていた。JOB管理を実はこまめにチェックしていて、ディレクターがクエリを投げているとニンマリとしていたものだ。
色々と反省点はあるが、煽動役とちゃんとした解説、環境が整っていれば問題なく広めることができることがわかったのは大きな収穫だった。

ディレクタ−としての役割だが、当初は全社の新規サービスのディレクションを3ヶ月ほどやっていた。9ヶ月ほどで1つのプロダクトサイクルを終えることになるのだが、この経験はとても良かった。手探りだったけど、熟練のエンジニアがうまくアジャイル的な進め方をサポートしてくれたこともあり、ことなきを得た。

ちょっとしたあれで、サービス開発ではなくビジネス開発側に回ることになったが、動線における各種企画や改善、対外的な取り組み推進をする仲間を見ていて、とても勉強になることが多かった。
中旬くらいの時期ではプロダクトマネージャーがちょっとしたはやりでGoogleのAPMとの交流などもあったりで、これもまたとてもいい経験となった。彼らはほぼコンピューターサイエンスの修士ないし博士であり、そんなバックボーンにありながらGoogleプロダクトの責務を負っていた。

1年を通して自社サービスのデータを見続けて色々な感覚値を養うことができたことも大きい。特にTVの特集などにおけるセンチメントをLIVEで感じたり、その効果を分析したりするのは過去の取り組み事例に加えて、非常に自身の経験の糧となるものだった。
なかなかこういう環境の経験は得がたいので、とても良かった。

勉強会などでは、基本スタンスはTokyo.Rに参加しつつ、続パタの輪読会に参加し、MLCTの主催もやるようになった。比較的落ち着いていた気がする。
社内でも色々なメンバーが勉強会を開催していることも多く、フォロワー的に色々なものを見させてもらった。

PRML読書会は途中で挫折した。やはり1つ1つの数式を追い続けるのは厳しかった。

またサブスクリプションモデルのサプライヤーは交流を持つことが少なく、実際に感じていることでもあったのだが、上長のおかげで他のところと交流を持つこともできたし、自分でもちょっと開拓したりもした。その結果わかったことはみんなそれぞれのドメインで同じような悩みをもって施策を投じたりしていることだった。このつながりは引き続き大事にしたい。

スキル的に何か新しいものを身につけたかというと、そんなにないのかもしれない。
だが、所属会社のサービス運営、開発サイクル、法務、財務戦略、IR、人事戦略など会社運営全般的な箇所では多くを学べて良かった。

総じて今年は自身の学びの1年であったように感じる。
アウトプットよりもインプットに重きをおいた1年だった。

30代にも突入したし、自身の今後のキャリアを熟考し、ある決断を下した。
来年はその決断を大いに生かして、色々なチャレンジをしたいと思っている。
また2015年は非常に穏やかに過ごせたいい1年だった。
そろそろプライベート的なところも視野に入れて、自身の今後を考えていきたい。

それではまた来年。

2015年12月28日月曜日

「少し先の未来」を予測する クックパッドのデータ分析力を読了

「少し先の未来」を予測する クックパッドのデータ分析力
クックパッドのデータ分析力と題して、たべみるのリニューアルにおける話やそのマーケティングにおいて実践したこと。また、企業がどのようにそれを活用しているかなどを地に足のついた形で綴られた書籍。

たべみるチームとは非常によくしていただいたこともあり、とても興味深く読むことができた。
たべみる自体とても使いやすいプロダクトであり、自分もそれほど使いこめていたわけではないが、それをリニューアルするにあたって、タイトな期間でよく仕上げたものだと思う。青木さんの記述もあるが、これは青木さんだからできる部分もあるだろうが、そこを差し引いてもとてもためになった。
また、中村さん自身、なかなか提案が社内で通らなかったにも関わらず、腐らずに言い続けたことは素晴らしいと思った。

個人的にはこのフレームワークは実は多くの企業で適用可能なんじゃないかと思っている。
自分でも兼ねてから考えていたものの1つの完成形がたべみるであるし、それをこのような形で本にしていただけるのは素晴らしい試みであると思う。

ユーザーの検索クエリと食品メーカーの企画や商品開発、スーパーでの棚割りやPOSが連動してくるといい循環ができそうだなと感じた。
引き続きそんな世の中にインパクトを与えることをたべみるチームに担っていただきたいものだ。
星5つで。

■目次
第1章 埋もれていた日本一のレシピサイトの検索データ
(新人リサーチャー、クックパッドを知る
クックパッドの蓄積データは、誰もが見過ごしていた宝の山 ほか)
第2章 クックパッドの挑戦―データ分析事業を刷新
(天秤にかけるべきは、集まるデータの価値と事業としての発展性
瓢箪から駒―リニューアルのチャンスは思わぬところから ほか)
第3章 僕たちはこうして未来を予測する―クックパッドのデータ分析
(レシピ検索データのユニークさ
データが利用されるための3つの要素 ほか)
第4章 データはマーケティングにこう活かせ!
(「たべみる」のマーケティング・フレームワーク
ニュースがないなら作る! ほか)
第5章 日本の食卓を変える―増える「たべみる」導入事例
(「たべみる」で流通が変わる!販売が変わる!食卓が変わる!
POSデータの組み合わせで拡がる可能性 ほか)

2015年12月25日金曜日

続わかりやすいパターン認識を読了した

続・わかりやすいパターン認識―教師なし学習入門―
続わかりやすいパターン認識をようやく読了した。
1回通読しただけで理解したわけではない点が重要だw

自分一人ではやはり通読するのもなかなか厳しい内容だった。続パタ読書会のおかげと言わざるを得ない。

本書は過去にあった名著「わかりやすいパターン認識」の後継にあたる位置付けだが、10年ほどの年月を経て、その連続性には非常に懐疑的な構成だった。
なぜなら、本書は教師なし学習の入門書だったからだ。
まあ、前書で教師ありのパターン認識を網羅して、その次に教師なし学習を解説したのかもしれないが。

個人的には難解な部分が多かったが、マルコフモデルやノンパラメトリックモデル、各種確率過程に触れることができた点がよかった。
輪読会における資料やディスカッションにおけるshuyoさんの指摘や解説が僕のような初学者には非常に参考になった。圧倒的感謝である。

まあ、実際に教師なし学習を適用して何かするかといえば、
直近では思い当たる節がないのだが、レコメンデーションにおけるコールドスタート問題に対して、このノンパラメトリック的な解析結果は適応できそうだなという印象を持った。
(精度に関してはやってみないとあれ)

あとがきに実データを用いて試してほしいと記載があったが、残念ながら本書のサンプルコードはご家庭にないMATLABのため、機会があればRやPythonなどでシミュレーションしてみようかな。

■目次
第1章 ベイズ統計学
第2章 事前確率と事後確率
第3章 ベイズ決定則
第4章 パラメータ推定
第5章 教師付き学習と教師なし学習
第6章 EMアルゴリズム
第7章 マルコフモデル
第8章 隠れマルコフモデル
第9章 混合分布のパラメータ推定
第10章 クラスタリング
第11章 ノンパラメトリックベイズモデル
第12章 ディリクレ過程混合モデルによるクラスタリング
第13章 共クラスタリング
付録A 補足事項

なお、読書会は年始に最後の13章を読む会があるので、最後のフィニッシュを味わいたい方はぜひ足を運ばれると良いだろう。
connpassの各回にはそれぞれの発表スライドも記載されているので、こちらを参照してから本書を検討するのもよいかもしれない。

「続・わかりやすいパターン認識」読書会


自分が発表した5章のスライドも一応のっけとく。



なぜ、日本人の金融行動がこれから大きく変わるのか?を読了した

なぜ、日本人の金融行動がこれから大きく変わるのか?

NRIの方がアンケートによるリサーチの結果からまとめた日本人の金融行動変化について。

主な取り上げ項目は下記
・拡大する相続マーケットは何と年間47兆円市場。
・地方の親の都心の子どもへの相続効果は、毎年丸ごと一行、地銀が首都圏に移転するレベル。
・ネットバンク利用者数は既に1800万人超。3年間で倍増。
・個人金融資産1600兆円の6割はシニア層が持っている
・住宅ローンの新規貸出額は年間20兆円超で、5割は30代男性が利用している。
などなど、データが初めて明らかにする激変する日本人の金融行動。

最近はFintechがブームの様相を呈していて、ブロックチェーンを中心に資本を集めるネタになっている。
それはそれとして、本来の人口動学的に不可避な金融行動にも目を向けなければならない。
とりわけ世代交代による所得移転や土地の富の収益分配構造などにも非常に示唆のある内容だった。
ある程度想定可能なシナリオに対してどのような手を打っていくかを考えるにあたってブレスト的に入れる内容としてはよかった。

■目次
第1章
日本人の金融行動が変化する予兆
 -相続による資産移転の加速
 -インターネット金融の浸透
 -金融商品販売チャネルの総合化)
第2章
日本人の金融サービス利用の特徴
 -貯蓄・投資における特徴
 -借入れにおける特徴
 -保険加入における特徴
 -決済サービス利用における特徴
第3章
金融機関の選択構造
 -貯蓄・投資における金融機関選択
 -借入れにおける金融機関選択
 -保険加入における金融機関選択
 -決済サービス利用における金融機関選択
第4章
リテール金融における今後の有望セグメント
 -デジタルなシニア(成長セグメント)
 -おひとりさま女性(成長セグメント)
 -親リッチな若者(金融ポテンシャルが高いセグメント)
 -パワーカップル(金融ポテンシャルが高いセグメント))
第5章
人間味あふれる金融サービスの可能性
 -家族口座
 -コミュニティ金融サービス
 -人間味チャネル
 -人間味あふれる金融サービス実現に向けた課題と展望

あやしい投資話にのってみたを読了した

あやしい投資話に乗ってみた

FPや講師などをされている藤原さんによる金融商品の投資体験談を綴ったエッセイテイストの作品。
発売当初、本屋で積まれていた時から気になっていたが、ようやく読了した。

結論から言うと、個人的な趣味嗜好にもマッチして非常に面白かった。
金融商品ってやっぱりワクワクする。
多分、微妙にあやしいかもしれない。でも、儲かるかもしれない。その瀬戸際のリスク管理が妙なのかもしれない。
本書はなかなか自分ではできない体験を赤裸々に綴ってくれているので、私のようなリスク許容度は低いが興味がある人間の満足度を充足させてくれるに資する内容だった。

興味がある人は是非読んでみることをお勧めする。

■目次
1章 未公開株を買ってみた
2章 新規公開株を買ってみた
3章 和牛オーナーになってみた
4章 海外ファンドを買ってみた
5章 超高金利の銀行に預金してみた
6章 FXで新興国通貨に投資してみた
7章 先物取引をやってみた

上記以外にもあやしい投資商品はいくらでもある。
特にミドルリスクミドルリターンあたりの投資商品が個人的に会社のサバイバルリスクとともに観測対象として好みだw
この方の続編もぜひ期待したいところだ。

2015年12月17日木曜日

ランダムフォレストのパッケージ別速度比較の可視化

この記事はR AdventCalendar18日目の記事です。

最近のR界隈でもxgboostブームによって久しく名前が聞こえてこなかったランダムフォレストですが、今年の夏頃に高速化されたパッケージがリリースされて話題になりましたね。

RでランダムフォレストやるならRboristかrangerか
新型のランダムフォレスト(Random Forest)パッケージ比較:Rborist・ranger・randomForest

dichikaさんの場合、Rboristが良さそう。teramonagiさんの場合はrangerが良さそうということで、自分はどっちがいいんだろうということで、試してみました。

たしかに早いのだけど、そこまでの差が出なかった…
これはどちらでもいいのだろうか…

幸運なことにmicrobenchmarkパッケージは速度の統計量を算出してくれるので、このデータを使って、木の数を増やした場合のそれぞれの処理時間がどのように変化するかを可視化してみます。

とりあえず木の数のパターンを上記のように500,1000,3000,5000と最初に出した100の5パターンを用意します。

出てきた統計量をちょこちょこと修正して、下記のようなデータにします。 そして、ggplot2で可視化。

結果









どうやら木の数を増やしていくと、徐々にrangerパッケージの処理性能の優位性が出てきそうだということがわかりました。
まあ、今回はirisデータを使っているので、元となるデータの量や特徴量数などの変数次第ではまた変わってくるのかもしれませんが、個人的にランダムフォレストをかける際は、rangerをファーストチョイスにしていきたいかなと思った次第。

p.s 本当はglmnetの正則化とかVAR,GAUCHモデルあたりをやろうかなーと思ったのだけど、直近でランダムフォレストを使ったこともあり、このネタにしました。
あと、randomForestパッケージにある重要度の可視化に関してはrangerパッケージに標準搭載はなく、`variable.importance`で見ることが可能となったり、caretパッケージから呼び出す際には

library("caret")
fit1 <- data="iris," method="ranger" span="" species="" train="">importance = "permutation")
plot(varImp(fit1))


で描画できるとr-wakalangのslackチャットで教えてもらったので、みなさんもぜひ参加しましょう!

明日の更新は@master_qさんです!

ページビューの合計