甲斐性のない男が機械学習とか最適化とかを綴るブログ

うどんくらいしか食べる気がしない

ICML2012の論文をいくつか3行程度で紹介する

あけましておめでとうございます。
新年早々初詣にも行かず、4ヶ月滞ってたブログを更新するのが僕です。
ということで、今更ながらピックアップしてたICML2012の論文を読んでみました。
タイトルの通り3行で概要を書いていこうと思います。

Multiple Kernel Learning from Noisy Labels by Stochastic Programming

  • 学習用サンプルのラベルに間違いが含まれることを考慮したマルチカーネル学習の手法
  • サンプルiのラベルが合っているか否かを表すランダムな変数\xi_iを組み込んだ最適化問題として定式化
  • 予め仮定したノイズレベルの範囲内で\xi_iによって起こる最悪のケース(損失関数が最大になるケース)を考え、ランダム変数のない最適化問題へ変換

Dimensionality Reduction by Local Discriminative Gaussians

  • 2次分類器のクロスバリデーション誤差最小化の近似を目的関数とした線形教師あり次元削減手法
  • その分類器のクラス条件付き確率密度は、平均及び共分散行列がサンプルのk近傍で計算されるローカルなガウス分布
  • 目的関数を操作し、求めたい次元削減行列の直交制約を導入することで、固有値分解で解ける問題に変換

Adaptive Regularization for Weight Matrices*1

  • ベクトル\bf{q}\bf{p}の類似度を{\bf q}^{T}{\bf W}{\bf p}とし、\left({\bf q} , {\bf p}^{+} , {\bf p}^{-}\right)という三つ組({\bf p}^{+}の方が{\bf p}^{-}より{\bf q}との類似度が高い)が与えられる時、{\bf W}をオンラインで学習する手法を提案
  • この論文の著者らが2009年に提案した、求めたいパラメータを平均とするガウス分布をオンラインで推定していくAROWという手法の行列版
  • {\bf W}をベクトルに展開することでAROWを適用できるが、そのままだと推定する共分散行列が馬鹿でかくなるので、対角行列など共分散行列に制限を設けて適用したアルゴリズムを提供

Discriminative Probabilistic Prototype Learning

  • 1サンプルに対し複数の特徴ベクトルが与えられるデータセットにBoW*2を適用し1つの特徴ベクトルに再構築する際、再構築後の特徴ベクトルが分類しやすくなるように各Wordのプロトタイプを決める手法
  • 各特徴ベクトルがどのWordに属するかをハードに割り当てるのではなく、ソフトマックス関数を用いて確率で表すことにより微分可能にして、尤度が最大になるプロトタイプを勾配法で推定
  • 各教師サンプルのラベルも、どのクラスにどれくらいの確率で属するかという数値で与えられる

Learning Task Grouping and Overlap in Multi-task Learning

  • 各タスクのパラメータ\bf{w}_tがタスク数より少ない基底ベクトルの線形和({\bf w}_t = \bf{L}{\bf s}_t{\bf L}は基底ベクトルを列ベクトルにとった行列)で表されるとしたマルチタスク学習手法
  • {\bf s}_tl1ノルム正則化項と{\bf L}のフロベニウスノルム正則化項を損失関数に加えた目的関数を解くことにより実現
  • {\bf s}_tl1ノルム正則化項の作用によって、{\bf s}_tはスパースになり無関係なタスク同士は共通する基底ベクトルを持たなくなる

以上、5本の論文を紹介しました。
3行でまとめるのは難しいですね。
かなり無理やりやってるので、1行が長文になってしまいました。
ということで、今年もよろしくお願いします。

*1:ICML2012のホームページではAdaptive Regularization for Similarity Measuresとなってる

*2:Bag of Words(Bag of Keypointsともいう)