2009年10月19日月曜日

ICCV2009 総括

Paul Scovanner, Marshall F. Tappen, Learning Pedestrian Dynamics from the Real World: 通行人の 動き予測。トラッキングの精度改善には少しは役立つかもしれない。ただ、画像レベルで全フレームとのマッチングの問題としてできたほうがよいので、動き予測はコストが比較的高いかもしれない(総括者の考察)。

Dijia Wu, Kim L. Boyer, Resilient Subclass Discriminant Analysis: subclass discriminant analysisの拡張版、SDAで次元削減した空間でEMによりsubclassのクラスタリング計算を繰り返すことにより、SDAの精度を高めている。あまり大きなクラス数には拡張できない。一つのクラスにおいてmulti-modal性があるときに有効。

Gang Wang, Derek Hoiem, David Forsyth, Learning Image Similarity from Flickr Groups Using Stochastic Intersection Kernel Machines: FlickrのグループをHistogram Intersection Kernelを学習する。NORMAという従来手法より高速なSIKMAを提案しているのが新しい点。なお用いている特徴量は、SIFT, GIST, Color, grandientの4種類で特徴量の次元も高い(数千次元)が、SIKMAにより高速になったので、こういうこともできるようになっている。

Jingjing Yang, Yuanning Li, Yonghong Tian, Lingyu Duan, Wen Gao, Group-sensitive Multiple Kernel Learning for Object Categorization: ここでいうgroupはあるカテゴリにおけるsubclassのこと。各subclassに対応したカーネルを結合してmultiple kernel learningすることにより一つのSVM識別機を学習する。なお最適化には簡単な勾配法を用いている。

Jianxin Wu, James M. Rehg, Beyond the Euclidean Distance: Creating Effective Visual Codebooks Using the Histogram Intersection Kernel: Codebookの生成にhistogram intersection kernelを用いている。introductionの部分のcodebookのサーベイが素晴らしい。最近の手法はほぼ全部網羅されている。生成だけではなく、識別の際にもHIKを用いている。HIKに関しては、Maji et al., CVPR 2008.が出てからすごく高速に評価できるようになったらしい。

Matthieu Guillaumin, Jakob Verbeek, Cordelia Schmid, Is That You? Metric Learning Approaches for Face Identification: LMNNを改良し、Logistic Discriminant base Metic Learningを提案している。また、NNのpairの選び方でかなり性能が変わることを報告している。実験は、Labled Face in Wildで顔認識により実施。結果的に他のmetric learningやLDAと比べかなりの精度向上が得られている。

Antoni B. Chan, Nuno Vasconcelos, Bayesian Poisson Regression for Crowd Counting: 人数カウント、gaussian processのregression問題として定式化したものは多数あるが、負の人数が出てくるなど、理論的に扱いにくいところがあったので、階層ベイズによるpoisson分布によりこれを解決。精度のほどは、対象にも依存するので試してみないと不明だが、方向別の人数カウントの例が載せられている。

Christian Leistner, Amir Saffari, Jakob Santner, Horst Bischof, Semi-Supervised Random Forests: Random Forestsの準教師付き学習への応用。最適化においては、確定論的焼きなましを用いる。もともとRandom Forest自体が、二値識別器の組み合わせなどではなく、他クラスの出力が可能であるため、応用しやすい。

Bang Zhang, Getian Ye, Yang Wang, Jie Xu, Gunawan Herman, Finding Shareable Informative Patterns and Optimal Coding Matrix for Multiclass Boosting: ECOCを用いたboostingベース多クラス識別器。従来手法においては、ベースとなる弱識別器とcoding matrixとの同時最適化ではなかったが、ここを同時最適化することにより精度向上できることを報告している。

Lior Wolf, Tal Hassner, Yaniv Taigman, The One-shot Similarity Kernel:一枚のpositiveと negative setとの距離をLDAにより学習することにより、one-shot similarityを実現。また、この距離指標が、条件付き正定値行列にになることを証明し、kernel化した。このkernelとSVMを組合せ、顔認識等に対する精度向上を報告している。

Nazli Ikizler-Cinbis, Ramazan Gokberk Cinbis, Stan Sclaroff, Learning Actions from the Web: Webから収集した画像を基に学習を行う。必ずしもactionでなくても動作すると思われる。まず、YahooやGoogleの画像検索において、特定のactionを示すqueryを入れて、画像を取得。上位何枚かで、regression modelを作成し、その結果に基づいて、他の(検索上位には来なかった)画像を分類(モデルを作るのに使うのか使わないのか)しながら、さらにregression modelをupdateする。この結果得られた各Actionに相当すると思われる画像のみを用いて、モデルを作る。同じActionであっても様々なviewpointを含むので、NMFを用いてこのMultiModal性を分類する。それぞれについてlogistic regression classifierを適用して、各Actionを学習する。

Ming Yang , Fengjun Lv, Wei Xu, Yihong Gong, Detection Driven Adaptive Multi-cue Integration for Multiple Human Tracking:( カラー、輪郭、局所特徴量からなる)複数のcue(特に前述のものである必要はない)の線形結合によるベイジアンフィルタリングの枠組み。高精度な頭部トラッキングによる検出結果が得られたときに、線形結合の結合係数を、近傍領域と判別性が良くなるように最適化(適応と呼んでいる)する。最適化自体は勾配法で解く。

Neeraj Kumar, Alexander C. Berg, Peter N. Belhumeur, Shree K. Nayar, Attribute and Simile Classifiers for Face Verification: 顔の属性と特定個人の部分領域を用いた識別器による顔認識、特定個人の部分領域との類似度による特徴量表現というのが新しいと思われる。どの特定個人を用いるのがよいか等の問題が出てくると思われる(総括者の考察)。

Peter Gehler, Sebastian Nowozin, On Feature Combination for Multiclass Object Classification: 複数のカーネルを組み合わせた識別器を構築する際の、最適化方法に関する比較研究。SVM等を深く理解するのに良い論文。結果的に、caltech101等で従来に比べ10%程度の精度向上を成し遂げている。速度については度外視(総括者の考察)?