ICCV 2007
Siemens 연구소

개요
contributions: static edges 뿐 아니라 occluding contours(silhouette) 정보도 사용.

3장 occluding contour modeling은 일단 바빠서 생략. ㅡㅡ
전체 스텝:
(1) pose initialization
(2) sampling. 이미지 플레인에서 equally spaced 하게 3d edges를 샘플링.
(3) projection (of sampled edge points).
(4) feature detection. edge detection in the current image.
(5) feature matching. edge의 normal direction으로 search. 자세한 설명을 못 찾겠는데 아마 gradient가 가장 큰 점을 선택하지 않을까?
(6) optimization. robust method ("A correlation-based approach to robust point set registration", ECCV 2004) 사용. 소스가 있을래나? L-M보다 Weighted LS 문제에 적합할까? - 검토 필요.

감상
실루엣 사용 외에 이렇다 할 공헌이나 다른 방법들에 대한 분석은 없음 (edge나 interest point 外의 것을 찾던 터라).

[12.4-7] Entropy minimizationfor shadow removal

학술 2009. 12. 1. 18:09 Posted by 양고

IJCV 2009
Finlayson 외

개요
ECCV 2004 논문을 (조금) 확장해서 IJCV에 냈다. 30페이지가 넘는데 다 읽지는 못했고, 개요만.

영상에서 다양한 illumination 소스에 의해 illuminate된 scene 표면은 log-chromaticity 평면에 선형으로 나타난다. 이에 대한 설명은 Planckian lighting에 대해 2.2에서 다루고 있으며, 수식적으로 surface와는 independent한, temperature T에 의한 선으로 나타남을 보이고 있다.

이 선들은 서로 parallel하며 각각의 선을 하나의 점으로 projection함으로써 (LDA에서 하듯이) lighting에 invariant한 representation을 만들 수 있다. 이 선(의 각도)을 찾는 것이 본 논문의 목표이다.

각도 theta를 찾기 위해 Entropy minimization을 사용할 수 있으며, local minima가 많기 때문에 그보다는 quadratic entropy 또는 information potential을 사용함으로써 단일한 minimum을 구할 수 있음을 보인다.

보통 이러한 intrinsic image 만들기 작업은 camera를 calibration하거나 수작업을 통해 구하는 것이 일반적인데, 본 논문은 촬영된 영상만을 사용하여 illumination-invariant한 이미지를 만들고 원래 이미지와 edge 성분을 비교하여 shadow edge를 구한 다음, 그 정보를 사용하여 shadow removal을 구현하였다.

감상
플랑크상수가 등장하다니... 간지 만땅임.

결과 및 비교
그림 설명: 원본, chromaticity image, information potential, invariant L1 chromaticity image, re-integrated image.

그런데 아래 그림의 "pyramid based shadow removal"이 훨씬 결과가 좋다. ㅡㅡ
이건 그림자 부분을 사용자가 클릭해 준 것인 듯. 그런데 그냥 그림자 제거만 할 거라면 이렇게 heuristic이 들어가도 괜찮지 않을까?
ISMAR 2003,
CVPR 2003 (Fusing online and offline information for stable 3D tracking in real-time),
TPAMI 2004,
Vaccheti, Lepetit, Fua (EPFL)
좀 OSMU라능... 그래도 당당하게 밝히고 쓰네. CVPR에 내고 PAMI에 확장해서 내는 건 기본인 건가!

Motivation
robust online tracking remains an open issue (I think still it is).
online only - drift
offline only - jitter
online + offline = -_-)b 라는, 누구나 할 수 있을 것 같은 생각

주요 내용
CVPR에서는 RANSAC 기반의 필터링.
TPAMI에서는 M-estimator 기반 bundle adjustment (오히려 더 간단해진).
online과 offline reprojection error를 minimize.

[offline tracking]
baseline이 크므로 직접 NCC를 취하기 어렵다. keyframe의 interest point 주변 patch를 (이전 프레임의 P를 이용해서) 현재 프레임과 비슷한 모습으로 projective 변환한다 (그마저도 affine으로 approximation).

[online tracking]
 3D model, t-1의 camera pose Pt-1, 2D correspondences가 주어졌을 때, Pt를 구하라.
 원래 이전 프레임의 interest point 추출, (back-projection, 3D points, 현재 프레임에 re-projeciton), 2D points, 이전 2D points와 비교(거리). 이러한 복잡한 과정을 거쳐야 하나, 괄호 부분을 transfer function (a homography)으로 대체함. 내가 보기엔 별 차이가...?

[online tracking CVPR 버전 - 3.Simple recursive tracking 요약]
1. 2D-2D match (Harris corner, 아마도 NCC)
2. 프레임 t-1에서 3D points (Mt-1) 계산. camera center와 point mt를 잇는 직선이 object surface와 만나는 점이 Mt-1. 해당 surface를 미리 정하기 위해 각 메시(facet)마다 다른 컬러로 렌더링한 'facet-ID' 이미지를 얻는다.
3. 프레임 t에서 3D points를 얻었다. Mt := Mt-1
4. 프레임 t에서 2D-3D match가 known이므로, [16] (25 lines)을 이용하여 camera pose를 계산한다.




PR 2006
홋카이도 대학

내용
[Color histogram을 이용한 object search]
- color indexing: 그냥 color histogram 비교
- vector quantization: needs many references with different illuminations. 각각의 illumination으로 찍은 이미지의 히스토그램을 하나의 벡터로 보는건가? 모르겠다.
- color correlogram: utilizes color arrangement information for matching through the distribution of distances between colored pixels - 앗... 생각하던 그건가? ㅋㅋ
- color co-occurence histogram: uses frequencies of combinations of two colors as features, not orientation-invariant.
- (제안) color reach histogram: introduces rough infomration of positions of pixels. 아이디어는 컬러 차원에다 reach(중심으로부터의 거리)를 추가한 것으로 극히 단순함. contribution을 늘리기 위해(?) range finder의 depth 정보를 함께 사용하였다.

비교
전혀 the state of the art라 할 수 없는 CI, VQ와 비교.
아마도 correlogram보다 성능이 나쁜 듯. computation time 등 핑계가 있겠지만...

반성과 희망
역시나... 깊게 생각하는 것도 좋지만 survey가 우선이다! 다음에 볼 것은 correlogram + tracking (particle filter 등)!
희망: 이런 단순한 아이디어에 기반한 논문도 PR에 실렸다는 것. 근데 그 전에 유사 논문이 많이 있었을 것 같은데...?

[11.27] Mutual information-based 3D object tracking

학술 2009. 11. 22. 19:28 Posted by 양고
IJCV 2008
Giorgio Panin and Alois Knoll

내용
기본적으로는 L-M 기반의 multi-level LSE tracker.
SSD 또는 NCC 대신 Mutual Information (MI) 를 사용하여 정확성을 높이고 계산시간을 단축함.
계산시간 단축은 derivatives를 제공함으로써 별도 estimation할 필요가 없다는 점으로 설명이 되나, robustness의 증가는 이해할 수 없음. MI maximization이라는 것을 더 조사해야 알 수 있을 듯.
SIFT 등의 keypoint 기반 방식과도 비교하였으나, 제안 방식은 initialization에 크게 좌우된다는 점에서 정확한 비교는 불가능할 듯.
추적 성능은 1~2 fps.

SCIA 2009 (LNCS)
Denmark 애들

내용
comparison이라고 하지만 겨우 POSIT과 L-M (BIAS 라이브러리의 CamPoseCalib (CPC)) 비교.
제목에는 iterative가 들어가 있지만 겨우 두 개로는 민망했는지 Direct Linear Transform (DLT) 를 넣어서 세 가지 방식을 비교함.
planar points를 위해 planar version of POSIT을 제안...이 아니고 가져옴.
결론: 대체로 CPC가 정확하다. POSIT은 starting pose가 필요 없다. 
제목만 보고 제대로 낚임. 파닥파닥


ICVS 2009
Gipsa-lab, France

내용
Spatial Interest Points (SIPs): Harris detector
Spce-Time Interest Points (STIPs): Laptev detector
15명의 실험자가 53개의 비디오로부터 만들어진 305개의 비디오 조각을 관람.
SR Research의 Eyelink II eye tracker(500Hz)를 사용.
eye position density maps와 interest point detectors에 의한 interest maps의 비교를 위한 comparison metric: Normalized Scanpath Saliency (NSS).

[11.24] FaceL: Facile face labeling

학술 2009. 11. 18. 23:09 Posted by 양고

ICVS 2009
Colorado State University

내용
Face Detection → Eye Localization → Face Labeling.
Face detection은 OpenCV cascade face detector를 튜닝해서 사용.
Eye localization은 저자들이 CVPR 2009에 발표한 내용을 OSMU.
Face labeling은 SVC (libsvm 사용).
open source, 10 fps.

ICVS 2009
MIT CSAIL, Toyota Research Institute

내용
Stereo → Articulated ICP → Recognition.
model을 ICP로 3D data에 fitting할 때 multi-hypothesis framework 사용. N = 4 hypothesis is enough.
recognition은 bag of features (BOF) 기반이며, temporal descriptor로 codewords의 histogram을 사용. histogram을 SVM으로 training. 물론 classes는 different gestures.
비교는 HMM과 Conditional Random Fields (CRF).
실시간으로 동작한다고.



WWW 2008
Google guys

내용
video co-view graph를 사용, YouTube의 recommendation video를 자동 생성한다.
실험은 92일 간의 YouTube 데이터를 사용 (46 days for training, 46 days for test - 무엇을 training하는지는 잘 모르겠다 - Lv, 아마도 user 간 선호도 유사성일 듯).
비교 알고리듬: Global Popularity (그냥 most popular videos), Local Popularity (co-views 고려. = Amazon.com).
node 간에 label을 전파하는 (label propagation) Adsorption algorithm이란 것을 제안하여, precision(추천 비디오 중 사용자가 실제로 본 비율)과 recall(사용자가 본 비디오 중 추천됐던 것의 비율) 면에서 GP와 LP보다 나음을 보였다.