Self-calibration of rotating and zooming cameras

학술 2009. 2. 13. 15:28 Posted by 양고
IJCV 2001
Agapito, Hayman, and Reid
2월 10,11일 몫.2001년 논문임에도 아직도 state-of-the-art로 불리고 있길래 한 번 봐주기로 함.

주 내용
역시 infinite homograpy constraint를 사용. non-linear(LM)와 linear 모두 구현.
ML과 MAP estimatior도 도출하였다고 - 그런데 ML이든 뭐든 cost function을 정하는 것일 뿐 결국 L-M으로 minimized... 번들도 결국 그런 거였나!
지난 1998,1999,2001 논문에서 발전한 점은, optimal estimation과, near-ambiguities를 고려한 것, 그리고 radial lens distortion을 고려한 점이다.
U + V(n-1) <= P(n-1) 에서 indep. eqns의 갯수인 P <= 5이므로 V < 5 이어야 한다. 그렇다면 모든 Kj (j=0,...,n-1) 를 구할 수 있다.
non-linear minimzation에서 광범위한 starting points에 대해 global minimum으로 수렴한다고. 12.5 < f < 35mm 의 크지 않은 범위에서 실험했으니 그런 듯하다. 그러나 radial distortion을 고려하면 수렴하지 않는다고 한다.
linear에는 빠르고 initial estimate가 필요 없지만, unknown but constant param 등의 useful constraints를 사용할 수 없다고.
제안된 self-calibration algorithm은 또한 일반적인 모션에서 affine에서 Euclidean space로의 upgrade에도 사용할 수 있다고 한다.
radial distortion에 관해서는, K가 f의 함수인 것이 부담인 듯. cubic polynomials로 모델링하여 correction된 이미지로 homography를 계산한다.
섹션 5의 optimal estimation과 6의 ambiguity 등은 거의 skip하였으므로 필요할 때 다시 볼 필요가 있음.  끝.

[대박] HCI 2009

학술 2009. 2. 12. 17:01 Posted by 양고

HCI 2009
Various
2월 5,6,9,10,11,12,13일 몫의 페이퍼 분석을 HCI 2009에서 해결하기로 하였다. 어차피 보고서를 써야 하니... 잇힝~♡

"맥락 정보를 이용한 장방형 마커 인식 및 증강현실" (2/5)
Rectangular marker recognition using embedded context information - 이원우, 우운택 (광주과학기술원)
본 연구에서는 ARToolkit 등에서 마커의 크기가 모두 동일해야 하고 가로/세로 비율이 미리 알려져 있어야 한다는 제약을 없애기 위해 마커의 패턴에 ID, 마커 종류, 크기, 회전 등의 맥락(context) 정보를 저장하는 방법을 제안하였다.
ARToolkit을 이용한 연구가 무척이나 많은데, 이 연구 또한 ARToolkit에서 마이너한 부분을 변경한 것으로서 큰 도움은 되지 않을 듯하다.

“심플 프레임 마커: 마커 내부 이미지 및 문자 패턴의 인식 및 추적 기법 구현” (2/6)
Simple Frame Marker: Implementation of in-marker image and character recognition and tracking method - 김혜진, 우운택 (광주과학기술원)
OSGART(ARToolkit for OpenSceneGraph)를 사용하여 증강현실을 구현하며, 기존의 이미지 타입의 정방형 마커 외에 문자 타입의 마커를 제안하였다. 마커의 가로/세로 비율에 따라 이미지와 문자 타입 마커를 구분한다. 마커의 테두리에 방향정보를 삽입하여 문자인식을 쉽게 수행하도록 하였으며, 이전 프레임의 문자 인식 정보를 활용하였다. 문자인식에는 Tesseract-OCR 라이브러리를 사용하였다.
 
“차량용 어안렌즈영상의 기하학적 왜곡 보정” (2/9)
Geometric correction of vehicle fish-eye lens images - 김성희, 조영주, 손진우, 이중렬, 김명희 (이화여자대학교)
Devernay 등이 제안한 FOV 모델로 차량용 어안렌즈를 모델링하고 'ㄱ' 자 모양의 캘리브레이션 패턴을 사용하여 왜곡을 보정하였다. 패턴 특징점의 3차원 좌표와 영상에서 검출된 특징점의 거리로부터 재투사 오차(reprojection error)를 Levenberg-Marquardt 비선형 최적화 방법으로 최소화함으로써 카메라의 내-외부 파라미터를 추출한다.
FOV 모델이라는 것이 있다는 것, 그리고 L-M만 가지고도 캘리브레이션이 가능하다는 점은 참고가 되겠다.
셀프 캘리브레이션을 도입할 수도 있겠지만 대량 생산 공정이라면 패턴을 사용하는 것이 나을 것 같다.



Practical pure pan and tilt camera calibration

학술 2009. 2. 12. 11:10 Posted by 양고

ICPR, 2008
Junejo and Foroosh
2월 3일 몫.

주 내용
Seo and Hong이 최소 4 개의 homographies를 필요로 한다고?
현재 self-calibration에서 state-of-the-art는 Agapito and Hayman Self-calibration of rotating and zooming cameras (IJCV 2001)이며, 이들은 다섯 개 이상의 이미지를 사용하여 internal parameters에 대한 linear constraints를 구성하기 위해 infinite homography를 통해 IAC를 mappping한다 - 이것도 읽어야겠다는 ㅜㅜ
그러나 대부분의 self-calib 연구에서 pure pan/tilt는 degenerate cases이다.
저자들은 infinite homography의 eigendecomposition을 이용하여 두 장의 이미지로부터 four parameters (f0, f1, and principal points)를 얻어낸다.

결과
degenerate cases에서도 calibration이 가능하다는 것이 매우 고무적이었으나, 실험 결과는 실망스럽다.
15번의 실험을 평균 내서야 비슷한 결과가 나오고, 각각의 실험 결과는 20% 이상의 오차가 발생한다. 그렇다면 '겨우 두 장을 가지고' calibration이 가능하다는 주장이 크게 퇴색한다고 봐야겠다.

ICCV, 1999
Seo and Hong(Postech)
1월 30일 몫. 
2월 2일은 세미나 준비 했고...
어제는 저널페이퍼를 하나 읽었지만 밀린 분량에 흡수.
오늘(2.4)은 homography 실험 구현을 했으니 오늘 몫은 OK!
최종적으로 하루분(2.3)이 모자라는 상태. 휴~ ㅜㅜ
이 논문도 제대로 분석은 못 했음... 하지만 실험 구현으로 일단 만족.

주 내용
짧은 히스토리: Seo and Hong이 skew-free일 때 self-calibration이 unique하다는 것을 보였으나 iterative estimation을 사용. Agapito 등이 linear 방법을 보임.
이 논문에서는 f만 사용할 경우 최소 하나의 homography로 self-calibration이 결정됨을 보인다.
또한 principal point의 영향을 분석한다.
섹션 3.3의 focal length estimation을 실험했는데, 실제로 f0 = f1임에도 f0 = 약 600, f1 = 약 800 정도의 결과가 나왔다. 또한 이 값들은 약간의 homography 추정치 변동에도 크게 바뀌어서, 1000과 1500 정도의 값이 나오기도 했음. 두 장만 사용한 linear 캘리브레이션의 한계인 듯.
논문에서는 두 장을 사용해서 f0 = 1160.3, f1 = 1158.7의 매우 정확한 값을 얻고 있는데, 이는 Kanatani's renormalization algorithm 덕분일까?
내일 (논문처럼) rotation angle을 줄여서 실험해봐야겠다!

<실험 결과>
 ground truth f0  f1 
 7.996 7.67 7.25 
 14 13.18 10.61 
 24  14.67 13.07 


PAMI, 2003
Hayman(KTH) and Murray(Oxford)
1월 28,29일 몫. 오늘 남은 시간에 self-calibration 실험을 하게 되면 또한 하루치(1.30 또는 2.3) 일로 인정할 생각임.

주 내용
순전히 저널임에도 불구하고 짧아서(6p) 선택된 논문.
분석을 단순하게 하기 위해 K에서 우선 f만 고려함.
H = Kj R Ki-1와 R = R^-T 로부터
KjKj' = H KiKi' H'
Seo & Hong에 의해 h로부터 f를 계산할 수 있는 (3)~(7)의 식이 주어짐
 - 이로써 Cholesky decomposition이나 기타 복잡한 문제(예를 들면 Kj를 계산하기 위해 Ki를 알아야 하는 닭걀 문제?)를 피할 수 있을 것으로 생각된다!
planar scene이고 translation이 있을 경우, H = Kj (R + ...) Ki-1 이 된다고 한다.
회전에 의해 발생한 카메라의 이동 t = Rq - q를 대입하고 cos theta 등을 Taylor expansion해서 풀면, f' = f(1+qz/2d) 모양이 된다.
실제로 optical axis 방향으로 카메라 위치 이동 qz = 50cm 정도이고 scene에서 카메라까지의 거리 d = 5m 정도라 하면 error term qz/2d = 1/20 = 5% 정도 되니 결코 무시할 수 없는 상황이 된다. - 이 사실을 논문의 당위성 확보에 사용해야 할 것!
 '두번째 방법'을 다룬 섹션 4는 제대로 분석하지 않았음.

활용
h에서 바로 f 계산 실험 시도!
t에 의한 오차의 예측과 보정 (nonlinear로).


ISMAR, 2008
Zhou et al. (Nanyang대)
1월 23일 몫 ㅜㅜ 집에 있는 잉크젯 프린터로도 잘 찍히는 사실을 확인함 -_-)v
ISMAR 10주년 기념 논문 쯤 되는 듯...
ISMAR의 위치가 어느 정도 되는지 좀 궁금해짐. ISMAR 2009는 10월인데 아직 deadline이 정해지지 않았다.

주 내용
AR의 tracking, interaction, display 기술에 관해 정리. 나머지 부분은 지금 관심이 없으므로 tracking 부분만 리뷰함.
대세는 model-based와 hybrid tracking이라는.
markers → natural features → model-based approach
sensor + vision → hybrid tracking system
궁금했던  illumination estimation과 그 활용은 다루지 않아 아쉽...

Computation of the Camera Matrix P

학술 2009. 1. 29. 01:32 Posted by 양고
 
Multiple View Geometry in computer vision, 2003
Hartley(ANU) and Zisserman(Oxford)
MVG 책의 7장 분석(중 임시 저장). 저널급으로 간주하여 2일(21,22) 몫으로 함. 이로써 23, 28일 몫이 남았음... ㅠㅠ 설 연휴는 휴일이므로 면제.
추가: 2월 2일에 다음날의 세미나를 대비하여 다시 분석함. 3일 몫으로 하자... 힘들다 ㅜㅜ 현재 1월 28,29.30일 3일분이 모자람.

주 내용
point correspondences로부터 P 구하기.
우선 Ap=0 꼴로 정리.
DLT
iterative minimization (여기까지 Gold Standard algorithm이라 부름)
geometric error와 algebraic error를 다룬다. 별 중요할 것 같지도 않지만...
7.2.1과 7.2.2는 skip
7.3에서는 P의 decomposition을 다룸. 그런데 구체적으로 mapping g를 구하는 방법을 적시하지 않았음. 이건 computer vision 책을 참고해야 할 듯.
algebraic error의 경우 A(2n x 12) 대신 A carrot(12 x 12)을 구하여 dimension을 줄일 수 있다.
Covariance estimation은 거의 skip.

평가
별 중요한 내용은 없지만 4장과 같이 매우 복잡하게 설명함. radial distortion을 다루고 있음. 그런데 r, r^3, 이런 텀도 쓰는가?


ACM SIGCHI Int. Conf. on Advances in Computer Entertainment... 2004
Inamoto and Saito (Keio Univ.)
비슷한 내용으로 매우 많은 논문을 발표해 OSMU의 진수를 보여준다. 옛날에 한 번 훑어본 논문이지만 업무와 관계가 있어 다시 분석.

주 내용
HMD를 이용한 축구 경기의 재연.
multiple cameras의 F와 평면의 H를 이용. multiple cameras는 미리 calibration한 것이겠지?
HMD 추적은 Hough 변환으로 골라인의 직선 네 개를 추적함으로써 수행.
ref. camera 두 개를 골라서 homography 변환해서 blending하여 합성.
공 높이 추정: 두 ref. 이미지에서 공 아래로 수선을 그어서 그 선을 HMD 이미지에 homography 변환. 그러면 plane 위에 존재하는 점이 두 homography를 다 만족시키므로 두 선이 plane 상의 점에서 만난다. 그 선으로부터 높이 h1과 h2의 대략 평균 높이 위에 볼을 그려줌.

평가
응용 위주의 여러 테크닉의 모음집 느낌임.
hough transform을 이용한 HMD tracking은 안습... 골라인 네 개가 다 보여야 사용 가능.
선수 추출과 매팅 부분은 상용화에 어려움을 예고. --> binary가 아니라 continuous한 alpha값을 주면 좀 나을 듯 - 이런 건 일반 matting 논문에 많이 있겠지?
굳이 선수를 추출할 필요 없이 전체 이미지를 덮어쓰는 것도 괜찮을 듯.

Camera calibration with known rotation

학술 2009. 1. 23. 21:16 Posted by 양고
ICCV 2003
Frahm and Koch

주 내용
rotation 정보가 있으면 모든 intrinsic이 변하는 경우에도 linear.
freely moving의 경우, rot 정보가 있으면.. 도움이 된다 - metric reconstruction을 보장한다고.
원래 Ki Ki' = Hji Kj Kj' Hji' 에 의해 Ki와 Kj를 구할 수 있다.
첫번째 프레임의 unknown intrinsices = U, 다음 이미지들에서 varying intrinsics = V일 때,
U + V(n-1) <= (n-1)5 의 조건에 의해 variable intrinsics의 갯수가 제한된다. 이를 known r에 의해서 극복함.
(2009.3.2 추가)
H = Ki R Kj-1
Ki R - Kj H = 0(3x3) 에서 R과 H가 known
이미지 2장: 5+5+1 = 11 unknowns, 9 constraints --> more constraints required
이미지 3장: 5+5+5+2 = 17 unknowns, 18 constraints --> solved for fully varying paprameters

평가
pure-rot 와 freely moving 케이스에 대해 잘 정리된 듯. 각각의 경우 r이 주어지면 어떻게 benefit하는지도...
그러나 freely moving일 때 r만 아는 경우는 실제로는 없지 않을까? 이 부분은 별 쓸 데가 없는 듯...
zooming일 경우 최초의 K0를 알아야 한다는 것이 부담이자 향후 개선방향임:
We can extend this approach for varying calibration if only the first calibration K0 of camera 0 is known.

의문점
(15)가 6개의 식을 제공하면, unknown이 8개(f,a,s,px,py,tx,ty,tz)인데 어떻게 5개의 image pairs로부터 계산 가능하다는 것인지?
5장은 skip하였음. 우리의 경우 이미지와 센서값이 동기화되어 주어진다고 볼 수 있을까? sync를 받으니 그렇다고 봐야할 듯.

Multiple 3D object tracking for augmented reality

학술 2009. 1. 16. 17:47 Posted by 양고


ISMAR 2008
Park, Lepetit, and Woo

주 내용
detection + tracking at every frame - Vacchetti 논문의 키프레임을 사용.
키프레임은 오프라인으로 한 두 개만 생성하여 사용한다. 키프레임의 pose와 keypoints를 알고 있으므로, 이에 대한 match만 찾으면 pose 복원 가능하다. 내가 매 프레임 모델을 렌더링하여 구현한 방식과 마찬가지(rendered model image 대신 keyframe). 포즈 복원을 위해 RANSAC과 P-n-P 알고리즘을 쓴다고.
detection은 [8]의 keypoint recognition을 그대로 사용.
contribution은 [8]을 multiple objects tracking에 적용한 것...
detection part는 매 프레임 수행하지는 않는다. 일종의 rate control에 의해 시간 될 때마다 수행하는 컨셉.

평가
2. Related work에 3D 다중 물체 추적은 almost inexistent라고 주장함으로써 다른 방식과의 비교를 피해간 듯... 부럽

의문점
3.4에서 weight 계산은 ㄷㄷㄷ