http://profs.sci.univr.it/~fusiello/teaching/mvg/corsoPadova_2.pdf

답은 위 문서에 잘 정리돼 있다:

"The difference between the d.o.f. of the multifocal geometry (e.g. 7 for two views) and the d.o.f. of the rigid displacements (e.g. 5 for two views) is the number of independent constraints available for the computation of the intrinsic parameters (e.g. 2 for two views)."

즉 constraints로 표현하면,

F(7) = E(5) + K(2)

다시 말해 K를 위해서 2개의 constraints가 available하다는 것이다.
따라서 다른 내부변수는 알려져있고, f1과 f2만 모른다면 F로부터 calibration이 가능하다 (이론상).

이는 자유도가 7인 F로부터 카메라2의 외부변수 r(3) + t(2) = 5개와 함께 두 개의 내부변수를 더 추정할 수 있다는 직관과도 일치한다.
이 때, t가 3이 아니라 2인 이유는 t를 오직 up-to-scale로만 추정할 수 있기 때문에 스케일에 해당하는 1을 빼줘야 하기 때문. 즉 아래 그림 Fig.1처럼 공간상에 점이 몇 개 있고 두 대의 카메라가 있을 때, 전체 스케일을 5배 키우더라도 multiple view geometry는 그대로 유지된다는 사실.

Fig.1 Multiple view geometry up to scale, image courtesy of Dr.Byun

 

Fig. 2 Multiple view geometry up to scale, my drawing

다시 말해, Fig. 2에서 (i)과 (ii) 어느 곳에 이미지 플레인을 놓든지 간에, 모두 같은 결과 이미지를 보여줄 것이다. 그러나 공간에 놓인 세 점의 좌표는 (i)과 (ii)에서 크게 달라질 것이다. (i)에서는 더 작은 이미지 플레인의 크기가 640 픽셀이므로, (i)의 경우 세 점의 좌표는 더 큰 값을 가질 것이다.

그런데 이것은 어디까지나 이론이고 실제로 캘리브레이션 해보면 잘 안 될 것 같긴 하다.