SURF에서 det(H)가 쓰이는 이유

학술 2011. 9. 2. 18:02 Posted by 양고


퇴근하고 월요일에 쓰겠음... ㅡㅡ;

-월요일-

음 시간이 없으니 대충 쓰겠음
우선 블롭을 찾기 위해 다음과 같이 LoG 영상의 maxima를 찾으면 된다.

\nabla^2 L =L_{xx} + L_{yy}

위 식에서 L은 가우시안 블러된 이미지.
원리는 에지를 찾기 위해 LoG 영상의 영교차(zero-crossing) 점을 찾는 것과 비슷하다.

이에 비해 L에 대한 헤시안은 다음과 같다.


H(\mathbf{x}) = 
\begin{bmatrix}
L_{xx}(\mathbf{x}) & L_{xy}(\mathbf{x})\\
L_{xy}(\mathbf{x}) & L_{yy}(\mathbf{x})\\
\end{bmatrix}

즉 det(H) = Lxx Lyy - Lxy ^2 이다.
앞의 항은 Laplacian과 비슷한 효과를 낼 것이다. 그러나 합이 곱으로 바뀜으로써 Lxx, Lyy 둘 중에 하나가 작은 값을 가지는 경우는 배제될 것이다.
뒤의 Lxy ^2을 빼 주는 것도 마찬가지 효과를 나타낼 것인지는 잘 모르겠다. --

http://en.wikipedia.org/wiki/Blob_detection#The_determinant_of_the_Hessian
http://en.wikipedia.org/wiki/Hessian_affine_region_detector

As discussed in Mikolajczyk et al.(2005), by choosing points that maximize the determinant of the Hessian, this measure penalizes longer structures that have small second derivatives (signal changes) in a single direction.

 

What are eigenvalues?

학술 2011. 8. 19. 11:13 Posted by 양고
eigenvalue에 대한 간단하면서 명쾌한 설명이 있어서 링크를 남긴다...
http://www.physlink.com/education/AskExperts/ae520.cfm

Lucas-Kanade method의 이해

학술 2011. 8. 17. 14:39 Posted by 양고

http://en.wikipedia.org/wiki/Lucas%E2%80%93Kanade_method
위 문서도 요약된 것이지만 한번 더 핵심만 요약하는 것에 도전한다. 도전~!



우선 한 점의 밝기는 다음 프레임에서도 (거의) 같다는 일반적인 optical flow (이하 OF) 식은 이렇다:
I(x,y,t) = I(x + δx,y + δy,t + δt)

I(x,y,t) I(x + δx,y + δy,t + δt)를 테일러 전개하면:I(x+\delta x,y+\delta y,t+\delta t) = I(x,y,t) + \frac{\partial I}{\partial x}\delta x+\frac{\partial I}{\partial y}\delta y+\frac{\partial I}{\partial t}\delta t+고차항

고차항을 무시하면 처음 OF 식은 다음과 같이 정리된다:

\frac{\partial I}{\partial x}\delta x+\frac{\partial I}{\partial y}\delta y+\frac{\partial I}{\partial t}\delta t = 0


이 식이 일반적인 (Horn 사마 등의) dense OF 계산에 쓰이는 optical flow equation이다.
LK는 sparse OF이므로, regularization term 등을 추가하지 않고 대신 해당 픽셀 주변의 윈도를 고려한다. 윈도 내부의 점들을 q1, q2, ...라고 하고 이들에 대해 위 OF 식을 적용하면 다음과 같다:

Ix(q1)Vx + Iy(q1)Vy = − It(q1)
Ix(q2)Vx + Iy(q2)Vy = − It(q2)
\vdots
Ix(qn)Vx + Iy(qn)Vy = − It(qn)

이를 Av = b 행렬 형태로 나타내면:

A = \begin{bmatrix}
I_x(q_1) & I_y(q_1) \\[10pt]
I_x(q_2) & I_y(q_2) \\[10pt]
\vdots  & \vdots  \\[10pt]
I_x(q_n) & I_y(q_n) 
\end{bmatrix},
\quad\quad
v = 
\begin{bmatrix}
V_x\\[10pt]
V_y
\end{bmatrix},
\quad \mbox{and}\quad
b = 
\begin{bmatrix}
-I_t(q_1)\\ [10pt]
-I_t(q_2)\\ [10pt]
\vdots \\[10pt]
-I_t(q_n)
\end{bmatrix}

한 점의 OF 벡터(Vx,Vy)를 알고자 하는데 윈도에 포함된 점 갯수만큼의 수식이 생겼으니 over-determined이다. 미지수인 v에 대해 풀기 위해서 일단 AT를 앞에 곱해서 v 앞에 붙은 것들을 정방행렬로 만들자 (정방행렬은 almost surely 역행렬을 가진다고 한다). 그러면 다음의 2×2 시스템이 된다:

ATAv = ATb
v = (ATA) − 1ATb
\begin{bmatrix}
V_x\\[10pt]
V_y
\end{bmatrix} 
=
\begin{bmatrix}
\sum_i I_x(q_i)^2      & \sum_i I_x(q_i)I_y(q_i) \\[10pt]
\sum_i I_x(q_i)I_y(q_i) & \sum_i I_y(q_i)^2 
\end{bmatrix}^{-1}
\begin{bmatrix}
-\sum_i I_x(q_i)I_t(q_i) \\[10pt]
-\sum_i I_y(q_i)I_t(q_i)
\end{bmatrix}

그러면 Vx, Vy를 구했다. 만세!
윈도 내에서 가중치를 주고 싶으면 다음과 같이 된다(고 한다):

ATWAv = ATWb
v = (ATWA) − 1ATWb
\begin{bmatrix}
V_x\\[10pt]
V_y
\end{bmatrix} 
=
\begin{bmatrix}
\sum_i w_i I_x(q_i)^2      & \sum_i w_i I_x(q_i)I_y(q_i) \\[10pt]
\sum_i w_i I_x(q_i)I_y(q_i) & \sum_i w_i I_y(q_i)^2      
\end{bmatrix}^{-1}
\begin{bmatrix}
-\sum_i w_i I_x(q_i)I_t(q_i) \\[10pt]
-\sum_i w_i I_y(q_i)I_t(q_i)
\end{bmatrix}

여기까지가 기본이고, 자세한 것은 81년도의(무려 신군부 시절) Lucas 논문을 보면 되겠다.
음 요약한다고 했는데 결국 위키피디아 설명에서 중요 부분만 발췌하는 수준에서 끝났다.
어쨌든 기본 내용만 알면 되지 않겠음? 전혀 모르고도 OpenCV에서 잘만 가져다 쓰는데...



[2012.1.9 추가]
컬러로도 위 식을 적용할 수 있을 것이다.
그런데 실제로 opencv에서 컬러 이미지를 넣어보면 미친듯이 느린데다 결과도 거지같다. 왜 그런지는 모르겠다...!



http://profs.sci.univr.it/~fusiello/teaching/mvg/corsoPadova_2.pdf

답은 위 문서에 잘 정리돼 있다:

"The difference between the d.o.f. of the multifocal geometry (e.g. 7 for two views) and the d.o.f. of the rigid displacements (e.g. 5 for two views) is the number of independent constraints available for the computation of the intrinsic parameters (e.g. 2 for two views)."

즉 constraints로 표현하면,

F(7) = E(5) + K(2)

다시 말해 K를 위해서 2개의 constraints가 available하다는 것이다.
따라서 다른 내부변수는 알려져있고, f1과 f2만 모른다면 F로부터 calibration이 가능하다 (이론상).

이는 자유도가 7인 F로부터 카메라2의 외부변수 r(3) + t(2) = 5개와 함께 두 개의 내부변수를 더 추정할 수 있다는 직관과도 일치한다.
이 때, t가 3이 아니라 2인 이유는 t를 오직 up-to-scale로만 추정할 수 있기 때문에 스케일에 해당하는 1을 빼줘야 하기 때문. 즉 아래 그림 Fig.1처럼 공간상에 점이 몇 개 있고 두 대의 카메라가 있을 때, 전체 스케일을 5배 키우더라도 multiple view geometry는 그대로 유지된다는 사실.

Fig.1 Multiple view geometry up to scale, image courtesy of Dr.Byun

 

Fig. 2 Multiple view geometry up to scale, my drawing

다시 말해, Fig. 2에서 (i)과 (ii) 어느 곳에 이미지 플레인을 놓든지 간에, 모두 같은 결과 이미지를 보여줄 것이다. 그러나 공간에 놓인 세 점의 좌표는 (i)과 (ii)에서 크게 달라질 것이다. (i)에서는 더 작은 이미지 플레인의 크기가 640 픽셀이므로, (i)의 경우 세 점의 좌표는 더 큰 값을 가질 것이다.

그런데 이것은 어디까지나 이론이고 실제로 캘리브레이션 해보면 잘 안 될 것 같긴 하다.

50개의 위대한 데이터 시각화 예제

학술 2011. 7. 25. 13:38 Posted by 양고

출처:
http://www.webdesignerdepot.com/2009/06/50-great-examples-of-data-visualization/

Music, Movies and Other Media

Narratives 2.0 visualizes music. Different music tracks are segmented into single channels that are then shown in a fan-like structure.


Liveplasma is a music and movie visualization app that aims to help you discover other musicians or movies you might enjoy. Type in the name of a band, artist, movie, director or actor and liveplasma will show you related people, bands or movies.


Tuneglue is another music visualization service. Just type any artist or band into the search box and hit enter. A circle comes up representing that band. You can then expand from there, clicking on any new additions after each expansion to expand further. By click on “releases” you can order their albums from Amazon.


MusicMap is similar to TuneGlue in its interface, but seems slightly more intuitive. Search for an artist or band and a list of albums will come up. Once you choose an album a circle pops up on the map. From there you can expand to get related albums, remove that album, or get more information.


Last.Forward is a downloadable, open-source tool to visualize any Last.fm user’s social network, including relationships between other users.


Fidg’t is a desktop app that uses Flickr and Last.fm tags to let you visualize your network and their tagging activities. You can see what your network’s predispositions are toward different tags and types of content.


Digg, Twitter, Delicious, and Flickr

Looks Del.icio.us is a collection of different Delicious bookmark visualizations. They’re created with a python-based graphics library and layout engine.


Arc is a product from Digg Labs that shows the latest Diggs, and the relationships between the users submitting and digging them. There are two different speed modes, the slower of which is great if you actually want to read the story headlines.


Stack is probably the most useful of the visualization offerings from Digg. Stories with the most recent activity load across the bottom of the screen and then ‘Diggs’ seemingly fall from the sky to land and create a real-time graph of what stories are popular. Whenever a ‘Digg’ hits a story stack, the title of the story is shown at the bottom of the screen, pushing previous stories down, and eventually off the screen.


Swarm has one of the cooler user interfaces of all the Digg Labs offerings, with stories and users flying around on the screen. When someone ‘diggs’ a story, they fly over to the circle representing the story itself and are briefly linked up to it. Hovering over a story or user shows its name and allows you to click. You can also download Swarm as a screensaver.


Research Chronology shows the relationships between one student’s research paths via Delicious bookmarks over the course of a semester. It’s an ongoing project and includes bookmarks for more than 270 websites.


TwittEarth shows live tweets from all over the world on a 3D globe. It’s a great visualization tool to see where tweets are coming from in real time and discover new people to follow. It’s also fascinating just to sit and watch.


Tag Galaxy lets you search for Flickr tags and have them shown visually in a mockup of a star system. Clicking on any planet (tag) within the first representation changes the image and recenters that tag as the star and pops up new related tags as planets. Clicking on the sun itself brings up a globe covered in images tagged as you’ve specified.


The Flickr Related Tag Browser allows you to search for a series of tags and see related tags. Clicking on a different tag brings up new related tags. You can zoom into the tag selected in the center of the screen by hovering and see images tagged with that word. It also gives a total image count and lets you browse by page.


Internet Visualizations

Mapping the Blogosphere is a collection of maps of the blogosphere, including hyperbolic maps, as shown here.


The Twingly Screensaver visualizes the blogosphere worldwide in real time. You get a continuous feed of blog activity straight to your screen.


Web Trend Map 4 shows a visualization of current trends online. This is the fourth iteration of this map and the most detailed one yet.


The Bloom Diagram is a project from the IBM Watson Research Center that visualizes the contributions of individuals to open source projects.


Akami Real-time Web Monitor shows a map of the world with real-time information about internet traffic, latency and current network attacks. The maps are color-coded and easy to read, but only give very generalized information.


The Mapa de Conocimiento (Map of Knowledge) is a schematic of knowledge involved in any given idea or project. Built in Flash, this tool visualizes a group of URLs organized under main ideas. The map is available in English and Spanish.


Akami Network Performance Comparison shows the packet loss and network speeds between different cities around the world (to showcase how their technology is better than the standard “public” internet). It also shows graphs of the information.


Internet Health Report shows the latency, packet loss, and network availability of the major ISPs and backbone providers worldwide in a color-coded grid format. Hovering over any of the cells in the grid gives more information about the health of that particular connection.

The Hierarchical Structure of the Internet was a study that looks at how the Internet is organized, both in terms of structure and connectivity. It shows how the central core of the Internet is made up of about 80 core nodes, but that even if those nodes failed, 70% of the other nodes would still function via peer-to-peer connections.


Rootzmap—Mapping the Internet is a series of maps based on data sets provided by NASA and created by Philippe Bourcier. There are a number of different maps available.


Websites as Graphs shows the structure of different websites based on the tags used in their code in a color-coded map that grows on the screen as you watch. Tags are somewhat intuitive in their color-codes, with blue for links, red for tables, and gray for any tags not specifically given a color.


Schemaball visualizes SQL database schema. Relationships are shown based on foreign keys within tables. It’s capable of showing schemas with hundreds of different tables and relationships.


The Opte Project aims to map every class C network on the Internet from a single computer and a single Internet connection. The overall goal is to create a map of the entire Internet.


Miscellaneous Visualizations and Tools

Visualizing Information Flow in Science includes a set of four visualizations showing relationships between citations in scholarly journals that are used to evaluate the importance of each journal.


The Micro Fashion Network: Color visualizations show the continuous change of styles in fashion, with a particular look at the basic elements of color. It was created by using a fixed camera and special software to map the colors of clothing people in Cambridge were wearing.


The TED Sphere shows videos from the TED conference in a spherical format with 3D navigation. You can view the sphere from inside or outside and the layout of videos is based on semantic compatibility.


Visualizing The Bible gives a visual overview of more than 63,000 textual cross-references within the Bible. It’s intention is to be more beautiful than functional.


Walrus is a visualization tool that allows you to interact with massive graphs in a 3D interface. Interaction is based on selecting any node and then having the graph zoom in to expand on that point.


We Feel Fine is one of the most interesting visualization tools I came across. It provides visualizations on the general feelings populating the blogosphere on any given day. You can filter results based on age, location, gender, weather, and other criteria. There are six different visualizations available: Madness, Murmurs, Montage, Mobs, Metrics, and Mounds, each of which give a different portrait of the general feelings abounding on the internet.


One Week of The Guardian is a visualization of the stories from The Guardian newspaper. It focuses on the relationships between headlines, authors, pages, and categories.


Nemulator is a project that aims to visualize “nemes,” or different fragments of states of mind. It also aims to serve as a starting point for discussions relating to the scalability of nemes.


Voyage is a web-based RSS reader that visually displays RSS feeds on a timeline. It’s a great way to explore the different feeds you subscribe in a completely different format.


Blooming Numbers is the 2006 CGD MFA Thesis Project of Yuri Lee. It’s goal is to show the relationships between preferences of numbers and cultural contexts in an interactive way.


CIA World Factbook Visualization shows a visualization of relationships between different countries and continents based on data from the CIA World Factbook. It shows semantic relationships for each country, including neighboring countries, languages, water and terrestrial boundaries, and more.


TextArc Visualization of The History of Science is a static visualization of the book The History of Science. It was originally displayed at the NYPL Science, Industry, and Business Library in New York.


This Newspaper Map is a visualization of the rules of the daily production of a newspaper is a striking graphic format. The closeness of words signifies their relationships with each other as do lines traced between words.


GraphNews is a news visualization browser from the Libero WebNews service. It shows news stories in a mind-map-like format. Clicking on one node recreates the graph with the clicked item as the focus.


Newsmap shows a visual representation of current headlines on Google News. It shows the relationships and patterns between different news stories across cultures and within different news segments. Be sure to click to the new JavaScript version for the best features.


FreeMind is a Java-based mind mapping software that allows you to build your own data visualizations quickly and easily. Finished maps can be exported into clickable XHTML files as well as other formats.


Resource System Reference Database was presented as a poster at InfoVis2004, IEEE’s annual conference. In this visualization, line weight shows the strength of relationships.


Is the New documents instances of the phrase “is the new” and shows the relationships between the subject and object of that phrase. Examples include “Purple is the new pink” and “Technology is the new religion.”


WikiMindMap is a tool to visually browse Wiki content in a mind-map format and includes the ability to download any of their mindmaps in FreeMind format.


How Scientific Paradigms Relate shows the relationships between more than 700 scientific paradigms based on how they were mentioned in more than 800,000 scientific papers. Relationships are also based on how often different papers were cited by each other and by authors of other papers.


Universe is a great app for visualizing the “universe” of particular search terms. There are sample terms available or you can input whatever you choose. The visualization given is reminiscent of astronomical charts.


visualcomplexity.com isn’t strictly a visualization software, but rather a collection of visualizations already created and categorized. Categories include business networks, art, internet, knowledge networks, biology, transportation networks, social networks, and more.


The Strengths of Nations is a visualization of the scientific advancement of ten different nations, including the United States, United Kingdom, France, China, and Australia. The map analyzes 23 different scientific areas, including math, biochemistry, and astrophysics.


Written exclusively for WDD by Cameron Chapman, a freelance writer and designer.


MS워드 줄바꿈 하이픈 삽입

학술 2011. 7. 25. 13:18 Posted by 양고

워드질을 하다보면 다음과 같이 줄바꿈되지 않는 긴 단어에 의해서 단어 간격이 보기 싫게 늘어나는 경우가 있다.


이럴 때는 자동 하이픈(hyphen) 넣기를 통해 텍스트를 break할 수 있다.

 


문제는 하이픈 남용으로 인해 너무 많은 텍스트가 break된다는 것인데, 이 때문에 영어권 사용자들은 이 기능을 상당히 annoying하게 생각하는 것 같다.


그림과 같이 하이픈 넣기 옵션에서 '오른쪽 여백 크기'를 적절히 조절해주면 된다. 기본 옵션은 0.63cm였던 것 같다.


그런데 또 하나의 문제는 이미 존재하는 하이픈의 경우, 그냥 그 하이픈에서 브레이크하지 않고 굳이 새로운 하이픈을 삽입하기 때문에, 다음과 같이 하이픈이 남발되는 문서가 되기도 한다.
conver-gence-accomodation이나 comput-er-generated가 뭐냐는...


아래와 같이 '사용자 지정 하이픈'을 강제로 넣는 방법도 있다. 즉 convergenceaccomodation을 한 단어처럼 쓰고 사이에 ctrl + '-'을 넣으면 중간에서 잘라 준다.


그러나 이 방법은 convergencecoomodation이나 computergenerated를 한 단어로 취급하는 것이기 때문에, 일단 맞춤법이 틀린 것으로 보아 빨간 줄이 그어지고, 라인의 끝에 위치하지 않으면 그야말로 한 단어로 보이기 때문에 권장할 것은 못 된다.

현재로서는 convergence-accomodation이라고 쓰고 - 바로 다음에서 shift+enter를 치는 것이 유일한 해결책 같다.

중국의 캐릭터 수화방송

학술 2011. 6. 2. 14:10 Posted by 양고

수화방송에 관한 논문

학술 2011. 5. 30. 10:12 Posted by 양고

출처: http://www.youthself.com/bbs/board.php?bo_table=sub451&wr_id=101
수화방송에 관한 일본 논문을 번역한 듯하다.



1. 수화 방송이란 ?

청각장애인을 위한 텔레비젼 방송

TV가 일본에 보급되기 시작한 것은 소화 28년(1953년)의 일이다.

소화 40년대에는 대부분의 가정에 TV 수신기가 보급되어 사람들에게 사회의 모든 일들을 신속하게 전하기도 하고 드라마와 퀴즈등 오락을 제공하기도 하며 또 여러가지 다양한 교육용 방송이 이루어 지게끔 되었다. 그러나 청각장애인들은 오랫동안 TV로 부터 격리되어 이러한 TV 정보를 받아들일 수 없게 되었다. TV에서 청각장애인들을 위하여 수화를 시작한 것은 TV 시즈오까가 최초로 소화49년 (1974년)의 일이다.

소화 52년 (1977년)에는 NHK에서 (청각장애인들의 시간)이 시작되었다.

그 후로 많은 방송국이 수화 프로그램을 방송하게 되었다. 수화 프로그램에 대해 이야기하기 전에 청각장애인들을 위한 TV 방송에는 어떤 것이 있는 지를 설명한다.

청각장애인들을 위한 TV 방송을 크게 분류하면 수화를 부가한 TV 방송(자막방송)의 2종류 가 있다. 귀가 들리지 않는 시청자들을 위하여 언어정보를 전달하는 데 수화를 쓰느냐 아니면 문자를 쓰느냐 하는 차이다. 특히 수화는 청각장애인들에게 있어서 일상 생활의 중요한 의사소통의 수단의 하나이며 음성언어를 대신하는 자연스런 언어이므로 수화 방송은 매우 중요하다. 자막을 부가한 방송은 외국 영화와 같은 일반적인 자막방송(OPEN CAPTION)과 문자방송 (CLOSED CAPTION)이 있고 후자는 일본에서는 소화 58년(1983년)에 시작되어 드라마, 만화영화, 교양방송등에 자막이 나오게 되었다.

문자방송은 앞으로 청각장애인들을 위한 방송으로서 큰 가능성을 가지고는 있지만 더이상 자세히 설명하지 않고 단지 그러한 사실만을 이야기 해 둔다.

청각장애인들을 위한 TV 방송 \ 수화방송 \ 자막방송 \ OPEN CAPTION \ CLOSED CAPTION 수화방송 중에서 청각장애인들에게 정보를 제공하기 위한 방송외에 수화를 가르치기 위한 TV 수화강좌가 있고 1991년 현재는 NHK 교육TV에서 (우리모두의 수화) 가 전국에 방송되고 있다. 수화강좌는 건청자뿐 아니라 많은 청각장애인들에게도 시청되고 있으나 이것 또한 여기 서 다루기는 내용적으로 조금 부적합하여 이이상 언급하지 않도록 하겠다. 먼저 수화가 딸린 TV 방송을 분류하여 보자.

수화방송에는 여러가지 타입이 있고 이에 따 라 수화 부가상의 문제도 다르다.


1) 수화 독립방송

청각장애인들을 주된 시청자들로 하는 방송이다.

NHK의 『청력장애자들의 시간』 이 여기 에 속한다.

방송 내용도 청각장애인들에게 관계가 있는 테마가 선정된다.

출연자들은 수화를 사용하여 회화를 하고 TV 화면의 가운데에 위치한다.


2) 청각장애인들을 위한 수화뉴스

여기에는 독립형 수화뉴스와 부가형 수화 뉴스가 있다.

독립형 수화 뉴스는 수화 독립 방송 과 마찬가지로 청각장애인를 주된 시청자로 생각하여 특별히 만든 뉴스이다.

부가형 수화 뉴스 는 일반적인 뉴스에다가 와이프에 수화를 삽입한 방송이다.

전자에는 NHK 의 (NHK 뉴스 청 력장애자 여러분에게)가 있고 후자에는 일본 테레비방송의 (NHK뉴스), 아오모리방송국의 (뉴 스 레이다) 등이 있다.


3) 수화가 딸린 토크프로그램

강연, 좌담회, 토크쇼등 한사람 혹은 여러 사람의 출연자의 이야기를 중심으로 한 프로그램 으로 수화를 부가한 것이다. (테레비라고야) (하늘로부터의 문답) 이 대표적인 것이다.

현재 우리나라 방송에서는 어느 쪽이든간에 와이프나 크로마키방식으로 수화를 부가하여 방 송되고 있다.


4) 수화가 딸린 영상정보 방송

여러 가지의 일들과 영상을 비디오로 소개한 프로그램에 수화가 딸린 방송이다.

지방 자치 단체가 후원한 지방방송에서 흔히 볼수 있다. 현재 우리나라의 방송에서는 와이프나 크로마키에 수화를 부가한 형태로 방송되고 있다.


5) 기 타

외국에서는 이러한 것 외에 수화만에 의한 이야기 방송,

수화통역자가 중심인 어린이 방송, 수화 드라마 등이 있다. 그리고 우리나라에도 출연자가 수화를 사용하여 이야기하는 드라마인 (이름도 없이 가난하고 아름답게) 등이 방송되고 있지만 짜여진 방송으로 일본에서 방송되고 있는 것은 위의 1) ~ 4)의 어디엔가에 속한다.



주 (와이프) 와 (크로마키)

TV 화면의 한쪽 구석을 둥글거나 사각으로 만들어 전자적으로 다른 영상을 집어 넣는것 이때에는 둥글거나 사각부 뒤의 영상전체가 와이프 때문에 안보이게 되나 수화가 보기 쉽다 는 이점이 있다. TV 화면 안에 사람등의 영상을 전자적으로 집어 넣는것. 이때 TV영상안에 수화통역자가 쏙 들어간 형태가 된다. 원래 영상이 안보이게되는 정도는 와이프보다 젖어지지만 배경의 영상에 따라서는 수화가 보기 어려워지는 우려도 있다.


일반 TV 방송은 영상과 언어 2채널의 정보를 눈과 귀 2 종류의 감각기관으로 받아들이도록 제작되어 있다. 그러나 수화방송에서는 영상정보도 언어정보도 눈으로 이해해야만 한다.

또한 일본어 말이나 일본어로 된 원고를 수화로 번역하여 전달하는 작업도 필요하다.

그래서 좋은 수화방송을 제작하기 위해서는 다음장에서 이야기하는 여러 가지 점들에 유의해야만 한다.




--------------------------------------------------------------------------


2.수화방송 제작상의 문제점


1) 청각장애인 대상의 수화 뉴스


(1) 뉴스원고는 방송 직전이 아니면 입수가 불가능하다.

따라서 그 원고를 수화로 바꾸어 사전에 연습할 시간이 없다는 문제가 있다 .

(2) 대부분의 뉴스 원고는 대화체가 아니고 문서체이다.

강연 등에 비해 수식하는 표현이 긴 문장도 뉴스 원고에는 많다.

(3) 난해한 시사용어, (우리들의 수화) 에 없는 단어,

외국어 발음을 그대로 옮긴 카타카나 단어, 외국의 지명, 외국인명등이 빈번히 나온다. 이런 문제는 정치 좌담회 방송도 마찬가지다.

(4) 독립형 수화뉴스인 (NHK 뉴스 : 청력장애자 여러분께) 에서는

수화통역자가 일본어를 이야기하면서 수화를 하고 있다. 이 때 일본어의 어순에 따른 수화가 되기 쉽기 때문에 청각장애인이 알아보기 쉽게 하는 연구가 필요하다.


2) 수화가 딸린 토크프로그램

한사람의 출연자에 의한 토크프로 즉 강연 방송은 가장 수화 방송에 적합하다.

대화체이며 출연자에게 천천히 말하도록 부탁하거나 수화 통역이 쉬운 문맥으로 말하도록 하는 것도 가능하기 때문이다. 와이프 방식의 경우 와이프를 꽤 크게 만들어도 화면에 주는 영향은 그다지 크지않다. 또한 시청자인 청각장애인가 수화를 읽어들이는데 전념하기 쉬운 것도 이런 타입의 방송이다. 그러나 여러명의 출연자에 의한 토크프로의 경우 수화통역은 상당히 어려워진다. 한사람의 수화통역자가 말하는 사람에 따라서 몸의 방향이나 수화를 구분해야 하기 때문이다. 여러 출연 자가 동시에 말을 하는 경우도 있다.


3) 수화 딸린 영상정보 방송

이러한 방송에 수화를 부가하면 중요한 영상의 일부가 수화통역자 때문에 가려져 버리기 때문이다. 화면이 너무 많이 없어지지 않도록 와이프를 작게 하면 수화를 보기 어려워진다.

또 청각장애인는 영상과 수화 양쪽을 동시에 보아야만 하는데 그에 대한 배려가 필요하다.


3. TV 화면 구성에 대하여

우리는 여러 편의 수화방송을 많은 청각장애인 여러분이 시청하도록 하였다.

그러고 나서 여러 가지 각도에서 검토를 하여 어떤 화면 구성이 가장 좋은가를 검토하였다.


1) 와이프의 크기

청각장애인가 수화를 읽어들이는 경우 수화통역자의 손과 팔만 보는 것이 아니다.

손가락과 입의 움직임, 얼굴의 표정도 보고 있다. 그런 것들이 TV 화면에 크게 비치어지는 것이 매우 중요하다. 따라서 와이프는 크면 클수록 좋다. 하지만 화면의 구성상 당연히 제약이 있다. 가정에 서 20 ~ 24 인치 TV 로 본다고 할때 오른쪽의 사진이나 그림처럼 화면의 6분의 1정도 크기가 수화를 읽어 들이는데 필요한 최소한의 크기이다.



2) 수화통역자의 배경과 조명

현행 각 방송국의 와이프형 수화방송은 배경색으로 청색, 회색, 들을 사용하고 있다.

이 색 의 색상, 명도, 채도는 수화를 읽어들이는 것과 매우 밀접한 관계가 있다.

TV 방송국에서는 청 각장애인, 수화통역자와 협의하여 청각장애인들에게 가장 수화를 잘 알아볼 수 있는 색과 밝기 를 설정하여 주어야 한다.

또한 스튜디오 조명의 미묘한 조작에 따라 손, 손가락, 입의 움직임을 보기 쉬워지거나 힘들어지게 되므로 조명에 대한 TV 방송국의 배려도 매우 중요하다.

한편 수화통역자의 뒷화면에는 기둥이나 나무와 같이 수화를 알아보는데 방해가 되는 것은 넣지 않는 것이 좋다.


3) 와이프의 위치

많은 청각장애인들의 의견에 따르면 화면 오른쪽 하단이 안정되고 보기 쉽다고 한다.

현재 방송되고 있는 수화방송의 대부분이 오른쪽 하단부 와이프이다.

『제2부 '자료' 참조』 또한 같은 방송안에서 좌우로 나누어 와이프를 넣고 있는 오른쪽 사진같은 방송도 있다. 외국은 오른쪽 위, 왼쪽 위에 와이프를 넣는 예도 있다.

또한 소련에서 청각장애인를 대상으로 하는 채널에는 일반적인 화면을 오른쪽 위에 내보내고 수화통역자가 중앙에서 내용을 통역하는 형태의 와이프인 방송도 있다.

와이프 위치 그 자체는 보는 사람이 얼마나 익숙해져 있는가 하는 문제도 있는 것 같다.


4) 와이퍼의 주변 처리

와이프의 주변 처리는 확실히 선으로 구분하는 방법과 희미하게 흐리게 하는 방법이 있다.

청각장애인들의 의견으로는 흐리게 한것이 눈이 피로하지 않다는 사람과 확실하게 선으로 구분하는 것이 수화가 잘보여 좋다는 사람이 있다. 와이프의 주변처리는 어느 쪽이 좋다고 단정 을 내리기는 어려운 것 같다.


5) 와이프의 형태

원, 타원, 정사각형, 단형들이 사용되고 있다. 이것에 대해서도 청각장애인의 의견은 나누어 져 있다. 어느 쪽이든 특별히 나은 쪽은 없는 것 같다.


6) 수화통역자와 와이프의 크기

수화는 머리 윗부분부터 허리부분까지 손이 이동한다.

따라서 이 부분들이 모두 들어가도록 와이프의 크기를 설정해야 하는 것이 당연하지만 실제로는 손이 와이프 바깥으로 나가는 경우 가 있다.

반대로 오른쪽 그림처럼 무릎부분까지 와이프 안에 넣는 경우도 있으나 이것은 곤란 하다.

TV 화면의 정해진 면적을 십이분 활용하기 위해서는 와이프의 최적크기를 정하는 것이 매우 중요하다.


7) 와이프등의 배후가 되는 화면에 대한 배려

와이프나 크로마키방식을 사용하면 원래 화면의 일부가 보이지 않게 된다.

일반 방송에서 간혹 수화를 부가하는 것이 아니라 매회 반드시 수화를 딸린 방송의 경우는 화면 한구석에 반드시 수화 통역이 들어가므로 이것을 위한 촬영상의 배려가 필요하다.

이것은 당연히 TV 방송 국의 책임이지만 현실적으로는 거기까지 신경을 쓰지 않는 방송국도 있다. 촬영함에 있어서 화면 한구석에 와이프가 들어가는 사실을 염두에 두도록 TV 방송국은 카메라멘에게 주문을 해 둘 것을 당부드린다.


4. 청각장애인 단체, 수화통역자(단체)와 TV 방송국


1) 방송 전, 3자의 사전 논의가 중요하다.

TV Program에 삽입되는 수화 통역의 의뢰는 대개 두가지 경로를 통하게 됩니다.

하나는 직 접 통역자 개인에게로 의로가 들어오는 경우고 다른 하나는 청각장애인 단체 또는 통역자 단체를 통해 의뢰되는 경우가 그것입니다.

수화를 가장 잘 알고 있는 이가, 가장 잘할 줄 하는 이가 청각장애인과 통역하는데 이견이 있으신 분은 없겠지요. 유감스럽게도 우리 주변에서 수화를 할 줄 아는 이는 그리 많지 않습니다. 방송국에서 직접 수화 Program을 만드는 이 (PD나 연출자 등의 담당자)도 예외는 아닙니다. 수화나 수화와 관련한 제반 문제에 대해 제대로 파악 하고 있는 이는 생각보다 훨씬 적습니다. 이런 까닭에 청각장애인 단체나 통역자 단체, 수화 통역자의 역할이 중요한 것입니다. 이들은 커뮤니케이션 수단으로서 수화가 갖는 특징이나 완벽한 수화 통역에 필요한 제반 사항들에 대해 방송국에 확실히 알리고 요구해야할 의무와 책 임을 지고 있는 것입니다. 앞에 언급했던 와이프의 크기나 위치 선정문제도 방송국 측에 무작정 맡기기 보다는

통역자나 단체 등에서 " 이 정도가 좋겠다" 하는 식으로 분명히 자신의 의견을 반영할 수 있어야 하며, 이것이 보다 더 완벽한 수화통역에 이르는 지름길인 것입니다.

좋은 수화 Program의 제작을 위해서는 청각장애인. 수화통역자. 방송 담당자, 3자의 커뮤니케이 션 채널이 항상 열려있는 것이 무엇보다도 중요합니다.


2) 보다 완벽한 통역을 원한다면 정보를 미리 입수하라

TV Program은 NEWS를 제외하고는 대개가 방송 며칠 전에 이미 대본이 만들어 집니다. 대본을 보면 그 Program의 내용이나 예상되는 용어를 추측할수 있습니다.

영상을 중심으로 소개 하는 Program의 경우에는 나레이션의 전문이 대본에 나와 있을 것입니다.
보다 더 좋은 통역을 원하십니까? 어렵지 않습니다.

방송 전에 미리 대본(혹은 그에 준하는 것)을 입수하십시오.

녹화 Program의 경우에는 사전에 녹화 테입을 봐 두는 것도 큰 도움이 될 것입니다.

Talk 혹은 좌담 Program과 같은 경우, 완전한 대본이 없다 할지라도 구성 메모 등의 Program 관련 자료는 반드시 방송국 안에 있을 것입니다. 사전 정보입수, 그것을 통해 통역자가 미리 얼마간의 예상을 세워두는 것은 좋은 수화통역의 밑거름이 될 것입니다.


5. TV 방송과 수화․수화통역자

앞에서도 말씀드린 바와 같이, 수화 문외한인 수화 Program 담당자를 보는 일은 어렵지 않습니다. 수화 Program에서 통역자의 역할이 큰 이유가 바로 여기에 있는 것입니다.

여기서는 수화 Program에 있어 통역자나 방송 담당자가 반드시 짚고 넘어가야 할 문제에 대해...


1)수화에 관한 문제 2)그 밖의 문제,

이렇게 두 가지로 나누어 살펴 보도록 하겠습니다.


1) 수화에 관한 문제

방송과 수화 TV로 방송되는 Program에 수화통역을 삽입하는 것은 일상 생활에서 행해지는 수화통역과 또 달라 여기에서 비롯되는 여러가지 문제점들이 있습니다.

예를 들면 이런 것들입니다.

TV 화 면의 수화 통역을 통해 Program을 시청 중이던 청각장애인이 미처 이해하지 못한 부분이 있다 하더라도 그는 다시 반복해 달라거나 무슨 말이었냐고 물어 볼 수가 없습니다.

그냥 그 상태로 지나칠수 밖에는, 또 전부 그런건 아니지만 간혹 수화 통역자 중에도 수화나 지화 문자 사용에 있어서 사투리를(?)쓰는 이들이 있습니다. 이럴 때 방송을 보고 있던 청각장애인들은 상당히 혼돈스러워 집니다. 또 그것이 전국으로 방송되는 Program인 경우, 국내 청각장애인 모두가 시청자라는 것을 염두에 두지 않을 수 없습니다. 말하자면 말중에 사투리가 있는 것처럼 수화에도 사투리가 있다는 것입니다. 이 밖에도 몇가지 문제점이 있는데요. 이제부터 각각의 문제점을 짚어보고, 거기에 대해 적절한 해결책을 찾아보도록 하겠습니다.


(1) 가장 중요한 것은 수화가 알기 쉬워야 한다는 것이다.

TV 수화통역자에 있어 가장 중요한 것, 그것은 시청자(청각장애인)가 알기 쉽도록 표현해야 한다는 것입니다. 수화를 전달하는 매개체가 방송이기 때문에 일상 회화의 수화통역과는 다른 수화 기술이 방송 수화통역자에게는 필요합니다.

그러기 위해서는 청각장애인과의 항시적인 접촉을 통해 그들의 수화 습관이나 수화를 이해하는 데 특징이 될 만한 요소들을 다양히 또 충분히 체험하지 않으면 안됩니다.

또 수화 표현의 폭을 넓히기 위해서는 통역자 자신의 어휘력, 문장 표현력 향상을 위한 꾸준한 노력도 빼놓을 수 없습니다.


(2) 표현수화 (*)

외국어 공부, 그 중에서도 특히 Talking & Listening 을 배우려는 이들이 주로 찾는

방법은 NEWS Program을 청취하는 것입니다. 이유는 그것이 가장 표준어에 가깝다고 생각하기 때문이 죠. 방송 매체가 표준어 보급에 미치는 영향에 대하여는 길게 설명하지 않아도 이미 알고 계시 리라 생각합니다.

수화도 마찬가지! 전파를 타고 일정 지역의 시청자들에게 일방적으로 방송되는 TV Program 에서 표준으로 인정되지 못한 수화를 사용했다고 한번 생각해 보십시오.

방송에서 표준어를 사용해야 하는 것과 마찬가지로 수화도 반드시 표준 수화를 사용해야 합니다. 표준수화로 방송해야 한다는 것은 곧 방송 수화통역자가 표준 수화를 완전히 습득했다는 것을 전제로 하는 것입니다. 방송 수화통역자는 표준수화를 완벽하게 인지하고, 인지한 것을 바르게 표현하며 통역 할 수 있어야 합니다.

그러나 보다 실질적으로 살피면 지방마다 사투리가 있는 것처럼 수화 표현에도 그 지방만이 가지는 독특한 사투리 수화가 있는 법입니다. 때문에 표준 수화가 아닌 각 지방 고유의 사투리 수화를 사용해야 할 때도 경우에 따라서는 간혹 있을 수 있습니다.

그러나 원칙은 방송에서는 표준 수화를 사용해야 한다는 것입니다.

지금까지 발행된 표준 수화관련 책자로는 (전일본농아연맹) 의 (우리들의 수화(총 10권, 별 책 2권) ) 를 들수 있습니다.

방송 수화 통역자 뿐만 아니라 일반 수화 통역자도 이책에 기재 된 수화 단어 만큼은 꼭 습득해야 할 것입니다. 그리고 이후로도 발표될 수화 관련 간행물과 (전 일본 농아연맹) 을 중심으로 제작하고 있는 (새로운 수화) 에도 여러분들의 지속적인 관심 을 부탁드립니다.

※여기서 표준수화란 (우리들의 수화) 에 게재되어 있는 수화 표현을 가리킨다.


(3) 원고의 문장과 양.

NEWS나 정보 Program의 경우를 생각해 봅시다.

이들 Program 에서 쓰는 말이란 대개가 입으로 하는 말이 아니라 글로 쓰는 말입니다. 수화란 원래가 (글로) 쓰는 말이라기 보다 (입으로) 하는 말입니다.

문어체가 아니라 구어체란 거죠. 때문에 (글로) 쓰는 말을 그대로 수화로 통역하기란 결코 쉬운 일이 아닙니다.

또 말하는 속도와 수화의 빠르기는 어떨까요?

아무리 빠르다 해도 수화보다 말이 더딜리는 없을 겁니다.

짧은 시간 안에 많은 분량의 원고를, 그것도 말하는 속도가 빠른 아나운서가 진행하는 NEWS 나 정보 Program 의 수화 통역을 위해서는, 그렇기 때문에 사전 작업이 필요합니다. 사전 작업이란 문어체로 쓰여져 있는 대본을 수화 표현이 용이한 구어체로 바꾸는 것입니다. 그 일이 방송 담당자와 수화 통역자의 상의 하에 이루어지는 공동 작업이라야 함은 말 할 필요도 없겠지요.


(4) 수화의 단어

NEWS를 비롯해 TV Program에는 정치.경제.사회 분야 등에서 표준 수화에는 없는 단어나 시사적인 용어가 쓰이는 경우가 많습니다.

이런 경우에는 표준 수화를 조합하여 표현하는 것이 가능한지를 우선 생각해봐야 합니다. 뿐만 아니라 지명이나 외국의 고요 명사 같은 경우도 기존의 (수화) 어휘로만 표현하는데는 한계가 있습니다. 때문에 이런 경우에는 부득이하게 손가락 문자로 표현하는 방법을 쓰고 있지만 이는 말 그대로 부득이한 경우일 뿐 근본적인 해결책은 될 수 없습니다.

왜냐하면 일부 청각장애인들 중에는 이러한 손가락문자를 잘 이해하지 못하는 이들도 있고, 또 TV 화면의 일 부분을 차지하고 있을 뿐인 조그만 와이프를 통해 시청하고 있는 이들에게 손가락으로, 조그만 손가락 만으로 표현하는 문자를 읽고 이해하라는 것은 정말 엄청난 고역이 될 수 있기 때문이죠. 그래서 앞에서도 말씀드린 바와 같이 방송국에서 사전에 원고를 입수했을 때, 표준수화로 표현하지 못할 단어가 있다면 다른, 표현이 가능한 다른 용어로 바꾸는 것이 좋습니다. 또 수화 표현이 난해하거나 이해가 힘들 것이라 판단되는 용어의 경우에는 수화 화면과 동시에 문자를 띄우는 것도 시청자 (청각장애인)의 이해를 돕는한 방법이 될 수 있을 것입니다.

'신종 단어' 가 필요한 것과 같은 이유로 '신종 수화' 도 필요합니다.

'신종수화'는 청각장애인이 '신종 단어'를 이해하는 수단이 되는 것이니까요.

이런 까닭에 (재단법인 전일본농아연맹) 은 후생성의 위탁을 받아서 표준수화 연구사업의 하나로, 새로운 수화의 제정과 보급을 위해 청각장애인, 수화통역자, 교직경험자 등으로 구성된 (수화연구위원회)를 설립했습니다.

만일 이 책을 읽고 계신 여러분께 새로운 수화에 대한 아이 디어나 창작에 도움이 될 만한 것이 있다면 주저하지 마시고 지금 당장 (재단법인 전일본농아 연맹) 앞으로 연락을 주십시오. 표준수화의 제정, 그것을 통한 수화 어휘량의 확대와 전국적 보급은 대단히 중요한 일입니다. 이 일에 주축이 되는 것은 (재단법인 전일본농아연맹) 일수 있으나 전국의 청각장애인과 수화통역을 위해 애쓰시는 여러분들의 부단한 노력과 협조 없이는 결코 이루어지지 않을 것입 니다. 여러분들의 끊임없는 관심, 부탁드립니다.


GPU SURF (CUDA SURF) tested!

학술 2011. 4. 6. 13:34 Posted by 양고
SIFT에 비해 SURF의 open implementation이 더 많은 것으로 보인다.
그 중 http://www.d2.mpi-inf.mpg.de/surf?q=surf (무려 막스 플랑크 연구소!) 의 "CUDA SURF" 구현이 괜찮은 것 같아서 돌려 보았다.

이번에도 많은 난관이 있었는데,
1. 소스 빌드 (CMake로 하면 되는데, VS가 떠있으면 안 되더라는... 약간 헤맴).
2. Integral 이미지를 만들 때 cudaMemcpy2D에서 에러. 이미지를 강제로 32비트로 변환해야 한다. "GPU expects 32bpp."라는군...
3. 최대 난관. ipoints가 없다며 죽음.
MS의 HD-5000을 사용했는데 알고보니 진짜로 웹캠 입력이 안 되어 interst points가 없었음. 일단 로지텍 퀵캠 스피어로 대체해서 실험.
근데 ipoints가 없으면 안 그리면 되지 죽을 것까진 없지 않나...?


결과는 나쁘지 않은 듯?

HD영상 실시간 스테레오 정합

학술 2011. 3. 25. 10:58 Posted by 양고


결과는 구리지만 일단 나온다는 게 중요함! ㅋㅋ
Panasonic 3D camera + Nvidia Quadro SDI capture card + Cg

SDI capture 예제와 이전에 만들었던 Cg 스테레오 프로그램을 조합하는 과정에서 꽤 심각한 문제가 발생해서 포기하고 CUDA로 넘어갈까 했지만 어찌어찌 해서 구현할 수 있었다.

1. cgGLSetTextureParameter가 먹통.
이 문제는 SDI 예제에서 GL_TEXTURE_RETANGLE_NV를 사용하는데 반해 내 fragment program에서는 CG_TEXTURE_2D를 가정하고 있었기 때문으로 밝혀졌다.
(포기하고 CUDA로 넘어가기 직전 전상의 결정적 어시스트 ㅎㅎ)
타입이 맞지 않으면 아예 SetTexture 자체가 되지 않는다는 사실... 잘 기억해두자.
Nvidia Cg 포럼에도 올렸지만.. 결국 자문자답.
http://developer.nvidia.com/forums/index.php?showtopic=6006&st=0&gopid=18745&#entry18745

2. vertex program의 disparity 매개변수를 설정하는 것이 또 먹통.
이것도 어제밤 포기하고 퇴근하기 직전 시도해 본 것이 겨우 성공했다.
결론적으로 vertex program의 disparity 매개변수에 'uniform'이 붙어있기 때문이었다. disparity는 varying 변수이기 때문에 떼는 것이 맞는 듯.
그렇다면 예전에 구현한 GpuStereo는 어떻게 잘 작동하는 것일까? --> 이거슨 여전히 미스테리...
달라진 점이라면 예전 GpuStereo에서 disparity는 0~1 사이의 texture 좌표에 맞게 normalize된 값이고, 새 버전에서는 픽셀 단위 (예: 0~30) 이다.

future work는... 일단 SDI 출력을 해볼 생각!
그 다음은 물론 알고리듬 개선.


[2011.3.28] 에또 오늘은 SAD에 filter weight를 붙여 보았다! 이 길을 먼저 개척하신 루이강 양 선생께서 Mipmap을 쓰는 것은 weighted filter와 equivalent하다고 말씀하셨기에...

 

precision은 모르겠지만 큰 윈도를 사용함으로써 accuracy는 확실히 나아졌다. WinSize=37

disparity map 속의 그녀는 누구일까요? 김현정이다.
VCR 영상에서만 DP처럼 streaking effect가 생기는데, 왜인지는 모르겠다는..