7.6 Câmera LookAt

Câmera LookAt é o nome dado ao frame de câmera virtual ${P_{eye}, \hat{u}, \hat{v}, \hat{n}}$ construído a partir das seguintes informações:

Um ponto $P_{eye}$ que corresponde à posição da câmera no espaço do mundo;
Um ponto $P_{at}$ que corresponde à posição aonde a câmera está olhando, também no espaço do mundo²⁸.
Um vetor $v_{up}$ utilizado para indicar a direção “para cima” da câmera. Geralmente esse vetor é a direção $(0, 1, 0)$ .

A figura 7.25 ilustra esses elementos, incluindo os vetores ${\hat{u}, \hat{v}, \hat{n}}$ que formam a base ortonormal da câmera.

Figura 7.25: Frame da câmera, representado em relação ao mundo.

O sistema de coordenadas da câmera segue a regra da mão direita. Note que a câmera está olhando na direção $- \hat{n}$ no espaço do mundo, que corresponde à direção do eixo $z$ negativo da câmera.

Inicialmente, não temos a base ortonormal ${\hat{u}, \hat{v}, \hat{n}}$ . Só temos as seguintes informações (ilustradas na figura 7.26):

A posição da câmera, $P_{eye}$ ;
A posição para onde a câmera deve ser direcionada, $P_{at}$ ;
O vetor $v_{up}$ , que vamos considerar como sendo o vetor $(0, 1, 0)$ .

Figura 7.26: Parâmetros de uma câmera LookAt.

Através dessas informações construiremos a base ${\hat{u}, \hat{v}, \hat{n}}$ . Com a base e o ponto de referência ( $P_{eye}$ ) temos o frame completo para criar a matriz de visão $M_{view}$ . Como vimos anteriormente, a matriz de visão representa uma mudança de frame: do espaço do mundo para o espaço da câmera.

Construindo o vetor n

Para construir a base ortonormal, primeiro fazemos $P_{eye} - P_{at}$ para obter o vetor que aponta na direção contrária da direção de visão. Esse vetor é então normalizado para obter $\hat{n}$ (figura 7.27):

\hat{n} = \frac{P_{eye} - P_{at}}{| P_{eye} - P_{at} |} .

Figura 7.27: Construção do vetor n da câmera LookAt.

Note que $\hat{n}$ está sendo representado em coordenadas do espaço do mundo. Em relação à câmera, $\hat{n}$ torna-se o vetor $\hat{k} = (0, 0, 1)$ , isto é, a direção do eixo $z$ positivo da câmera (direção para trás da câmera).

Construindo o vetor u

Agora que temos $\hat{n}$ , o segundo passo é calcular o produto vetorial $v_{up} \times \hat{n}$ e normalizar o resultado. Com isso obtemos o vetor $\hat{u}$ perpendicular ao plano formado por $v_{up}$ e $\hat{n}$ (figura 7.28):

$\hat{u} = \frac{v_{up} \times \hat{n}}{| v_{up} \times \hat{n} |} .$

Figura 7.28: Construção do vetor u da câmera LookAt.

No frame da câmera, $\hat{u}$ corresponde ao vetor $\hat{i} = (1, 0, 0)$ , isto é, a direção do eixo $x$ da câmera (direção à direita).

Construindo o vetor v

Embora $\hat{u}$ seja perpendicular a $\hat{n}$ e a $v_{up}$ , ainda não temos uma base ortonormal pois $v_{up}$ não é necessariamente perpendicular a $\hat{n}$ . Na figura 7.28, $v_{up}$ e $\hat{n}$ formam um ângulo menor que $90^{\circ}$ .

Para obter um vetor que seja mutuamente ortogonal a $\hat{n}$ e $\hat{u}$ , basta calcularmos o produto vetorial $\hat{n} \times \hat{u}$ . O resultado é $\hat{v}$ (figura 7.29) que já está normalizado pois $\hat{n}$ e $\hat{u}$ também têm comprimento 1.

$\hat{v} = \hat{n} \times \hat{u} .$

Figura 7.29: Construção do vetor v da câmera LookAt.

Note que, em relação à câmera, $\hat{v}$ corresponde ao vetor $\hat{j} = (0, 1, 0)$ , isto é, o eixo $y$ da câmera (direção para cima).

Os vetores ${\hat{u}, \hat{v}, \hat{n}}$ formam a base ortonormal da câmera, representados em relação ao espaço do mundo.

Construindo a matriz de visão

Para a construção da matriz de mudança de frame, vamos relembrar primeiro a matriz de mudança de base.

A matriz com colunas formadas pelos vetores ${T (\hat{i}), T (\hat{j}), T (\hat{k})}$ representa uma mudança da base ${\hat{i}, \hat{j}, \hat{k}}$ para a base transformada. A transformação $T$ é uma composição de rotações (por exemplo, $R_{z} R_{y} R_{x}$ ), que tem o efeito de rodar a base original para a nova.

O que temos atualmente é a base ${\hat{u}, \hat{v}, \hat{n}}$ . Esses vetores estão representados em relação ao espaço do mundo. Se estivessem representados em relação ao espaço da câmera, a base seria ${\hat{i}, \hat{j}, \hat{k}}$ . Então, se construirmos a matriz $R$ de mudança de base,

$R = [\begin{matrix} u_{11} & v_{12} & n_{13} & 0 \\ u_{21} & v_{22} & n_{23} & 0 \\ u_{31} & v_{32} & n_{33} & 0 \\ 0 & 0 & 0 & 1 \end{matrix}],$ tal matriz representa a mudança do espaço da câmera para o espaço do mundo. Não é bem o que queremos. Gostaríamos da matriz que faz a transformação inversa, isto é, que converte coordenadas do mundo para a câmera. Entretanto, vamos prosseguir com $R$ da forma como está. Ao final poderemos calcular a matriz inversa da transformação completa, para finalmente obter $M_{view}$ .

Com a matriz $R$ , a base ${\hat{i}, \hat{j}, \hat{k}}$ no espaço da câmera é transformada por rotações para resultar na base ${\hat{u}, \hat{v}, \hat{n}}$ representada no espaço do mundo. Isso é ilustrado na figura 7.30.

Figura 7.30: Rotação da base representada no espaço da câmera, para a base representada no espaço do mundo.

Além da base, um frame também precisa de um ponto de referência. Esse ponto de referência é o próprio $P_{eye}$ , que representa a origem $O$ no espaço da câmera. $P_{eye}$ é o deslocamento necessário para mover a origem do espaço da câmera para sua posição no espaço do mundo. Em outras palavras, temos uma transformação de translação que pode ser representada pela matriz

$T = [\begin{matrix} 1 & 0 & 0 & P_{{eye}_{x}} \\ 0 & 1 & 0 & P_{{eye}_{y}} \\ 0 & 0 & 1 & P_{{eye}_{z}} \\ 0 & 0 & 0 & 1 \end{matrix}] .$

Fazendo a composição das transformações, temos

$M = T R$ $M = [\begin{matrix} 1 & 0 & 0 & P_{{eye}_{x}} \\ 0 & 1 & 0 & P_{{eye}_{y}} \\ 0 & 0 & 1 & P_{{eye}_{z}} \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} u_{11} & v_{12} & n_{13} & 0 \\ u_{21} & v_{22} & n_{23} & 0 \\ u_{31} & v_{32} & n_{33} & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] .$ A figura 7.31 ilustra como a matriz de transformação $M$ converte coordenadas do espaço da câmera para o espaço do mundo, que é o equivalente a rodar a base ${\hat{i}, \hat{j}, \hat{k}}$ para ${\hat{u}, \hat{v}, \hat{n}}$ (matriz de rotação $R$ ), e então transladar a origem $O$ para $P_{eye}$ (matriz de translação $T$ ).

Figura 7.31: Mudança do espaço da câmera para o espaço do mundo.

Para obter $M_{view}$ , basta calcularmos a inversa de $M$ . Lembre-se que a inversa de uma matriz de rotação é a sua transposta, e a inversa da translação por $P_{eye}$ é a translação por $- P_{eye}$ . Portanto,

$\begin{aligned} M_{view} & = M^{- 1} \\ = (T R)^{- 1} \\ = {([\begin{matrix} 1 & 0 & 0 & P_{{eye}_{x}} \\ 0 & 1 & 0 & P_{{eye}_{y}} \\ 0 & 0 & 1 & P_{{eye}_{z}} \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} u_{11} & v_{12} & n_{13} & 0 \\ u_{21} & v_{22} & n_{23} & 0 \\ u_{31} & v_{32} & n_{33} & 0 \\ 0 & 0 & 0 & 1 \end{matrix}])}^{- 1} \\ = {[\begin{matrix} u_{11} & v_{12} & n_{13} & 0 \\ u_{21} & v_{22} & n_{23} & 0 \\ u_{31} & v_{32} & n_{33} & 0 \\ 0 & 0 & 0 & 1 \end{matrix}]}^{- 1} {[\begin{matrix} 1 & 0 & 0 & P_{{eye}_{x}} \\ 0 & 1 & 0 & P_{{eye}_{y}} \\ 0 & 0 & 1 & P_{{eye}_{z}} \\ 0 & 0 & 0 & 1 \end{matrix}]}^{- 1} \\ = [\begin{matrix} u_{11} & u_{21} & u_{23} & 0 \\ v_{12} & v_{22} & v_{33} & 0 \\ n_{13} & v_{23} & n_{33} & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} 1 & 0 & 0 & - P_{{eye}_{x}} \\ 0 & 1 & 0 & - P_{{eye}_{y}} \\ 0 & 0 & 1 & - P_{{eye}_{z}} \\ 0 & 0 & 0 & 1 \end{matrix}] \\ = [\begin{matrix} u_{11} & u_{21} & u_{23} & - \hat{u} \cdot P_{eye} \\ v_{12} & v_{22} & v_{33} & - \hat{v} \cdot P_{eye} \\ n_{13} & v_{23} & n_{33} & - \hat{n} \cdot P_{eye} \\ 0 & 0 & 0 & 1 \end{matrix}] . \end{aligned}$

A biblioteca GLM possui a função glm::lookAt, definida em cabeçalho glm/gtc/matrix_transform.hpp:

glm::mat4 glm::lookAt(glm::vec3 const& eye, glm::vec3 const& center, glm::vec3 const& up);
glm::dmat4 glm::lookAt(glm::dvec3 const& eye, glm::dvec3 const& center, glm::dvec3 const& up);

glm::lookAt gera a matriz $M_{view}$ de uma câmera LookAt, dados os parâmetros $P_{eye}$ (eye), $P_{at}$ (center) e $v_{up}$ (up).

Internamente, a função chama glm::lookAtRH para gerar o frame baseado na regra da mão direita. O conteúdo dessa função é dado a seguir:

template<typename T, qualifier Q>
GLM_FUNC_QUALIFIER mat<4, 4, T, Q> lookAtRH(vec<3, T, Q> const& eye, vec<3, T, Q> const& center, vec<3, T, Q> const& up)
{
    vec<3, T, Q> const f(normalize(center - eye));
    vec<3, T, Q> const s(normalize(cross(f, up)));
    vec<3, T, Q> const u(cross(s, f));

    mat<4, 4, T, Q> Result(1);
    Result[0][0] = s.x;
    Result[1][0] = s.y;
    Result[2][0] = s.z;
    Result[0][1] = u.x;
    Result[1][1] = u.y;
    Result[2][1] = u.z;
    Result[0][2] =-f.x;
    Result[1][2] =-f.y;
    Result[2][2] =-f.z;
    Result[3][0] =-dot(s, eye);
    Result[3][1] =-dot(u, eye);
    Result[3][2] = dot(f, eye);
    return Result;
}

Na linha 4, f (vetor “forward”) é equivalente ao nosso $- \hat{n}$ .

Na linha 5, s (vetor “side”) é o nosso vetor $\hat{u}$ , calculado como $- \hat{n} \times v_{up}$ , que é o mesmo que $v_{up} \times \hat{n}$ , seguido de uma normalização.

Na linha 6, u é o nosso vetor $\hat{v}$ , calculado como $\hat{u} \times - \hat{n}$ , que é o mesmo que $\hat{n} \times \hat{u}$ .

Nas linhas 9 a 21 é montada a matriz Result, que é a matriz $M_{view}$ . Internamente, a GLM armazena as matrizes no formato column-major, o que significa que o primeiro índice é a coluna, e o segundo índice é a linha. Levando isso em consideração, observe que a matriz resultante é de fato:

$\begin{aligned} M_{view} & = [\begin{matrix} u_{11} & u_{21} & u_{23} & - \hat{u} \cdot P_{eye} \\ v_{12} & v_{22} & v_{33} & - \hat{v} \cdot P_{eye} \\ n_{13} & v_{23} & n_{33} & - \hat{n} \cdot P_{eye} \\ 0 & 0 & 0 & 1 \end{matrix}] . \end{aligned}$

O ponto “at” também é chamado de “center” ou “target.”↩︎