Skip to main content
Se clicares num link e fizeres uma compra, poderemos receber uma pequena comissão. Lê a nossa política editorial.

PrimeSense: Além do Natal

Digital Foundry encontra-se com o homem por detrás da câmara 3D.

Os dois homens do PrimeSense estão também muito ansiosos para salientar que, apesar da aquisição da Microsoft da 3DV, especialistas em câmaras time-of-flight, que já fizeram várias demonstrações jogáveis baseadas em câmaras 3D, todo o hardware de captura de vídeo e percepção de profundidade provem deles, e apenas deles.

“PrimeSense não é só o fornecedor da tecnologia 3D no Project Natal…é o único fornecedor,” disse orgulhosamente Aviad Maizels. “O Project Natal é muito mais do que um sensor 3D, mas a PrimeSense é a única companhia responsável pelo 3D.”

Contudo, enquanto a equipa está contente em receber os aplausos pela implementação da tecnologia no Natal, é interessante reparar que eles vêem a utilização do que eles chamam “PrimeSensor”, apenas uma pequena parte de todo o pacote.

"Para esclarecer as coisas, no princípio houve a aquisição 3D. Queremos levar um pouco de orgulho para nós, esta é a parte em que a PrimeSense desenvolveu, e no Natal, isto é PrimeSense: não existem outros”, disse Berenson.

“Mas o Natal é mais do que isso. Natal é conteúdo. Natal é processamento de software. Natal é sobre outras maneiras de interacção como a voz e por aí em diante. A Microsoft conseguiu por este vasto e caro ecossistema em seu redor, para tornar uma tecnologia ‘crua’ num produto. Natal é muito, muito mais amplo que o elemento PrimeSense, mas a PrimeSense é a aquisição elementar.”

Apesar da aquisição da 3DV e as suas tecnologias, PrimeSense está empenhada em apontar que a sua implementação do chamado "ZCam" é totalmente diferente do da 3DV, e todos os outros concorrentes, que contam com um sistema de análise de profundidade conhecido como “tempo de voo”.

“A PrimeSense está a usar tecnologia proprietária que chamamos Light Coding. É proprietária. Nenhuma companhia no mundo usa isso,” diz orgulhosamente Adi Berenson.

“A maioria dos nossos concorrentes estão a usar uma variedade de métodos que podem ser agregados numa técnica chamada “tempo de voo”...que pulsa uma luz e cronometra a diferença entre o pulso e a sua viagem de volta até ao sensor. A nossa metodologia não é nada como isso. O que a PrimeSense fez foi uma evolução em termos de sensores 3D. Usamos componentes padrão e o custo da solução global e o desempenho em termos de robustez, estabilidade e nenhuma lag encaixa bem nos dispositivos para o consumidor.”

Por outro lado, o Light Coding faz o que diz na lata: luz muito próxima ao infra-vermelho no espectro banha a cena. O que a PrimseSense chama “um sofisticado algoritmo paralelo computacional” decifra os dados do IR numa imagem com profundidade. A firma diz que esta solução, como a técnica “tempo de voo”, funciona em quaisquer condições de luminosidade.

“A parte da aquisição 3D no dispositivo Natal é baseada na nossa tecnologia, não na técnica tempo de voo”, re-afirma Inon Berach.

“Acreditamos que a selecção desta tecnologia para a primeira geração, é, pelo menos, um testemunho de que o nosso método patenteado é o que tem melhor preço/desempenho e o mais preparado para a produção. Fora isso, não vamos comentar de alguma forma as razões pelas quais a Microsoft também elegeu comprar os recursos duma companhia que seguia outra tecnologia.”

A referência no design da PrimeSense parece semelhante ao Project Natal, mas a esquemática da tecnologia (direita) revela alguma mudanças em relação ao design final da Microsoft.

A oferta da PrimeSense para potencias parceiros consiste numa referência de design para a câmara, que se conecta a um computador via USB 2.0, tal e qual como o kit Natal. A diferença é que esta referência de design incluí um SoC (System on Chip) dedicado, que traduz a informação do sensor IR num mapa de profundidade que está “registado” ou combinado numa base por-pixel com a imagem RGB que obtens da convencional câmara RGB. O resultado é uma imagem 640x480 onde cada pixel tem um componente de profundidade.

“Se olhares para ele do lado da captura, o hardware é baseado num sensor RGB CMOS e num sensor IR CMOS e numa fonte IR, tudo conectado ao PrimeSense IC ou SoC, que analisa os sinais e gera um sinal 3D RGBD,” explica Adi Berenson.

“RGBD significa profundidade mais imagem e cor, sincronizados no espaço e no tempo. Em adição, integramos a habilidade de capturar áudio, também sincronizado. O sinal de saída do hardware de captura é realmente quatro canais de áudio, e 3D RGBD. Tudo em sincronizado. Tudo é canalizado para o anfitrião, preparado para ser processado. Isso é o hardware de captura.”

O SoC também contém interfaces para a câmara RGB, conversores analógico para digital, mais o circuito USB requerido para conectar a câmara ao PC. O chip também contém alguma RAM flash, significando que o dispositivo pode ser actualizado com o firmware.

Isto é apoiado por um middleware chamado NITE, que é capaz de construir dados do esqueleto humano através de uma imagem, que possibilita o acompanhamento do movimento humano. Embora seja semelhante às demos tecnológicas do Natal, já vimos aonde o sistema é capaz de detectar esqueletos humanos individuais, as implementações são radicalmente diferentes. O envolvimento da PrimeSence começa com a câmara e acaba com criação de um mapa-profundidade para a imagem RGB.

Em termos das especificações da câmara de referencia, a informação de todo o conteúdo pode ser encontrado na tabela em baixo. Podes esperar que o Natal seja muito próximo a isto, embora esperemos que algumas das especificações aqui, são os casos nos melhores cenários – o Natal está confirmado a 30 FPS, então aqui a especificação a 60 FPS refere-se provavelmente a uma resolução mais baixa que a Microsoft não usa...semelhante à imagem RGB de tamanho 1600x1200. Com isso dito, no nosso artigo original no sistema, Kudo Tsunoda falou de múltiplas resoluções...

Propriedade Especificação
Campo de Visão (Horizontal, Vertical, Diagonal) 58° H, 45° V, 70° D
Profundidade do tamanho da imagem VGA (640x480)
Resolução espacial x/y ( a 2m de distância do sensor) 3mm
Profundidade da resolução z (a 2m de distância do sensor) 1cm
Rendimento máximo da imagem (frame-rate) 60FPS
Alcance da operação 0.8m to 3.5m
Tamanho de imagens a cores UXGA (1600x1200)
Áudio: microfones incorporados Dois
Áudio: entradas digitais Quatro
Interface dos dados/alimentação de energia USB 2.0
Consumo 2.25W
Dimensões 14cm x 3.5cm x 5cm
Ambientes da operação Fechado, todas as condições de iluminação
Temperatura ambiente 0°C - 40°C