Técnicas de Registro de Imagens em Visão Computacional

Aplicações e Etapas do Registro de Imagens

O registro de imagens é amplamente empregado em áreas como sensoriamento remoto, imagens médicas e visão computacional. As aplicações podem ser categorizadas conforme o método de aquisição das imagens:

Múltiplas perspectivas: imagens da mesma cena capturadas de ângulos distintos, visando a expansão da visualização 2D ou a reconstrução 3D. Exemplos incluem a composição de mosaicos em sensoriamento remoto e a recuperação de formas em visão computacional.
Múltiplos tempos: imagens adquiridas em momentos diferentes, frequentemente sob condições variáveis, para analisar mudanças temporais. Aplicações abrangem monitoramento de uso do solo, detecção de alterações em segurança e acompanhamento de progressão tumoral em imagens médicas.
Múltiplos sensores: fusão de informações de sensores heterogêneos para uma representação mais detalhada da cena. No sensoriamento remoto, isso inclui a combinação de imagens pancromáticas com alta resolução espacial e imagens multiespectrais com melhor resolução espectral, ou imagens de radar imunes a nuvens e iluminação.
Registro cena-modelo: alinhamento de uma imagem com um modelo computacional da cena, como mapas GIS, modelos digitais de elevação (DEM) ou médias de espécimes. É usado para localizar imagens em modelos ou comparar dados em aplicações como correspondência de templates em visão computacional.

Devido à diversidade de imagens e degradações, não existe um método universal. Cada abordagem deve considerar deformações geométricas, distorções radiométricas, ruído, precisão requerida e características dos dados.

O processo geralmente envolve quatro etapas principais:

Detecção de características: identificação automática ou manual de elementos distintos, como bordas, cantos ou contornos, representados por pontos de controle (CP).
Correspondência de características: associação entre características da imagem de referência e da imagem sensoriada, utilizando descritores e métricas de similaridade.
Estimativa do modelo de transformação: cálculo dos parâmetros da função de mapeamento que alinha as imagens, baseado nas correspondências.
Reamostragem e transformação da imagem: aplicação da função de mapeamento à imagem sensoriada, usando técnicas de interpolação para coordenadas não inteiras.

Desafios incluem a escolha de características discriminativas e invariantes, robustez na correspondência sob variações de iluminação ou oclusão, seleção de modelos de transformação flexíveis, e equilíbrio entre precisão e complexidade computacional na reamostragem.

Métodos Tradicionais Baseados em Características

Desde o início dos anos 2000, o registro baseado em características tem predominado. Envolve três fases: detecção de pontos-chave e descrição de características, correspondência, e transformação da imagem. Basicamente, selecionam-se pontos de interesse nas imagens, associa-se pontos equivalentes entre referência e imagem sensoriada, e transforma-se a imagem sensoriada para alinhamento.

Detecção de Pontos-Chave e Descrição

Pontos-chave representam elementos importantes, como cantos ou bordas. Cada ponto é descrito por um vetor de características (descritor) robusto a transformações como escala, rotação e variações de brilho. Algoritmos comuns incluem:

SIFT: detector e descritor invariante a escala, orientação e mudanças de iluminação, embora com restrições de licença para uso comercial.
SURF: variante mais rápida do SIFT, também patenteada.
ORB: alternativa eficiente e livre, combinando detecção FAST com descritores BRIEF binários, robusta a rotação e ruído.
AKAZE: versão acelerada do KAZE, oferecendo detecção e descrição multi-escala em espaços de escala não lineares, com invariância a escala e rotação.

Esses algoritmos são acessíveis via OpenCV. A seguir, um exemplo usando AKAZE, com lógica modificada para clareza.

Carregar imagem e converter para escala de cinza

imagem_original = cv2.imread('foto.jpg') imagem_cinza = cv2.cvtColor(imagem_original, cv2.COLOR_BGR2GRAY)

Inicializar detector AKAZE e extrair características

detector = cv2.AKAZE_create() pontos_chave, vetores_descritores = detector.detectAndCompute(imagem_cinza, None)

Desenhar pontos-chave na imagem original

resultado = cv2.drawKeypoints(imagem_original, pontos_chave, None) cv2.imwrite('saida_pontos.jpg', resultado)


</div>### Correspondência de Características

Após detectar pontos-chave, associa-se pontos entre imagens. Utiliza-se o algoritmo BFMatcher.knnMatch para calcular distâncias entre descritores, retornando os k melhores correspondentes. Aplica-se um teste de razão para filtrar correspondências confiáveis.

<div>```
# Carregar imagens de referência e sensoriada
ref_img = cv2.imread('referencia.png', cv2.IMREAD_GRAYSCALE)
sensor_img = cv2.imread('sensoriada.png', cv2.IMREAD_GRAYSCALE)

# Extrair características com AKAZE
detector = cv2.AKAZE_create()
kp_ref, desc_ref = detector.detectAndCompute(ref_img, None)
kp_sensor, desc_sensor = detector.detectAndCompute(sensor_img, None)

# Correspondência com teste de razão
matcher = cv2.BFMatcher()
correspondencias = matcher.knnMatch(desc_ref, desc_sensor, k=2)
correspondencias_validas = []

for correspondencia, _ in correspondencias:
    if correspondencia.distance < 0.8 * _.distance:
        correspondencias_validas.append([correspondencia])

# Visualizar correspondências
imagem_correspondencias = cv2.drawMatchesKnn(ref_img, kp_ref, sensor_img, kp_sensor, correspondencias_validas, None)
cv2.imwrite('saida_correspondencias.jpg', imagem_correspondencias)

Com pelo menos quatro pares de pontos-chave correspondentes, calcula-se a homografia (transformação projetiva) para alinhar as imagens. Utiliza-se o algoritmo RANSAC para remover outliers e estimar a matriz de transformação.

Calcular homografia e aplicar transformação

matriz_homografia, mascara = cv2.findHomography(pontos_ref, pontos_sensor, cv2.RANSAC, 5.0) imagem_alinhada = cv2.warpPerspective(ref_img, matriz_homografia, (ref_img.shape[1] + sensor_img.shape[1], ref_img.shape[0])) cv2.imwrite('saida_alinhada.jpg', imagem_alinhada)


</div>Métodos de Aprendizado Profundo
-------------------------------

O aprendizado profundo tem revolucionado o registro de imagens, especialmente em tarefas como extração de características e estimativa direta de transformações.

### Extração de Características com Redes Neurais

Redes neurais convolucionais (CNNs) aprendem representações hierárquicas de características. Trabalhos como o de Dosovitskiy et al. (2014) propuseram métodos de extração genérica usando CNNs treinados não supervisionados, superando descritores como SIFT em correspondência. Abordagens subsequentes, como a de Yang et al. (2018), utilizam camadas pré-treinadas de redes VGG para gerar descritores robustos, particularmente úteis quando SIFT falha devido a outliers.

### Aprendizado de Homografias

Em vez de extração de características, redes neurais podem aprender diretamente transformações geométricas.

- **Aprendizado supervisionado**: modelos como o HomographyNet de DeTone et al. (2016) preveem parâmetros de homografia de forma end-to-end, treinados com perda euclidiana entre saídas e ground truth. Requer dados anotados, o que pode ser custoso em dados reais.
- **Aprendizado não supervisionado**: métodos como os de Nguyen et al. usam perda fotométrica para comparar imagens transformadas, eliminando a necessidade de rótulos. Introduzem camadas como transformação espacial, alcançando desempenho competitivo com maior robustez e veolcidade.

### Aprendizado por Reforço

Em aplicações médicas, o aprendizado por reforço otimiza parâmetros de deformação através de agentes treinados. Liao et al. (2016) aplicaram-no para transformações rígidas, enquanto Krebs et al. estenderam para deformações não rígidas em ressonância magnética, mostrando melhorias em registros 2D e 3D.

Transformações Complexas em Imagens Médicas
-------------------------------------------

Registros médicos frequentemente envolvem deformações não lineares, como distorções locais por respiração ou variações anatômicas, representadas por campos de deslocamento. Redes neurais são empregadas para estimar modelos complexos, como no DIRNet de De Vos et al. (2017), que prevê grades de pontos de controle para gerar campos de deslocamento, ou no Quicksilver, que usa redes encoder-decoder para deformação direta.

Tags: visão-computacional registro-de-imagens processamento-de-imagens aprendizado-profundo SIFT

Publicado em 6-3 16:47

Doido Dev