Quins són els principis de la visió artificial 3D? Principis de la visió artificial 3D? - Bloc

La visió 3D és un camp multidisciplinari que inclou gràfics per ordinador, visió per ordinador i intel·ligència artificial. El seu objectiu és permetre que les màquines entenguin i processin la informació a l'espai tridimensional, aconseguint la percepció, el reconeixement i la comprensió de la profunditat d'objectes i escenes.

Tasques principals

Reconstrucció 3D

Estimació de la profunditat d'escenes 3D o mostreig digital de superfícies d'objectes, així com processament i visualització de dades 3D; reconstrucció monocular, reconstrucció binocular, reconstrucció basada en llum-estructurada, reconstrucció basada-làser; reconstrucció 3D a gran-escala, reconstrucció 3D mòbil.

Estimació de la postura

Càlcul de la posició i l'orientació de càmeres o objectes a l'espai físic tridimensional i seguiment en temps real-.

Comprensió 3D

Detecció, reconeixement i recuperació d'objectes, així com segmentació i etiquetatge semàntic d'escenes o objectes.

Principis de treball

Les imatges de visió 3D són un dels mètodes més importants per a la percepció de la informació en robots industrials i es poden dividir en mètodes d'imatge òptics i no-. Actualment, els mètodes òptics són els més utilitzats.

Temps-de-Mètode de vol (TOF).

Aquest mètode calcula la distància a un objecte mesurant la diferència de temps entre l'emissió de llum i la recepció. Prenent com a exemple una càmera TOF, cada píxel utilitza la diferència de temps del vol lleuger per obtenir la profunditat de l'objecte. En els mètodes de mesura clàssics, el sistema detector comença a cronometrar quan emet un pols de llum, emmagatzema el temps d'anada i tornada-quan rep l'eco de la llum objectiu i estima la distància objectiu segons una fórmula.

Es divideix en TOF directe (DTOF) i TOF indirecte (I-TOF). DTOF s'utilitza habitualment en sistemes d'abast d'un sol-punt, i per aconseguir imatges 3D d'una àrea-ample sovint requereix tecnologia d'escaneig; I-TOF extrapola indirectament el temps del viatge d'anada i tornada a partir de mesures-de la intensitat de la llum amb control temporal, eliminant la necessitat d'un temps precís, i actualment és una solució comercialitzada per a mescladors electrònics i òptics basats en càmeres TOF. Les imatges TOF es poden utilitzar per a l'adquisició d'imatges en 3D de gran camp de visió, de llarga-distància, de baixa-precisió i de baix-cost, i s'utilitzen per a la percepció ambiental en sistemes no tripulats intel·ligents (com ara robots, vehicles no tripulats, drons, etc.).

Imatge 3D de projecció de llum estructurada

La projecció de llum estructurada La imatge en 3D és actualment el principal mètode per a la percepció de la visió 3D en robots. Un projector projecta un patró d'il·luminació de llum estructurada específic sobre l'objecte objectiu, com ara ratlles o patrons de codi gris, i una càmera captura la imatge modulada per l'objectiu. A causa de les ondulacions de la superfície de l'objecte, el patró de llum estructurat es deforma a la superfície de l'objecte. Mitjançant el processament d'imatges i l'ús de models visuals per comparar els patrons abans i després de la deformació, i analitzant la distorsió del patró, es pot calcular la informació de coordenades tridimensionals de cada punt de la superfície de l'objecte objectiu.

A les aplicacions de sistemes robòtics de mà-, per a escenaris en què no es requereix una gran precisió de mesura en 3D (com ara paletització, despaletització i agafada en 3D), el mètode de projectació de patrons de taques pseudo-aleatoris per obtenir informació 3D objectiu és força popular. Aquest mètode s'utilitza habitualment en la inspecció industrial i el modelatge 3D, i pot obtenir ràpidament dades 3D de la superfície de l'objecte. Un sistema d'imatge de llum estructurada consta de diversos projectors i càmeres. Les formes estructurals habituals inclouen: projector únic-càmera única, projector únic-càmera dual, projector únic-càmeres múltiples, projector d'una sola càmera-doble i projectors d'una sola càmera-múltiples.

El principi bàsic de funcionament de la imatge 3D de projecció de llum estructurada és el següent: el projector projecta un patró d'il·luminació de llum estructurada específica sobre l'objecte objectiu, la càmera captura la imatge modulada per l'objectiu i, a continuació, la informació 3D de l'objecte objectiu s'obté mitjançant el processament d'imatges i models visuals. Els tipus comuns de projectors inclouen: pantalla de cristall líquid (LCD), projecció de modulació de llum digital (DLP: com ara dispositius de micromirall digital (DMD)) i projecció directa de patró làser LED.

En funció del nombre de projeccions de llum estructurada, les imatges 3D de projecció de llum estructurada es poden dividir en mètodes 3D d'un sol-plan-i 3D de diversos-trets. La llum estructurada de-un sol tir utilitza principalment la codificació de multiplexació espacial i la codificació de multiplexació de freqüència. Les formes de codificació habituals inclouen: codificació de colors, indexació en escala de grisos, codificació de formes geomètriques i patrons de taques aleatoris. Actualment, a les aplicacions de sistemes d'ull-man robòtic, per a escenaris on no es requereix una gran precisió de mesura en 3D, com ara paletització, despaletització i agafada en 3D, s'utilitza àmpliament el mètode de projectació de patrons pseudo-atzars per obtenir informació 3D objectiu.

Els mètodes 3D de multi-tiro utilitzen principalment la codificació-de multiplexació temporal. Les formes de codificació de patrons més habituals inclouen: codificació binària, codificació de canvi de fase multi{-freqüència-i mètodes de codificació híbrids (com ara el codi Gray i les franges de canvi de fase-). El principi bàsic de la imatge 3D de llum estructurada es mostra a la figura següent. Es genera un patró de llum estructurat mitjançant un ordinador o un dispositiu òptic especial, i després es projecta a la superfície de l'objecte a prova mitjançant un sistema de projecció òptica. S'utilitza un dispositiu d'adquisició d'imatges (com ara una càmera CCD o CMOS) per capturar la imatge de llum estructurada modulada i deformada per la superfície de l'objecte. A continuació, s'utilitzen algorismes de processament d'imatges per calcular la correspondència entre cada píxel de la imatge i els punts del contorn de l'objecte. Finalment, la informació del contorn tridimensional de l'objecte es calcula mitjançant el model d'estructura del sistema i la seva tecnologia de calibratge. En aplicacions pràctiques, s'utilitzen habitualment la projecció de codi Gray, la projecció de franges de canvi de fase-sinusoïdal o un codi Gray híbrid i la tecnologia 3D de canvi de fase-sinusoïdal.

Per a superfícies rugoses, la llum estructurada es pot projectar directament sobre la superfície de l'objecte per mesurar la imatge visual; tanmateix, per a la mesura en 3D de superfícies llises altament reflectants i objectes miralls, la projecció de llum estructurada no es pot projectar directament sobre la superfície a prova, i la mesura en 3D requereix l'ús de tècniques de reflexió especular.

En aquest esquema, els serrells no es projecten directament sobre el contorn de l'objecte a prova, sinó més aviat sobre una pantalla de dispersió, o s'utilitza una pantalla de cristall líquid (LCD) per mostrar directament els serrells. La càmera adquireix la informació de la franja modulada pels canvis de curvatura de la superfície brillant a través del recorregut de la llum reflectida i després calcula la morfologia del contorn tridimensional.

Escaneig d'imatges 3D

Els mètodes d'escaneig d'imatges 3D es poden dividir en mètodes d'escaneig, triangulació activa i mètodes confocals cromàtics. L'escaneig d'abast utilitza un feix de llum col·limat per escanejar tota la superfície objectiu per mesurar-lo en 3D. Els mètodes típics d'escaneig de distància inclouen: mètodes de vol-punt únic-de-, com ara la modulació de freqüència d'ona contínua (FM-CW) i la mesura de pols (LiDAR); interferometria de dispersió làser, com ara interferòmetres basats en interferències de longitud d'ona múltiple, interferències hologràfiques, interferències de llum blanca i principis d'interferència de taques; i mètodes confocals, com el confocal cromàtic i l'enfocament automàtic.

En els mètodes d'escaneig 3D d'un sol -punt, el mètode d'un sol-punt de temps--de vol és adequat per a l'escaneig de llarga-distància, però la precisió de la mesura és relativament baixa, generalment en un rang mil·límetre. Altres mètodes d'exploració d'un sol-punt inclouen la interferometria làser-de punt únic, la microscòpia confocal i la triangulació làser activa d'un sol-punt. Aquests mètodes ofereixen una alta precisió de mesura, però el primer requereix un entorn controlat. L'escaneig de línies ofereix una precisió moderada i una alta eficiència. La triangulació làser activa i la microscòpia confocal cromàtica són especialment adequades per a la mesura en 3D a l'efector final d'un braç robòtic. La triangulació activa es basa en el principi de la triangulació, utilitzant un feix col·limat o un o més feixos planars per escanejar la superfície objectiu per mesurar-lo en 3D.

El feix de llum normalment s'obté de les maneres següents: col·limació làser, expansió del feix prismàtic de superfície cilíndrica o quàdrica, llum no-coherent (com ara llum blanca, font de llum LED) projectada a través de petits forats, escletxes (reixes) o difracció de llum coherent. La triangulació activa es pot dividir en tres tipus: exploració d'un sol-punt, exploració d'una-línia i exploració de diverses-línies. Actualment, la majoria de productes disponibles comercialment per a efectes d'extrem de braç robòtic són escàners d'un sol-punt i d'una-línia.

En els mètodes d'escaneig multi-línia, la identificació fiable dels números marginals és un repte. Per identificar amb precisió els números de franges, se solen capturar dos conjunts de plans de llum perpendiculars a alta velocitat en alternança. Això també permet l'exploració "Triangulació voladora", el procés d'escaneig i reconstrucció 3D del qual es mostra a la figura següent. La projecció multi-línia i les imatges de flaix-únics produeixen una vista en 3D escassa. Es generen diverses seqüències de vistes en 3D mitjançant l'escaneig de projecció de franges longitudinals i transversals, i després es genera un model de superfície en 3D complet i dens d'alta resolució- mitjançant el registre d'imatges en 3D.

La microscòpia confocal cromàtica sembla capaç d'escanejar i mesurar objectes opacs i transparents rugosos i llisos, com ara superfícies reflectants i superfícies de vidre transparent, i actualment s'utilitza àmpliament en camps com la inspecció 3D de cobertes de telèfons mòbils. L'exploració confocal cromàtica té tres tipus: exploració de mesura de distància absoluta d'un-punt-una dimensió, exploració de matrius de diversos-punts i exploració de línies contínues. La figura següent mostra exemples de mesurament de distància absoluta i exploració de línies contínues. L'exploració de línies contínues també és un tipus d'exploració de matrius, però amb una matriu de punts més gran i densa.

Imatge 3D de visió estèreo

La visió estèreo es refereix generalment a reconstruir l'estructura 3D o la informació de profunditat d'un objecte objectiu mitjançant l'adquisició de dues o més imatges des de diferents punts de vista. Els senyals visuals de percepció de profunditat es poden dividir en senyals oculars i senyals binoculars (disparitat binocular). Actualment, la visió estèreo 3D es pot aconseguir mitjançant la visió monocular, la visió binocular, la visió multi-visió i la imatge en 3D de camp de llum (ull compost electrònic o càmera matriu). Els senyals de percepció de la profunditat de la visió monocular solen incloure: perspectiva, diferències de distància focal, imatges multi-vista, oclusió, ombres, paral·laxi de moviment, etc.

En visió robòtica, també es pot aconseguir mitjançant imatges miralls i altres mètodes de -forma-X. Els senyals visuals de percepció de la profunditat de la visió binocular inclouen: posició de convergència dels ulls i disparitat binocular. En visió artificial, s'utilitzen dues càmeres per adquirir dues imatges de punts de vista de la mateixa escena objectiu des de dos punts de vista, i després es calcula la disparitat dels punts corresponents a les dues imatges de punts de vista per obtenir la informació de profunditat 3D de l'escena objectiu. Un procés típic de càlcul de visió estèreo binocular inclou els quatre passos següents: correcció de la distorsió de la imatge, rectificació del parell d'imatges estèreo, registre d'imatges i càlcul del mapa de disparitat de la reprojecció de la triangulació.

La imatge de visió multi-vista o imatge estèreo de visualització múltiple-, utilitza una o diverses càmeres per adquirir diverses imatges de la mateixa escena objectiu des de diversos punts de vista per reconstruir la informació tridimensional de l'escena objectiu.

La imatge estèreo de visualització múltiple-s'utilitza principalment en els escenaris següents: utilitzar diverses càmeres des de diferents punts de vista per adquirir diverses imatges de la mateixa escena objectiu, i després utilitzar reconstrucció estèreo basada en funcions-i altres algorismes per obtenir informació sobre la profunditat de l'escena i l'estructura espacial; utilitzant la tècnica de l'estructura-a partir de-moviment (SFM), utilitzant la mateixa càmera amb els seus paràmetres intrínsecs sense canvis, per adquirir múltiples imatges des de diferents punts de vista per reconstruir la informació tri-dimensional de l'escena objectiu. Aquesta tecnologia s'utilitza habitualment per fer un seguiment d'un gran nombre de punts de control en una escena objectiu, recuperant contínuament la informació estructural en 3D de l'escena, així com la postura i la posició de la càmera. La imatge del camp de llum difereix dels principis tradicionals de la imatge de la càmera. Les càmeres tradicionals formen una imatge 2D directament al pla d'imatge després que la llum travessa la lent.

Les càmeres de camp de llum afegeixen una matriu de microlents davant del pla del sensor. La llum incident a través de la lent principal torna a passar per cada microlent i és rebuda per la matriu fotosensible, obtenint així informació sobre la direcció i la posició dels raigs de llum. Això permet que els resultats de la imatge es processin més tard, aconseguint un efecte "dispara primer, enfoca després" i permet recuperar l'estructura tridimensional de l'escena amb aquesta informació. En camps com la realitat virtual i la realitat augmentada, la tecnologia d'imatge de camp de llum ajuda a oferir una experiència visual més realista i permet una percepció i una interacció tridimensionals més precises amb l'escena.

El principi de la imatge 3D del camp de llum difereix estructuralment dels principis d'imatge de les càmeres tradicionals CCD i CMOS. Les càmeres tradicionals mostren la llum directament al pla d'imatge després de passar per la lent, produint generalment una imatge 2D. Les càmeres de camp de llum afegeixen una matriu de microlents davant del pla del sensor, fent que la llum incident a través de la lent principal torni a passar per cada microlent i sigui rebuda per la matriu fotosensible, obtenint així informació sobre la direcció i la posició dels raigs de llum. Això permet el post-processament dels resultats d'imatge, aconseguint un efecte "dispara primer, enfoca després".