Informática, Tecnoloxía da información

Visión por ordenador moderno. Tarefas e tecnoloxía de visión por ordenador. Programación Computer Vision en Python

Como ensinar un ordenador para entender o que é retratado na imaxe ou imaxes? Isto parece sinxelo, pero para un ordenador isto é só unha matriz composta de ceros e uns partir do cal quere extraer información importante.

Cal é a visión de ordenador? É a capacidade de "ver" o seu ordenador

Vision - é unha importante fonte de información para a persoa a usalo, obtén-se, segundo varias estimacións, de 70 a 90% de toda a información. E, por suposto, se quere crear un coche intelixente, cómpre aplicar as mesmas habilidades e equipo.

O problema da visión de ordenador pode ser indicado claramente. Que é "ver"? Enténdese que onde hai só mirando. Que rematou as diferenzas de visión computacional e visión humana. Visión para nós - é unha fonte de coñecemento sobre o mundo, así como unha fonte de información métrica - é dicir, a capacidade de entender as distancias e tamaños.

imaxe do núcleo semántica

Mirando para a imaxe, podemos describilo-lo por unha serie de atributos, por así dicir, para extraer información semántica.

Por exemplo, ollar para esta imaxe, podemos dicir que é ao aire libre. Cal é o tráfico da cidade. Que hai coches. podemos supoñer que este é o sueste asiático na configuración do edificio e hieróglifos. O retrato de Mao Zedong entender que este é Pequín, e se alguén viu o vídeo en directo ou mesmo estivera alí, diría que esta é a famosa Praza Tiananmen.

Que podemos dicir máis sobre a imaxe, velo? Podemos identificar obxectos na imaxe, é dicir, que hai xente aquí preto - preto. Aquí paraugas, carteis que do edificio. Estes son exemplos de clases e obxectos moi importantes, que están implicados en investigación para o momento.

Aínda podemos aprender algunhas das características ou atributos de obxectos. Por exemplo, aquí podemos determinar que este non é un retrato dun chinés común, é dicir, Mao Zedong.

Segundo o vehículo pode ser determinado que é un obxecto en movemento, e é difícil, que non se deforma durante o movemento. Sobre bandeiras pódese dicir que os obxectos, eles tamén están movendo, pero eles non son difíciles, constantemente deformada. E na escena hai vento, que pode ser determinado a través do desenvolvemento de bandeiras, e pode incluso determinar a dirección do vento, por exemplo, está soprando de esquerda a dereita.

As distancias e lonxitudes en visión por ordenador

Moi importante é a información métrica sobre a ciencia de visión computacional. Este é todo tipo de distancias. Por exemplo, para o rover é especialmente importante porque os equipos son da Terra ao redor de 20 minutos e responde tanto. Así, a conexión de ida e volta - 40 minutos. E se facemos un plan para ordes de movemento da terra, ten que ter en conta.

Integrados con éxito a tecnoloxía de visión por ordenador en videoxogos. Segundo o vídeo, pode construír modelos tridimensionais de obxectos, persoas e fotos sobre o usuario pode restaurar os modelos tridimensionais de cidades. E despois camiñar sobre eles.

visión computacional - xa ampla gama. Ela está moi entrelazada con varias outras ciencias. Parte da visión de ordenador El captura área de procesado de imaxe e, por veces, aloca visión computacional, historicamente.

Análise, recoñecemento de patróns - o camiño para a creación dunha intelixencia superior

Imos examinar estes conceptos por separado.

Procesamento de imaxe - esta é unha área de algoritmos, en que a entrada e saída - imaxe, e telo facer algo.

análise de imaxe - é a área de visión computacional, que se concentran en traballar coa imaxe bidimensional e sacar conclusións a partir deste.

Recoñecemento de Patróns - unha disciplina matemática abstracta que recoñece os datos en forma de vectores. É dicir, na entrada - vector e temos algo que ver con iso. Onde o vector é, non somos tan importante saber.

visión computacional - que orixinalmente era para restaurar a estrutura das imaxes bidimensionais. Hoxe, esta área tornouse máis ampla e pode ser interpretado como a aceptación de todos os obxectos físicos que fan, con base na imaxe. É dicir, é a tarefa da intelixencia artificial.

En paralelo coa visión de ordenador en un campo totalmente diferente, en Xeodesia, Fotogrametría ten evolucionado - unha medida da distancia entre obxectos en imaxes bidimensionais.

Os robots poden "ver"

E finalmente - esta é a visión de máquina. Baixo a visión de máquina significa unha visión de robots. Esa é a decisión de problemas de produción. Podemos dicir que a visión computacional - é unha gran ciencia. El combina algúns doutra ciencia. E cando a visión de ordenador reciben unha aplicación particular, que se transforma nunha visión de máquina.

rexión visión de ordenador ten unha masa de aplicacións prácticas. Ela está asociada coa automatización da produción. Nas empresas tórnanse máis eficiente para substituír o traballo manual por máquinas. A máquina non se cansa, non durmir, non horario de traballo irregular, está disposto a traballar 365 días ao ano. Así, a través da máquina traballar, podemos obter un resultado garantido nun determinado momento, e é moi interesante. Todas as tarefas teñen un uso claro para sistemas de visión computacional. E non hai nada mellor que ver os resultados inmediatamente na imaxe só na fase de cálculo.

No limiar do mundo da intelixencia artificial

Ademais, a área - é difícil! Unha parte significativa do cerebro responsable da visión, e crese que se ensinar o seu ordenador para "ver", isto é, a visión completa do uso do ordenador, é un dos obxectivos da intelixencia artificial plena. Se podemos resolver o problema no nivel humano, moi probablemente, á vez, imos resolver o problema de AI. Isto é moi bo! Ou non é moi bo, se ollar, "Terminator 2".

Por que é a visión - é difícil? Xa que a imaxe do mesmo obxecto pode variar moito, dependendo de factores externos. Dependendo do obxecto de puntos de observación ollar diferente.

Por exemplo, unha ea mesma figura, tomadas de diferentes ángulos. E o que é máis interesante na figura pode ser un ollo, dous ollos e medio. E, dependendo do contexto (se esa imaxe de home de camisa con ollos pintados), o ollo pode ter máis que dous.

O ordenador non entende, pero "ve"

Outro factor que fai difícil - é a iluminación. A mesma escena con iluminación diferente será diferente. o tamaño do obxecto poden variar. Ademais, os obxectos de calquera clase. Como pode dicir sobre un home que a súa altura de 2 metros? Nada. de crecemento humano e pode ser de 2,3 m, e 80 cm. Igual que outros tipos de obxectos, con todo, son obxectos da mesma clase.

obxectos de vida particularmente sometidos a unha variedade de cepas. Pelo persoas, deportistas, animais. Mirar fotos de cabalos correndo, determinar o que está a suceder co seu crina e rabo é simplemente imposible. A obxectos sobrepostos nunha imaxe? Se enfiar unha imaxe de ordenador, mesmo a máquina máis potente atopar dificultade para dar a decisión correcta.

Seguinte View - é un disfrace. Algúns obxectos, animais que aparece como o medio ambiente, e moi habilmente. E os mesmos puntos e cor. Con todo, podemos velos, aínda que non sempre de lonxe.

Outro problema - o movemento. Obxectos en movemento inimaxinable sufrir deformación.

Moitos dos obxectos son moi variables. Aquí, por exemplo, nas dúas fotos de embaixo os obxectos da "materia".

E sobre iso, pode sentir-se. Pero para ensinar unha máquina, de xeito que as cousas diferentes na forma, cor, material, todo é unha "materia" obxecto - é moi difícil. Este é o reto. Para integrar métodos de visión computacional - é ensinar unha máquina para comprender, analizar, especular.

Integración de visión computacional en diversas plataformas

A masa de visión computacional comezou a penetrar máis en 2001, cando creou o primeiro detector de cara. Fixemos isto dous autores: Viola, Jones. Foi o primeiro algoritmo moi rápido e fiable, que demostrou o poder de métodos de aprendizaxe de máquina.

Agora visión por ordenador teñen novas aplicacións prácticas abondo - o recoñecemento da cara humana.

Pero para recoñecer o home como nas películas - en ángulos aleatorios, diferentes condicións de iluminación - é imposible. Pero para resolver o problema, ou un que é xente diferentes con iluminación diferente ou nunha pose diferente, similar como na fotografía no pasaporte, é posible, cun alto grao de confianza.

un requisitos de pasaporte de fotografías en gran parte debido á característica dos algoritmos de recoñecemento de cara.

Por exemplo, se ten un pasaporte biométrico, nalgúns aeroportos modernos, pode utilizar o sistema de control de pasaporte automático.

problema non resolto da visión de ordenador - a capacidade de recoñecer calquera texto

Quizais alguén usou o sistema OCR. Unha delas - a Fine Reader, é moi popular no sistema Runet. Hai moitas formas en que cubrir os datos, son perfectamente dixitalizados, as informacións son recoñecidas polo sistema moi ben. Pero con calquera texto na imaxe a situación é moito peor. Este problema aínda permanece sen solución.

Xogos inclúen visión de ordenador, captura de movemento

Separar gran área - é a creación de modelos tridimensionais e captura de movemento (que é aplicado con éxito en xogos de ordenador). O primeiro programa, que usa a visión de ordenador - un sistema de interacción co ordenador a través de xestos. Cando se creou, era unha morea de cousas abertas.

O algoritmo deseñado moi simplemente, pero para configurar que levou a crear un xerador de imaxes sintéticas de persoas para obter un millón de fotos. Supercomputador con eles para escoller os parámetros do algoritmo, para o que agora funciona ben.

Isto é un millón de imaxes e semana tempo supercomputador contable puido crear un algoritmo que consome o 12% da capacidade dun procesador e permite que unha persoa a percibir a posición en tempo real. Este sistema Microsoft Kinect (2010).

Procura de imaxes por contido permite subir fotos para o sistema, e os resultados que dará todas as imaxes co mesmo contido e faise a partir do mesmo ángulo.

Exemplos de visión computacional: tridimensionais e mapas bidimensionais están sendo feitos con el. Maps para coches de navegación son regularmente actualizados de acordo co DVR.

Hai unha base de datos con miles de millóns de fotografías georreferenciadas. Ao baixar a imaxe na base de datos, pode determinar onde se fixo, e mesmo con algunha perspectiva. Por suposto, sempre que o local é popular o suficiente para que dunha vez os turistas e fixo unha serie de fotos da área ter estado alí.

robots están en todas partes

Robótica no momento presente, en todas as partes, sen que de calquera forma. Agora, hai vehículos que posúen cámaras especiais que recoñecen os peóns e sinais de tráfico para transmitir comandos para o controlador (isto dun xeito un programa de ordenador para ver, axuda o condutor). E hai unha vehículos robóticos totalmente automática, pero eles non poden depender só do sistema de cámara de vídeo sen o uso de unha gran cantidade de información.

Cámara moderna - esta é unha cámara escura analóxico

Imos falar sobre a imaxe dixital. As cámaras dixitais modernas son dispostas no principio da cámara escura. Só no canto do furado a través do cal a luz entra no feixe e proxectado sobre a parede de atrás da cámara de circuíto do suxeito, que ten un sistema óptico especial chamado o lento. Ten por obxecto a recoller un gran feixe de luz e convertelo lo de xeito que todos os raios pasados a través dun punto virtual a fin de obter a proxección e formar unha imaxe en película ou matriz.

As cámaras dixitais modernas (matriz) está composto por elementos individuais - píxeles. Cada pixel pode medir a enerxía da luz que incide sobre o total pixel, e emitir un número de saída. Polo tanto, nunha cámara dixital, temos en vez das medicións conxunto de luz brillo da imaxe, capturados nun único pixel - ordenador campo de visión. Polo tanto, cando a imaxe que vemos non está fluíndo liñas e contornos claros, e unha reixa de cadrados de cores en cores diferentes - píxeles.

Abaixo ve a primeira imaxe dixital do mundo.

Pero neste cadro non é? Cor. Cal é a cor?

percepción psicolóxica da cor

Memoria - isto é o que vemos. A cor dun e o mesmo para os seres humanos e gatos será diferente. Dende que nós (humanos) e sistema óptico animais - a visión é diferente. Polo tanto, a cor - é calidade psicolóxica da nosa visión que ocorre cando observar obxectos e luz. E non unha propiedade física do obxecto ea luz. Cor - é o resultado da interacción de compoñentes lixeiros, ea escena do noso sistema visual.

Programación Computer Vision en Python usando bibliotecas

Se decidiu empeñarse seriamente no estudo da visión de ordenador, debe preparar inmediatamente a unha serie de dificultades, esta ciencia non é o máis fácil e esconde unha serie de trampas. Pero "Programación Computer Vision no Python" da autoría de Xan Erik Solema - un libro que describe toda a linguaxe máis simple. Aquí vai familiarizado cos métodos de recoñecemento de varios obxectos en 3D, aprender a traballar coa imaxe estéreo, realidade virtual e moitas outras aplicacións de visión computacional. No libro son exemplos suficientes en Python. Pero as explicacións son presentados, por así dicir, xeneralizada, para non sobrecargar demasiado investigacións e datos concretos. Traballo adecuado para estudantes, afeccionados e entusiastas. Descargar este libro e outros sobre a visión de ordenador (formato pdf) pode estar na rede.

Polo momento, hai biblioteca de código aberto de algoritmos de visión computacional e procesamento de imaxe e algoritmos numéricos OpenCV. El é aplicado na maioría das linguaxes de programación modernas, é de código aberto. Si falamos de visión computacional, Python utiliza como linguaxe de programación, el tamén ten o apoio da biblioteca, ademais, está en constante evolución e ten unha gran comunidade.

A empresa "Microsoft" presta os seus servizos API-poder adestrar a rede neuronal para traballar con imaxes de persoas. Hai tamén a posibilidade de aplicar a visión de ordenador, Python utiliza como linguaxe de programación.

Informática, Tecnoloxía da información

Visión por ordenador moderno. Tarefas e tecnoloxía de visión por ordenador. Programación Computer Vision en Python

Cal é a visión de ordenador? É a capacidade de "ver" o seu ordenador

imaxe do núcleo semántica

As distancias e lonxitudes en visión por ordenador

Análise, recoñecemento de patróns - o camiño para a creación dunha intelixencia superior

Os robots poden "ver"

No limiar do mundo da intelixencia artificial

O ordenador non entende, pero "ve"

Integración de visión computacional en diversas plataformas

problema non resolto da visión de ordenador - a capacidade de recoñecer calquera texto

Xogos inclúen visión de ordenador, captura de movemento

robots están en todas partes

Cámara moderna - esta é unha cámara escura analóxico

percepción psicolóxica da cor

Programación Computer Vision en Python usando bibliotecas

Similar articles

Informática

Informática

Informática

Informática

Informática

Informática

Trending Now

Casa e familia

Negocio

Coches

Artes e entretementos

Saúde

Lei

Newest

Coches

Saúde

Beleza

Novas e Sociedade

Casa e familia

Saúde