Principales tecnologías de aprendizaje profundo y sus aplicaciones empresariales

El campo de la visión por ordenador ha experimentado un importante impulso desde que la IA introdujo las redes neuronales profundas y, en particular, las redes neuronales convolucionales (CNN). Aunque las CNN se inventaron hace tiempo (en 1968), todo su potencial permaneció oculto hasta hace poco. El desarrollo de ordenadores computacionalmente potentes permitió experimentar con las CNN y aprovechar su valor real.

En 2012, Alex Krizhevsky diseñó una CNN llamada AlexNet que se entrenó utilizando un conjunto de datos de imágenes a gran escala (ImageNet) y se ejecutó utilizando la GPU. Los resultados fueron tan prometedores que, desde entonces, el campo de la visión por ordenador ha sido tomado por la investigación de las redes neuronales profundas. De hecho, cada año se presentan muchas arquitecturas de CNN nuevas y el aprendizaje profundo se ha convertido en una palabra de moda.

Dado que la creación de una arquitectura de CNN que tenga un buen rendimiento no es un problema trivial, sino que requiere conocimientos científicos adecuados, los avances que se han producido en los últimos años demuestran la importancia de esta tecnología.

En particular, problemas de visión por ordenador como el etiquetado de imágenes, la detección de objetos y la generación de imágenes han mejorado enormemente gracias a las redes neuronales convolucionales. En primer lugar, este nuevo enfoque eliminó la necesidad de diseñar las características que se utilizaban antes para resolver esos problemas. En segundo lugar, los resultados obtenidos con las redes neuronales profundas superaron a las técnicas antiguas.

Así pues, echemos un vistazo a las tecnologías más comunes que son impulsadas por las CNN.

  1. Etiquetado de imágenes
  2. Búsqueda inversa de imágenes
  3. Subtitulado de imágenes
  4. Detección de objetos
  5. Segmentación de imágenes / Segmentación semántica
  6. Desenmascaramiento de imágenes
  7. Generación de imágenes

1. Etiquetado de imágenes

Qué es

El etiquetado de imágenes es una tecnología basada en CNN que permite a un ordenador asignar una categoría a una imagen.

Cuándo utilizarlo

El etiquetado de imágenes puede utilizarse con conjuntos de datos no estructurados para estructurarlos realmente.

Cómo funciona

  • Proporcionamos datos de entrada en forma de lotes de imágenes en la primera capa convolucional.
  • Una capa convolucional realiza una correlación cruzada para encontrar las neuronas (características) que son más importantes para identificar la categoría a la que pertenece una imagen.
  • Una capa de agrupación (submuestreo) reduce el número de neuronas producidas en la capa convolucional anterior, para evitar la memorización y los sesgos. Esto ayuda a que el modelo sea más robusto, de modo que funcione con precisión en datos no vistos.
  • Dependiendo de la arquitectura de las CNN, es posible que tengamos que repetir dos procesos anteriores varias veces.
  • Por último, tenemos una capa totalmente conectada. Conecta cada neurona con todas las demás para producir predicciones.
  • El resultado es la probabilidad de que una imagen pertenezca a cada categoría de nuestro conjunto de datos.

Casos de uso empresarial

Las empresas que buscan organizar sus enormes conjuntos de datos en categorías significativas para ellas pueden aprovechar esta tecnología. Sus aplicaciones son extensas, desde la identificación de defectos en una línea de productos hasta el diagnóstico de enfermedades a partir de resonancias magnéticas. Otro ejemplo es aplicar el etiquetado de imágenes para mejorar el descubrimiento de productos. Las plataformas de gestión de contenidos, como ProcessMaker IDP, aprovechan la visión artificial para agilizar el etiquetado de grandes conjuntos de datos visuales para las empresas minoristas.

2. Búsqueda inversa de imágenes

Qué es

La búsqueda inversa de imágenes es un método para extraer las representaciones de las imágenes utilizando CNNs y compararlas entre sí para encontrar imágenes conceptualmente similares.

Cuándo utilizarlo

La búsqueda inversa de imágenes se utiliza para encontrar imágenes similares en un espacio de datos no estructurado.

Cómo funciona

La búsqueda inversa de imágenes extrae las representaciones de la imagen de la última capa convolucional de la red neuronal. A continuación, estas representaciones se comparan entre sí utilizando algunas métricas de distancia.

Casos de uso empresarial

La búsqueda inversa de imágenes es la forma más sencilla de agrupar conjuntos de imágenes rápidas en categorías conceptualmente "correctas". Además, puede considerarse una forma de agrupar las imágenes.

3. Subtitulado de imágenes

Qué es

El subtitulado de imágenes permite a los ordenadores generar descripciones de imágenes.

Cuándo utilizarlo

El subtitulado de imágenes se puede utilizar cuando nos interesa representar el contenido de la imagen con palabras.

Cómo funciona

El subtitulado de imágenes puede concebirse en el marco del codificador-decodificador. En primer lugar, se extraen las incrustaciones de la imagen utilizando CNN preentrenadas (paso de codificación) y, a continuación, las incrustaciones se utilizan como entrada para las redes de memoria a largo plazo (LSTM, un tipo de red neuronal que puede procesar secuencias de datos y, por tanto, se utiliza para conjuntos de datos de texto) que aprenden a decodificar las incrustaciones en texto.

  • Una imagen se introduce en las CNN para extraer mapas de características que son representaciones abstractas de la imagen.
  • La LSTM utiliza entonces estos mapas de características para producir la distribución de palabras dada la entrada. La LSTM muestrea entonces la siguiente palabra de la distribución y el proceso se repite hasta que el pie de foto está listo.
  • Es importante destacar en este punto que estos diferentes mapas de características nos proporcionan los puntos de interés en la imagen (es decir, la atención).

Casos de uso empresarial

El subtitulado de imágenes puede utilizarse en los sistemas de asistencia a ciegos, los sistemas de generación de metadatos de imágenes y la robótica.

4. Detección de objetos

Qué es

La detección de objetos es la tecnología que identifica no sólo el objeto que aparece en una imagen/vídeo, sino también su posición.

Cuándo utilizarlo

La detección de objetos se utiliza en los casos en que se solicita la posición de un objeto/sujeto concreto. Es una tecnología de seguimiento.

Cómo funciona

En este caso, las CNN son la tecnología principal para extraer las regiones de interés, que luego se clasifican, y se obtienen los cuadros delimitadores.

  • La red piramidal de características (FPN) utiliza la jerarquía piramidal multiescala inherente a las CNN profundas para crear pirámides de características que ayudan a detectar objetos a diferentes escalas
  • La parte superior se utiliza para predecir las clases, y la parte inferior se utiliza para la regresión de la caja delimitadora.

Es importante decir aquí que este enfoque es sólo uno de los muchos que existen para la detección de objetos.

Casos de uso empresarial

La detección facial es uno de los casos de uso más comunes de la tecnología de detección de objetos. Se puede utilizar como medida de seguridad para dejar entrar a determinadas personas en el edificio de la oficina o para reconocer y etiquetar a tus amigos en Facebook. El año pasado, Instagram añadió una nueva función basada en esta tecnología diseñada para facilitar el uso de su plataforma a las personas con discapacidad visual. Esta función utiliza la tecnología de reconocimiento de objetos para generar una descripción de las fotos. Mientras se desplaza por la aplicación, cualquier persona que utilice lectores de pantalla puede escuchar la lista de objetos que contiene esa foto.

5. Segmentación de imágenes / Segmentación semántica

Qué es

La segmentación de imágenes es una tecnología que permite segmentar una imagen en partes conceptuales, pero a diferencia de la detección de objetos, aquí se asigna una categoría a cada píxel de una imagen.

Cuándo utilizarlo

La segmentación de imágenes puede utilizarse para localizar objetos y sus límites.

Cómo funciona

Normalmente, los algoritmos empleados en estas tareas se basan en métodos de convolución-deconvolución. Por ejemplo, un algoritmo utiliza CNNs para crear mapas de características, pero al mismo tiempo se introducen capas de submuestreo para que todo el proceso sea computacionalmente viable. La carga computacional radica en que la decisión de clasificación se realiza por píxel. Por ello, reduciendo las neuronas, se puede mejorar la eficiencia computacional. Sin embargo, el siguiente paso es aplicar la convolución de transposición, durante la cual la red se entrena para reconstruir las neuronas previamente reducidas.

Casos de uso empresarial

Esta tecnología se utiliza principalmente en la obtención de imágenes médicas, la geodetección y la agricultura de precisión.

6. Desenmascaramiento de la imagen

Qué es

El Denoising de imágenes es la tecnología que utiliza métodos de aprendizaje autosupervisado para generar imágenes sin ruido o borrosas. Se basa en los algoritmos de autoencoders que aprenden a codificar las imágenes en un espacio de características inferior y las decodifican generando una distribución de datos de interés.

Cuándo utilizarlo

El Denoising de imágenes puede utilizarse con cierto éxito para eliminar el ruido o la borrosidad de las imágenes.

Cómo funciona

El algoritmo intenta primero codificar los datos de entrada en un número menor de dimensiones (compresión) y luego los reconstruye de nuevo a la representación del espacio de características latente (decodificación). En un lenguaje más formal, el codificador aprende a aproximar la función de identidad utilizando menos dimensiones. Por lo tanto, esta técnica también es adecuada para reducir las dimensiones. En el contexto de la eliminación de ruido de las imágenes, podemos configurar el autocodificador convolucional para que aprenda a generar imágenes de alta calidad proporcionando al algoritmo imágenes de baja calidad frente a imágenes de alta calidad reales. De este modo, el decodificador intentará aprender a representar la entrada con mayor calidad.

Casos de uso empresarial

Aplicaciones como Let'sEnhance.io utilizan esta tecnología para mejorar la calidad y la resolución de las imágenes.

7. Generación de imágenes

Qué es

Las redes adversariales generativas (GAN) son un tipo de aprendizaje no supervisado que aprende a generar imágenes realistas.

Cuándo utilizarlo

Esta técnica puede utilizarse en aplicaciones que generan imágenes fotorrealistas. Por ejemplo, puede utilizarse en escenas de diseño de interiores o industrial o en juegos de ordenador.

Cómo funciona

Al generar una imagen, queremos ser capaces de tomar muestras de un espacio complejo y de alta dimensión, lo cual es imposible de hacer directamente. En su lugar, podemos examinar este espacio utilizando la CNN. Las GAN hacen esto a modo de juego.

  • En primer lugar, dado un ruido aleatorio, utilizamos una red generativa simple para generar imágenes falsas que, junto con las muestras de entrenamiento, se envían a la red discriminativa.
  • Entonces, el objetivo de la red discriminatoria es discernir cuáles de las imágenes son falsas y cuáles son reales.
  • Si conseguimos falsear la red discriminativa, habremos conseguido encontrar una distribución adecuada a partir de la cual podemos generar imágenes realistas.

Casos de uso empresarial

Con un entrenamiento adecuado, los GAN proporcionan unas magnitudes de imagen de textura 2D más precisas y nítidas. Su calidad es mayor, mientras que el nivel de detalles y colores permanece inalterado. NVIDIA utiliza esta tecnología para transformar bocetos en paisajes fotorrealistas.

Principales tecnologías de aprendizaje profundo y sus aplicaciones empresariales

Plataforma de soluciones

Compruébelo usted mismo Pruebe gratis las últimas funciones de la Plataforma ProcessMaker.

Prueba gratuita

Suscríbase al boletín de noticias Hyper-Productivity™ de ProcessMaker

    Consentimiento a la Política de Privacidad Al marcar esta casilla usted consiente en Declaración de privacidad de ProcessMaker.

    Descubra cómo las organizaciones líderes utilizan ProcessMaker para agilizar sus operaciones a través de la automatización de procesos.

    Contáctenos

    Actualización de la privacidad
    Utilizamos cookies para que las interacciones con nuestro sitio web y servicios sean fáciles y significativas. Las cookies nos ayudan a entender mejor cómo se utiliza nuestro sitio web y adaptar la publicidad en consecuencia.

    Acepta