La Inteligencia Artificial (IA)

Durante décadas el desarrollo de algoritmos lógicos de toma de decisiones estuvo reservado para especialistas en programación, automatización y aplicaciones industriales.

Los resultados tangibles para los usuarios finales son refinados y definidos para aplicaciones específicas dentro de productos de uso diario que utilizan modelos booleanos para simplificar sus vidas, entre esos productos se encuentran las calculadoras, circuitos lógicos integrados, computadoras, electrodomésticos, celulares inteligentes, automóviles, etc.

Actualmente el crecimiento y difusión exponencial de nuevas tecnologías y plataformas basadas en la nube han permitido la democratización de los resultados de décadas de crecimiento de algoritmos de deep learning, machine learning y redes neuronales que derivan en modelos generativos adaptables que han sido la piedra angular de la oleada mediática llamada Inteligencia Artificial.

Dicha difusión ha generado especulaciones, sacudidas en los mercados laborales y mucha incertidumbre basada en la desinformación acerca de un tema que ha estado presente en nuestras vidas desde los años 50s y que ahora es más accesible que nunca.

En UBITS el área de Learning & Developement ha adoptado dichas tecnologías para la mejora, generación asistida y optimización de contenidos en base a 3 fundamentos de implementación:

Concientización: La inteligencia artificial generativa es un aliado en las actividades diarias en la creación de contenidos, no es una amenaza ni mucho menos un modo piloto automático para los procesos de creación de contenidos.
Inversión: Es necesario destinar tiempo y recursos a la evaluación, conocimiento y maestría de las nuevas tecnologías, que adaptadas apropiadamente a los procesos actuales, sirven de catapulta a nuevos horizontes de productividad, oferta audiovisual y variedad de formatos.
Iteración constante: Los procesos se retroalimentan a sí mismos en cada etapa de innovación y sus necesidades cambian. Además la oferta de tecnologías inteligentes crece cada semana lo cual implica un estado constante de monitoreo y mejora en la implementación.

Generative A.I.

Los modelos generativos son especializados en texto, imágenes, diagramación, automatización y audio, la mezcla de éstos con el talento humano es lo que hace una combinación única en nuestro proceso de generación de contenidos. A continuación describiremos brevemente los modelos utilizados y sus salidas en UBITS.

**Modelos GPT (Generative Pre-trained Transformers).**

Estos son modelos LLM (Large Language Model) que son entrenados por medio de un proceso de alimentación de textos, los cuales incluyen, sitios web hasta el 2021 (para la versión GPT 3.5), bases de datos públicas o privadas, libros de texto, artículos científicos, etc. Posteriormente ese texto es organizado en Tokens que son bloques mínimos de texto ligados unos a otros y en base a esas ligaduras se predicen las combinaciones dependiendo del contexto o ámbito que se plantea en el prompt.

En base a esas combinaciones y el contexto aprendido en la etapa de alimentación, los modelos son capaces de entregar respuestas en un sentido muy literal y objetivo de lo que se les pide, en este momento entra la etapa denominada RLHF (Reinforced Training from Human Feedback) en donde se prueban, evalúan y ajustan las respuestas, contextos, uso de palabras por medio de feedback humano hacia el modelo.

Finalmente las respuestas del modelo pasan por el proceso denominado Transformer el cual las configura en formato de salida dependiendo de la plataforma o API utilizadas, es decir, configura los textos en modo conversacional para ChatGPT, en formato código para una implementación directa en aplicaciones o en un sistema de respuestas automatizadas para la implementación de un ChatBot personalizado.

Salidas en Learning & Developement

Condensación de información.
Resúmenes al momento - Speech to text.
Asistencia de redacción de contenido en diferentes tonos/objetivos.
Generación de títulos con enfoque específico como: informar, enganchar, intrigar, vender.
Predicción de tendencias cíclicas.

‍Generación de audio usando Modelos TTS

Los modelos TTS (Text to speech) funcionan generando archivos de audio en base a una entrada de texto. Estos modelos son entrenados en una etapa inicial de alimentación igual que los modelos LLM con la diferencia de que en el proceso de organización de la información incluyen las funciones lingüísticas acústicas para categorizar las conexiones entre las unidades mínimas de los textos. Dichas conexiones son alimentadas a un Transformador de Funciones Acústicas que determina el objetivo de una oración o párrafo para asignarle una lógica de pronunciación. Antes de la generación de forma de onda hay una última etapa de ajustes contextuales los cuales determinan el énfasis, tono y velocidad de pronunciación.

Salidas Learning & Developement

Locuciones para Ideas de Libros.
Voice over de videos tutoriales.
Locución en Inglés y Portugués.

‍Generación de imágenes usando Modelos GAN - MidJourney

Los modelos GAN (Generative Adversarial Networks) al igual que los modelos anteriores tienen un proceso de alimentación constante a nivel de imágenes, los cuales son asociados a nivel Texto-Pixeles para asociar palabras, frases y expresiones con un cúmulo de pixeles como lo son un colibrí, un balón de fútbol, un paisaje, etc. Posteriormente, integrando un modelo LLM se hace un análisis del prompt en texto para organizar la petición y pasarla al proceso de generación de imágenes, el cual tiene un proceso automático de retroalimentación en dos partes, Generator y Discriminator.

‍El generador se encarga de crear siempre una nueva imagen basada en la petición del prompt y el discriminador se encarga de compararlo con imágenes de referencia y generadas previamente para contrastar y retroalimentar al generador para que haga una versión más adecuada al prompt. Este sistema adversario se denomina un modelo de Unsupervised Learning el cual se entrena constantemente de forma autónoma en una etapa inicial antes de obtener feedback humano.

Salidas Learning & Developement

Generación de portadas enganchadoras para el home de Ubits Learning.
Generación de imágenes de apoyo para videos.
Asistencia en generación alternativa de diagramación de contenidos (moodboards).
Extensión y modificación de sets de grabación (en desarrollo).

Otras IA generativas usadas en L&D

DeepL - Traducción de textos y guiones para generación de audios.

Akbar on developement subtitle translator - Traducción de subtítulos en formato VTT para implementación directa en plataformas de reproducción de video.

Adobe Premiere Speech to Text, Text video editing - Transcripción de videos a texto para traducción subtitulaje y recientemente edición de video basada en texto.

Adobe Podcast audio enhancing - Mejora de audio, eliminación de ruido y modulación.

Photoshop Beta - Generative Fill - Modificación de imágenes, cambio de objetos y eliminación de elementos no deseados en una imágen basado en prompts de texto.

‍

- Alberto Vásquez, Audiovisual Head en UBITS

‍

UBITS Team

September 26, 2024

•

7 min de lectura