Durante décadas el desarrollo de algoritmos lógicos de toma de decisiones estuvo reservado para especialistas en programación, automatización y aplicaciones industriales.
Los resultados tangibles para los usuarios finales son refinados y definidos para aplicaciones específicas dentro de productos de uso diario que utilizan modelos booleanos para simplificar sus vidas, entre esos productos se encuentran las calculadoras, circuitos lógicos integrados, computadoras, electrodomésticos, celulares inteligentes, automóviles, etc.
Actualmente el crecimiento y difusión exponencial de nuevas tecnologías y plataformas basadas en la nube han permitido la democratización de los resultados de décadas de crecimiento de algoritmos de deep learning, machine learning y redes neuronales que derivan en modelos generativos adaptables que han sido la piedra angular de la oleada mediática llamada Inteligencia Artificial.
Dicha difusión ha generado especulaciones, sacudidas en los mercados laborales y mucha incertidumbre basada en la desinformación acerca de un tema que ha estado presente en nuestras vidas desde los años 50s y que ahora es más accesible que nunca.
En UBITS el área de Learning & Developement ha adoptado dichas tecnologías para la mejora, generación asistida y optimización de contenidos en base a 3 fundamentos de implementación:
Los modelos generativos son especializados en texto, imágenes, diagramación, automatización y audio, la mezcla de éstos con el talento humano es lo que hace una combinación única en nuestro proceso de generación de contenidos. A continuación describiremos brevemente los modelos utilizados y sus salidas en UBITS.
Estos son modelos LLM (Large Language Model) que son entrenados por medio de un proceso de alimentación de textos, los cuales incluyen, sitios web hasta el 2021 (para la versión GPT 3.5), bases de datos públicas o privadas, libros de texto, artículos científicos, etc. Posteriormente ese texto es organizado en Tokens que son bloques mínimos de texto ligados unos a otros y en base a esas ligaduras se predicen las combinaciones dependiendo del contexto o ámbito que se plantea en el prompt.
En base a esas combinaciones y el contexto aprendido en la etapa de alimentación, los modelos son capaces de entregar respuestas en un sentido muy literal y objetivo de lo que se les pide, en este momento entra la etapa denominada RLHF (Reinforced Training from Human Feedback) en donde se prueban, evalúan y ajustan las respuestas, contextos, uso de palabras por medio de feedback humano hacia el modelo.
Finalmente las respuestas del modelo pasan por el proceso denominado Transformer el cual las configura en formato de salida dependiendo de la plataforma o API utilizadas, es decir, configura los textos en modo conversacional para ChatGPT, en formato código para una implementación directa en aplicaciones o en un sistema de respuestas automatizadas para la implementación de un ChatBot personalizado.
Salidas en Learning & Developement
Los modelos TTS (Text to speech) funcionan generando archivos de audio en base a una entrada de texto. Estos modelos son entrenados en una etapa inicial de alimentación igual que los modelos LLM con la diferencia de que en el proceso de organización de la información incluyen las funciones lingüísticas acústicas para categorizar las conexiones entre las unidades mínimas de los textos. Dichas conexiones son alimentadas a un Transformador de Funciones Acústicas que determina el objetivo de una oración o párrafo para asignarle una lógica de pronunciación. Antes de la generación de forma de onda hay una última etapa de ajustes contextuales los cuales determinan el énfasis, tono y velocidad de pronunciación.
Salidas Learning & Developement
Los modelos GAN (Generative Adversarial Networks) al igual que los modelos anteriores tienen un proceso de alimentación constante a nivel de imágenes, los cuales son asociados a nivel Texto-Pixeles para asociar palabras, frases y expresiones con un cúmulo de pixeles como lo son un colibrí, un balón de fútbol, un paisaje, etc. Posteriormente, integrando un modelo LLM se hace un análisis del prompt en texto para organizar la petición y pasarla al proceso de generación de imágenes, el cual tiene un proceso automático de retroalimentación en dos partes, Generator y Discriminator.
El generador se encarga de crear siempre una nueva imagen basada en la petición del prompt y el discriminador se encarga de compararlo con imágenes de referencia y generadas previamente para contrastar y retroalimentar al generador para que haga una versión más adecuada al prompt. Este sistema adversario se denomina un modelo de Unsupervised Learning el cual se entrena constantemente de forma autónoma en una etapa inicial antes de obtener feedback humano.
Salidas Learning & Developement
- Alberto Vásquez, Audiovisual Head en UBITS
Asegúrate que tus colaboradores tengan éxito con nosotros.