La USC ultima con el Gobierno el lanzamiento del “ChatGPT español”

El proyecto Alia, con una inversión de unos 40 millones de euros, busca desarrollar modelos de inteligencia artificial entrenados en las lenguas oficiales del país

El presidente del Gobierno, Pedro Sánchez, con el director científico del Citius, Senén Barro, este lunes en la Moncloa.

El presidente del Gobierno, Pedro Sánchez, con el director científico del Citius, Senén Barro, este lunes en la Moncloa.

Lorena Rey

El Gobierno de España está construyendo el primer modelo de inteligencia artificial de lenguaje natural que trabajará directamente con las lenguas oficiales del Estado. En él está participando la Universidad de Santiago (USC) a través del Citius (Centro Singular de Investigación en Tecnoloxías Intelixentes).

Senén Barro, catedrático de Ciencias de la Computación e Inteligencia Artificial en la USC, explica que se trata de modelos que hay detrás de herramientas como ChatGPT. Este tiene una serie de inconvenientes: son propietarios y cerrados, es decir, son de las compañías que los han desarrollado y, en general, no hacen pública la información relativa a los mismos, incluidos los datos que han usado para entrenarlos.

“España quiere desarrollar, por el contrario, lo que se denominarían modelos plenamente abiertos, lo que supondría transparencia plena en los datos, los modelos obtenidos y a libre disposición de terceros. Además, serían modelos especialmente entrenados con nuestras lenguas”, señala Senén Barro a “El Correo Gallego”, del mismo grupo editorial.

A pesar de que algunos modelos tienen una competencia muy alta en el castellano, no ocurre en igual modo con el catalán, el euskera y el gallego, “sobre todo por la dificultad para obtener corpus de texto suficientes en cantidad y calidad para entrenar los modelos”. Por ello, el Gobierno apuesta por modelos que sean “especialmente competentes lógicamente en nuestras lenguas”, aunque también se adiestren para otras, ya que “serán modelos en general multilingües”. Además, será una apuesta público-privada, desde el liderazgo público, “lo que no es tampoco común en el resto de países”.

En palabras de Senén Barro, es una forma también de contribuir a que se desarrolle más la industria en torno a las tecnologías lingüísticas y “a que se forme, atraiga y retenga talento en este sector tan estratégico, además de que se desarrollen aplicaciones derivadas de estos modelos para las administraciones públicas y empresas del país”.

Para hablar del desarrollo de este plan del Gobierno, de sus objetivos y marco temporal, Senén Barro y Josep Maria Martorell, gerente del Barcelona Supercomputing Center, el único centro de España que tiene los recursos de computación adecuados para desarrollar los modelos de mayor tamaño, se reunieron el lunes con el presidente del Gobierno, Pedro Sánchez; y el ministro José Luis Escrivá, ministro de Transformación Digital y Función Pública.

El proyecto ALIA del Gobierno, que cuenta con una inversión de unos 40 millones de euros, “no pretende ser en todo caso el ‘ChatGPT español’” ni competir con las grandes compañías tecnológicas en este sector, sino “alcanzar la solvencia y soberanía tecnológicas necesarias para desarrollar los recursos indispensables en tecnologías lingüísticas en nuestras lenguas”, el talento, la industria propia y las aplicaciones necesarias “para que España esté en la vanguardia de la inteligencia artificial y, en particular, de la IA generativa y sus modelos”.

El primer modelo fundacional está previsto para este mismo año. Senén Barro señala que eso no significa que sea “un modelo que ya pueda dialogar con toda la fluidez y riqueza de conversación, o para según qué usos”, pero significaría que ese algoritmo base ya estaría operativo y en condiciones de seguir siendo mejorado, entrenado, para desarrollar modelos más específicos de usos particulares o para ser utilizado en dominios concretos como la medicina o el derecho.

La USC está ya colaborando en este “ambicioso” proyecto, y en particular lo viene haciendo dentro de ILENIA (Impulso de las Lenguas en Inteligencia Artificial), un proyecto en curso desde el 2023 y con tres años de vida, hasta 2025. Los objetivos principales de ILENIA, según Barro, son conseguir corpus de texto y voz de calidad y de tamaño suficiente para poder abordar el entrenamiento de modelos de gran tamaño, “algo que hasta ahora era impensable”. Se ha creado y está disponible en abierto el primer traductor neuronal entre gallego, castellano e inglés, o los primeros sintetizadores y reconocedores de voz en gallego, también de tecnología neuronal.