Google va a entrenar su IA cogiendo todo lo que nosotros publiquemos en Internet. 🤖🌐

Snell

julio 18, 2023

Curiosidades,Internet

Cuando utilizamos los servicios de Google, generalmente sabemos a qué nos enfrentamos. Google es considerado el Gran Hermano de los buscadores, y es bien sabido que la recolección de datos es constante en todas sus plataformas. Aunque aceptamos implícitamente este sacrificio al utilizar herramientas como Gmail, YouTube o Google Maps, las cosas van a ir más allá.

Recientemente, Google actualizó su política de privacidad, y se introdujo un cambio importante que se refiere específicamente a cómo entrenan sus modelos de inteligencia artificial. En su documento oficial, explican lo siguiente:

«Google puede obtener información que esté disponible públicamente en línea o proveniente de otras fuentes públicas para ayudar a entrenar sus modelos de inteligencia artificial y desarrollar productos y funciones, como el Traductor de Google, Bard y las funciones de IA de Cloud».

En resumen, si la información es de acceso público, Google la utilizará potencialmente. Por lo tanto, la empresa se reserva el derecho de recopilar y potencialmente utilizar contenido de toda la web, justificado por el hecho de que ese contenido es público.

Es importante tener cuidado con lo que publicamos.

Esto significa que debemos reflexionar sobre todo lo que compartimos o subimos a internet. A menos que marquemos esos contenidos como privados o protegidos por derechos de autor, Google podrá utilizarlos para entrenar sus modelos de inteligencia artificial. Lo crucial ahora no es tanto quién puede ver la información que publicamos, sino cómo se utilizará (porque existe la posibilidad de que se utilice). La transparencia en este aspecto es casi nula.

Mientras esto sucede, las empresas que ofrecen modelos de inteligencia artificial generativa siguen sin proporcionar datos claros sobre cómo entrenan sus plataformas. Google es una de las pocas que expone los «datasets» utilizados en algunos de sus modelos, como el conocido Google C4, que es un conjunto masivo de datos obtenidos principalmente de Google Patents, Wikipedia y Scribd.

Sin embargo, se sabe muy poco sobre Infiniset, el conjunto de datos utilizado para el modelo de lenguaje LaMDA que se utiliza en Bard. Con respecto a PaLM2, la información es escasa, y tampoco está claro cómo se entrenó el modelo GPT-3 de OpenAI. Aunque los ingenieros de OpenAI han realizado estudios al respecto, no proporcionan una claridad completa sobre el tema. En general, las empresas están revelando cada vez menos detalles debido a la feroz competencia en este campo.

Utilizan internet sin piedad.

Está claro que el contenido publicado en internet en diversas plataformas, como blogs, redes sociales y foros, termina siendo potencialmente utilizado para entrenar estos modelos de datos. Sin embargo, en la mayoría de los casos, no sabemos si lo que publicamos se utilizará o no, ni conocemos las fuentes específicas utilizadas. Esto hace difícil comprender hasta qué punto los ChatGPT, Bard y otros modelos similares pueden presentar ciertos sesgos.

Es por eso que Reddit y Twitter están tomando medidas al respecto. La reciente modificación de la política de privacidad por parte de Google está relacionada con la decisión de Reddit y Twitter de limitar el acceso a sus APIs: si no se paga, no se podrá acceder a ellas. En otras palabras, si no se paga, las empresas que desean entrenar sus modelos de inteligencia artificial con los enormes volúmenes de contenido publicado en estas redes se enfrentan a mayores dificultades.

Mientras tanto, los usuarios de internet que publicamos dicho contenido no parecemos tener voz ni voto en este asunto. Cuando compartimos algo en internet, ya sea en cualquier plataforma, generalmente lo hacemos automáticamente y sin pensar si ese contenido debería estar sujeto a alguna licencia.

Este tipo de prácticas podrían terminar costándole caro a Google y otras empresas.

OpenAI y Microsoft actualmente se enfrentan a una demanda relacionada con GitHub Copilot y el uso de código sin permiso de los programadores. A su vez, Stable Diffusion está experimentando problemas similares con Getty, ya que está cansada de que la inteligencia artificial utilice sus fotos sin autorización.

En este contexto, la AI Act de la Unión Europea busca abordar este tipo de problemas. Actualmente, se está avanzando en la aprobación final de la AI Act, el primer intento de la UE por regular la inteligencia artificial. En esta normativa, se incluye una sección específica dedicada a la transparencia, y teóricamente se exigirá a las empresas que desarrollen modelos de IA que expliquen el origen de los datos de entrenamiento.

Aunque esto parece más fácil de decir que de hacer, nos enfrentamos a un futuro en el que la recopilación masiva de datos puede plantear problemas adicionales, no solo en términos de posibles violaciones de privacidad, sino también en cuanto a su uso en diferentes escenarios.

En Snell, estamos al tanto de las últimas novedades y actualizaremos la noticia si se llegan a dar cambios en esta política de privacidad.

Etiquetas :

bard,fibra óptica,inteligencia artificial,operador local de telecomunicaciones,snell,tarifa de fibra óptica

Comparte :