Snell

La fibra 贸ptica de Huelva

Google va a entrenar su IA cogiendo todo lo que nosotros publiquemos en Internet. 馃馃寪

Curiosidades,Internet

Cuando utilizamos los servicios de Google, generalmente sabemos a qu茅 nos enfrentamos. Google es considerado el Gran Hermano de los buscadores, y es bien sabido que la recolecci贸n de datos es constante en todas sus plataformas. Aunque aceptamos impl铆citamente este sacrificio al utilizar herramientas como Gmail, YouTube o Google Maps, las cosas van a ir m谩s all谩.

Recientemente, Google actualiz贸 su pol铆tica de privacidad, y se introdujo un cambio importante que se refiere espec铆ficamente a c贸mo entrenan sus modelos de inteligencia artificial. En su documento oficial, explican lo siguiente:

芦Google puede obtener informaci贸n que est茅 disponible p煤blicamente en l铆nea o proveniente de otras fuentes p煤blicas para ayudar a entrenar sus modelos de inteligencia artificial y desarrollar productos y funciones, como el Traductor de Google, Bard y las funciones de IA de Cloud禄.

En resumen, si la informaci贸n es de acceso p煤blico, Google la utilizar谩 potencialmente. Por lo tanto, la empresa se reserva el derecho de recopilar y potencialmente utilizar contenido de toda la web, justificado por el hecho de que ese contenido es p煤blico.

Es importante tener cuidado con lo que publicamos.

Esto significa que debemos reflexionar sobre todo lo que compartimos o subimos a internet. A menos que marquemos esos contenidos como privados o protegidos por derechos de autor, Google podr谩 utilizarlos para entrenar sus modelos de inteligencia artificial. Lo crucial ahora no es tanto qui茅n puede ver la informaci贸n que publicamos, sino c贸mo se utilizar谩 (porque existe la posibilidad de que se utilice). La transparencia en este aspecto es casi nula.

Mientras esto sucede, las empresas que ofrecen modelos de inteligencia artificial generativa siguen sin proporcionar datos claros sobre c贸mo entrenan sus plataformas. Google es una de las pocas que expone los 芦datasets禄 utilizados en algunos de sus modelos, como el conocido Google C4, que es un conjunto masivo de datos obtenidos principalmente de Google Patents, Wikipedia y Scribd.

Sin embargo, se sabe muy poco sobre Infiniset, el conjunto de datos utilizado para el modelo de lenguaje LaMDA que se utiliza en Bard. Con respecto a PaLM2, la informaci贸n es escasa, y tampoco est谩 claro c贸mo se entren贸 el modelo GPT-3 de OpenAI. Aunque los ingenieros de OpenAI han realizado estudios al respecto, no proporcionan una claridad completa sobre el tema. En general, las empresas est谩n revelando cada vez menos detalles debido a la feroz competencia en este campo.

Utilizan internet sin piedad.

Est谩 claro que el contenido publicado en internet en diversas plataformas, como blogs, redes sociales y foros, termina siendo potencialmente utilizado para entrenar estos modelos de datos. Sin embargo, en la mayor铆a de los casos, no sabemos si lo que publicamos se utilizar谩 o no, ni conocemos las fuentes espec铆ficas utilizadas. Esto hace dif铆cil comprender hasta qu茅 punto los ChatGPT, Bard y otros modelos similares pueden presentar ciertos sesgos.

Es por eso que Reddit y Twitter est谩n tomando medidas al respecto. La reciente modificaci贸n de la pol铆tica de privacidad por parte de Google est谩 relacionada con la decisi贸n de Reddit y Twitter de limitar el acceso a sus APIs: si no se paga, no se podr谩 acceder a ellas. En otras palabras, si no se paga, las empresas que desean entrenar sus modelos de inteligencia artificial con los enormes vol煤menes de contenido publicado en estas redes se enfrentan a mayores dificultades. 

Mientras tanto, los usuarios de internet que publicamos dicho contenido no parecemos tener voz ni voto en este asunto. Cuando compartimos algo en internet, ya sea en cualquier plataforma, generalmente lo hacemos autom谩ticamente y sin pensar si ese contenido deber铆a estar sujeto a alguna licencia.

Este tipo de pr谩cticas podr铆an terminar cost谩ndole caro a Google y otras empresas.

OpenAI y Microsoft actualmente se enfrentan a una demanda relacionada con GitHub Copilot y el uso de c贸digo sin permiso de los programadores. A su vez, Stable Diffusion est谩 experimentando problemas similares con Getty, ya que est谩 cansada de que la inteligencia artificial utilice sus fotos sin autorizaci贸n.

En este contexto, la AI Act de la Uni贸n Europea busca abordar este tipo de problemas. Actualmente, se est谩 avanzando en la aprobaci贸n final de la AI Act, el primer intento de la UE por regular la inteligencia artificial. En esta normativa, se incluye una secci贸n espec铆fica dedicada a la transparencia, y te贸ricamente se exigir谩 a las empresas que desarrollen modelos de IA que expliquen el origen de los datos de entrenamiento.

Aunque esto parece m谩s f谩cil de decir que de hacer, nos enfrentamos a un futuro en el que la recopilaci贸n masiva de datos puede plantear problemas adicionales, no solo en t茅rminos de posibles violaciones de privacidad, sino tambi茅n en cuanto a su uso en diferentes escenarios.

En Snell, estamos al tanto de las 煤ltimas novedades y actualizaremos la noticia si se llegan a dar cambios en esta pol铆tica de privacidad.

Etiquetas :

bard,fibra 贸ptica,inteligencia artificial,operador local de telecomunicaciones,snell,tarifa de fibra 贸ptica

Comparte :

Deja una respuesta

Tu direcci贸n de correo electr贸nico no ser谩 publicada. Los campos obligatorios est谩n marcados con *

脷ltimos posts

Categorias

La fibra 贸ptica de Huelva

Una manera de hacer Europa

bandera_europa

Snell ha sido beneficiaria del Fondo Europeo de Desarrollo Regional cuyo objetivo es mejorar la digitalizaci贸n de las empresas pymes, llevando a cabo la creaci贸n e implantaci贸n de un plan de marketing digital, gesti贸n y dinamizaci贸n de redes sociales y creaci贸n de contenidos para las mismas. Esta acci贸n ha tenido lugar durante 2022. Para ello ha contado con el apoyo del programa TICC谩maras de la C谩mara de Huelva.

Formamos parte de:

acutel
junta
aotec
god