La IA no puede escalar sin confianza. La confianza comienza con la capa de datos

El artículo de seguidores es una publicación y opinión invitada de Johanna Rose Cabillo, fundadora y CEO de Data Guardians Network (D-GN).

La ilusión de datos infinitos

Ejecutar datos. Pero esos datos son incrustantes poco confiables, athicales y vinculados con ramificaciones legales.

El crecimiento de la IA generativa no solo se acelera. Está devorando todo a su camino. Según los informes, Operai se enfrentó a un predicho Factura de $ 7 mil millones En 2024, solo para mantener sus modelos funcionales, con $ 2 mil millones en retorno anualizado. Todo esto estaba sucediendo mientras los bots de Openai y Anthrope estaban causando estragos en el sitio web y? Interno de negocios.

Pero el problema es más profundo que los costos. La IA se basa en tuberías de datos que son opacas, anticuadas y legalmente comprometidas. La “decadencia de datos” realizada es real: modelos capacitados en el riesgo de datos no verificados, sintéticos o ‘antiguos’ para aclararse con el tiempo, lo que lleva a Toma de decisiones fluidas.

Desafíos legales como el 12 demandas por derechos de autor de EE. UU. Contra OpenAi y Problemas legales de Anthrope con autores Y los medios de comunicación destacan una crisis emergente: la IA no es cuello de botella por cómputo. Es un cuello de botella por Cadenas de suministro de datos confiables.

Cuando el sintético no es suficiente y el raspado no escala

Los datos sintéticos son una ayuda de banda. El raspado es una demanda que espera que suceda.

Los datos sintéticos han prometido para ciertos usos, pero no está exento de trampas. Lucha por replicar los matices y la profundidad de las situaciones del mundo real. En salud, para examinar, Los modelos de IA capacitados en conjuntos de datos sintéticos pueden tener un rendimiento inferior En casos de borde, los arriesgados al paciente de seguridad. Y en fallas de alto perfil como el modelo Géminis de Google, sesgo y salidas sesgadas Están reforzados en lugar de correctos.

Mientras tanto, raspar Internet no es solo una responsabilidad, es un callejón sin salida estructural. Desde el New York Times hasta Getty Images, las demandas están haciendo ping y nuevas regulaciones como los estándares estrictos de procedencia de datos de ACTA de la UE. Tesla es infame “Frenado fantasmaEl problema de 2022, causado en parte por los datos de entrenamiento de POR, muestra lo que sucede cuando los datos no se controlan.

Mientras que los volúmenes de datos globales superarán los 200 zettabytes para 2025 de acuerdo con Empresas de ciberseguridadGran parte es inutilizable o no verificable. Falta la conexión y la comprensión. Y sin eso, la confianza, y por extensión, la escalabibilidad, es imposible.

Está claro que necesitamos un nuevo paradigma. Uno donde los datos se crean confiables de forma predeterminada.

Refinar datos con capacidades básicas de blockchain

Blockchain no es solo para tokens. Es la infraestructura faltante para la crisis de datos de IA.

Entonces, ¿dónde lo hizo blockchain la narrativa? ¿Cómo resuelve el caos de datos y evita que el sistema de IA alimente miles de millones de puntos de datos, sin consentimiento?

Mientras que la “tokenización” captura los titulares, es la arquitectura debajo de la que lleva muy prometida. Blockchain permite las tres características que AI necesita desesperadamente en la capa de datos: trazabilidad o procedencia, Immutabi y Verifiabibilidad. Cada uno contribuye sinérgicamente a ayudar a rescatar la IA de los desafíos legales de los legales y las crisis de calidad de los datos.

La trazabilidad garantiza que cada conjunto de datos tenga un origen verificable. Al igual que la confianza de los alimentos de IBM verifica la logística de la granja a los estantes, necesitamos la verificación de modelo a la fuente para los datos de capacitación. La inmutabilidad asegura que nadie pueda manipular el registro, almacenando información crítica en la cadena.

Finlly, contratos inteligentes de pago de contratos fluye y aplica el consentimiento. Si se produce un evento predeterminado, y se verifica, un contrato inteligente se programará a los pasos autoexucentes en la cadena de bloques, sin interacción humana. En 2023, La Fundación Lemonade impulsó una solución de seguro paramétrico basada en blockchain Para 7,000 agricultores kenianos. Este sistema utiliza contratos inteligentes y oráculos de datos meteorológicos para activar automáticamente los pagos cuando se colocaron condiciones de sequía predefinidas, eliminando la necesidad de un procedimiento de reclamos manuales.

Esta infraestructura voltea la dinámica. Una opción es usar herramientas gamificadas para etiquetar o crear datos. Cada acción se registra inmutablemente. Las recompensas son rastreables. Los consentimiento están en la cadena. Y los desarrolladores de IA reciben datos estructurados listos para auditoría con linaje claro.

La IA confiable necesita datos confiables

Puede auditar un modelo de IA si no puede auditar sus datos.

Los llamados a la “IA responsable” se caen en plano cuando se basan en mano de obra invisible y fuentes no verificables. Demandas de antrópico Muestre el verdadero riesgo financiero de mala higiene de datos. Y la desconfianza pública continúa subiendo, con superys que muestran que los usuarios Confías en los modelos de IA Ese tren en datos personales o poco claros.

Este no es solo un problema legal, ha proviene. McKinsey ha demostrado que los conjuntos de datos de alta integridad reducen significativamente las alucinaciones e impulsan la precisión entre los usos. Si queremos que la IA tome decisiones críticas en finanzas, salud o derecho, entonces la base de capacitación debe ser inquebrantable.

Si es el motor, los datos son el combustible. No ves gente poniendo combustible en un Ferrari.

La nueva economía de datos: por qué se necesita ahora

La tokenización toma los titulares, pero Blockchain puede volver a cablear toda la cadena de valor de datos.

Estamos de pie al borde de un cambio económico y social. Tener empresas Gastó miles de millones recopilando datos Pero apenas entiende sus orígenes o riesgos. Lo que necesitamos es un nuevo tipo de economía de datos: una basada en el consentimiento, la compensación y la verifiabilitación.

Así es como se ve.

Primero es la colección consensuada. Opte-In al igual que el ecosistema de anuncios de privacidad de Brave muestra que los usuarios compartirán datos si son respetados y tienen un elemento de transparencia.

El segundo es una compensación equitativa. Para contribuir a la IA mediante el uso de sus datos, o su tiempo anotando datos, las personas deben ser compensadas por la apropiación. Dado que es un servicio, las personas están proporcionando voluntariamente o involuntariamente, tomando dichos datos, que tienen un valor inherente para una empresa, sin autorización o compensación presentes en un argumento ético difícil.

Finally, IA que es responsable. Con el linaje de datos completo, la organización puede cumplir con los requisitos de cumplimiento, reducir el sesgo y crear modelos más precisos. Este es un beneficio convincente.

Forbes predice que la trazabilidad de los datos se convertirá en una industria de $ 10B+ para 2027, y no es difícil ver por qué. Es la única forma en que la IA escala Éticamente.

La próxima carrera armamentista de IA no se tratará de quién tiene la mayor cantidad de GPU, se tratará de quién tiene los datos más limpios.

¿Quién construirá el futuro?

La potencia de cálculo y el tamaño del modelo siempre importarán. Pero los verdaderos avances no provendrán de modelos más grandes. Vendrán de mejores bases.

Si los datos son, como se nos dice, el nuevo aceite, entonces debemos dejar de derramarlo, rasparlo y quemarlo. Necesitamos rastrearlo, valorarlo e invertir en su integridad.

Los ciclos de retiro de datos limpios mejoran la eficiencia e incluso reducen los costos ambientales. Investigación de Harvard Muestra que los desechos de energía del retino del modelo AI podrían rivalizar con las emisiones de las naciones pequeñas. Los datos asegurados por blockchain desde el inicio de AI más delgado, más rápido y verde.

Podemos construir un futuro donde los innovadores de IA compitan no solo en velocidad y escala, sino también por transparencia y justicia.

Blockchain nos permite construir una IA que no solo es poderosa, sino genuinamente ética. El momento de actuar es ahora, antes de otra demanda, el escándalo de sesgo o la alucinación hacen esa decisión para nosotros.

Mencionado en este artículo