Una nueva técnica podría someter a los modelos de IA a un régimen energético estricto, reduciendo potencialmente el consumo de energía hasta en un 95% sin comprometer la calidad.
Los investigadores de BitEnergy AI, Inc. desarrollaron la multiplicación de complejidad lineal (L-mul), un método que reemplaza las multiplicaciones de punto flotante que consumen mucha energía con sumas de enteros más simples en los cálculos de IA.
Para aquellos que no están familiarizados con el término, el punto flotante es un atajo matemático que permite a las computadoras manejar eficientemente números muy grandes y muy pequeños ajustando la ubicación del punto decimal. Puedes considerarlo como una notación científica, en binario. Son esenciales para muchos cálculos en modelos de IA, pero requieren mucha energía y potencia informática. Cuanto mayor sea el número, mejor será el modelo y más potencia informática necesitará. Fp32 es generalmente un modelo de precisión total, y los desarrolladores reducen la precisión a fp16, fp8 e incluso fp4, para que sus modelos puedan ejecutarse en hardware local.
El voraz apetito de la IA por la electricidad se ha convertido en una preocupación creciente. Solo ChatGPT consume 564 MWh por día—suficiente para poder 18.000 hogares estadounidenses. Se espera que la industria mundial de la IA consuma 85-134 TWh por año para 2027aproximadamente lo mismo que las operaciones mineras de Bitcoin, según estimaciones compartidas por el Centro de Cambridge para finanzas alternativas.
L-Mul aborda de frente el problema de la energía de la IA reinventando la forma en que los modelos de IA manejan los cálculos. En lugar de complejas multiplicaciones de punto flotante, L-Mul aproxima estas operaciones mediante sumas de enteros. Entonces, por ejemplo, en lugar de multiplicar 123,45 por 67,89, L-Mul lo divide en pasos más pequeños y fáciles mediante la suma. Esto hace que los cálculos sean más rápidos y consuma menos energía, manteniendo la precisión.
Los resultados parecen prometedores. “La aplicación de la operación L-Mul en hardware de procesamiento de tensores puede reducir potencialmente el costo de energía en un 95% mediante multiplicaciones de tensores de punto flotante por elementos y el costo de energía en un 80% de los productos escalares”, dicen los investigadores. Sin complicarme demasiado, simplemente significa esto: yoSi un modelo utilizara esta técnica, necesitaría un 95% menos de energía para pensar y un 80% menos para generar nuevas ideas, según esta investigación.
El impacto del algoritmo va más allá del ahorro de energía. L-Mul supera los estándares actuales de 8 bits en algunos casos, logrando una mayor precisión y utilizando muchos menos cálculos bit a bit. Las pruebas que abarcaban el procesamiento del lenguaje natural, las tareas visuales y el razonamiento simbólico mostraron una disminución media del rendimiento de sólo el 0,07 %.—un compromiso insignificante para el ahorro potencial de energía.
Los modelos basados en transformadores, la columna vertebral de grandes modelos de lenguaje como GPT, podrían beneficiarse enormemente de L-Mul. El algoritmo se integra perfectamente en el mecanismo de atención, una parte de estos modelos computacionalmente intensivos. Las pruebas realizadas en modelos populares como Llama, Mistral y Gemma incluso revelaron cierta mejora en la precisión en determinadas tareas de visión.
A nivel operativo, los beneficios de L-Mul se vuelven aún más evidentes. Las investigaciones muestran que multiplicar dos números float8 (como lo harían los modelos de IA hoy en día) requiere 325 operaciones, mientras que L-Mul usa solo 157, menos de la mitad. “Para resumir el análisis de error y complejidad, L-Mul es más eficiente y más preciso que la multiplicación fp8”, concluye el estudio.
Pero nada es perfecto y esta técnica tiene un importante talón de Aquiles: requiere un tipo especial de hardware, por lo que el hardware actual no está optimizado para aprovecharlo al máximo.
Es posible que ya estén en marcha proyectos de hardware especializados que admitan de forma nativa los cálculos L-Mul. “Para desbloquear todo el potencial del método propuesto, implementaremos los algoritmos centrales L-Mul y L-Matmul a nivel de hardware y desarrollaremos API de programación para el diseño de modelos de alto nivel”, dicen los investigadores. Esto podría conducir potencialmente a una nueva generación de modelos de IA rápidos, precisos y muy baratos, haciendo que la IA energéticamente eficiente sea una posibilidad real.
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.