参照人类大脑，学会忘记会让AI大模型变得更好？

2024-03-12 17:34 | 来源：极客网

实测表明，在很多情况下，“忘却法”的训练效率很高，忘却型模型表现也会更好。韩国基础科学研究院（InstituteforBasicScience）的AI工程师JeaKwon说，新研究意味着AI领域取得明显进步。

计算机科学家团队近期开发出一种更敏捷更具弹性的机器学习模型，它们可以周期性忘记已知信息，而现有大语言模型不具备忘却能力。

“忘却法”训练效率很高

今天的AI语言引擎大多都是人工神经网络驱动的。网络中的每一个“神经元”都是一个数学函数，它会从其它神经元接收信号，它会运算，然后通过多层神经元发送信号。

最开始时信息流或多或少都是随机的，当网络不断与训练数据匹配，神经元之间流动的信息会不断优化。例如，如果研究人员想训练一个双语翻译模型，它首先要收集海量双语文本，用文本训练模型，它会调整神经元之间的连接，将一种语言中的文本与另一种语言中的等效单词联系起来。

上述训练会耗费大量计算力。如果模型运行时不够出色，如果后来用户的需求变了，模型会很难匹配。

新模型研究人员MikelArtetxe说：“假设你有一个模型，里面包含100种语言，有1种语言没有被覆盖。如果你想将这种语言添加进去，那就要重新训练。”

几年前，Artetxe和同事用1种语言训练神经网络，他们抹去神经网络所知的单词组成信息，也就是所谓的“Tokens”。Tokens存储在神经网络的第一层，它也叫“嵌入层”。对于其它层，不去理睬。抹去第1语言的Tokens之后，用第2种语言训练，第2种语言新的Tokens可以填充到嵌入层。

虽然模型包含大量不匹配信息，但仍然可以用第2种语言重新训练，也就是说模型可以学习、处理第2种语言。研究人员认为，虽然嵌入层存储了第2种语言的语汇特殊信息，但神经网络更底层存储了抽象信息，它涉及到人类语言的幕后概念，正是这些概念帮助模型学习第二种语言。

研究报告作者YihongChen认为：“我们生活在相同的世界，用不同语言的不同词汇来赋予相同事物以概念。所以在模型之中会有相同等级的推理，比如一个苹果，它是甜的，美味的，它不只是一个词汇。”

将新语言添加到已训练模型中，采用“忘却法”效率很高，尽管如此，还是需要重新训练，仍然需要海量数据和强大的处理能力。有没有更好的办法？当然有，不需要训练，直接抹去嵌入层，然后再训练，也就是在初步训练时周期性重置嵌入层。

Artetxe称：“如此一来，整个模型就能适应重置。如果你想扩展模型，让它适应另一种语言，过程会变得更容易。”

忘却型模型表现更好

研究人员用一种比较通用的大语言模型Roberta做实验，采用周期性忘却技术训练，将它与那些用标准、非忘却方法训练的模型作比较。结果发现，在处理第1种语言时，忘却型模型得分85.1分，传统标准模型得分86.1分。再用第2种语言训练，只用约500万Tokens（第一种语言用了700亿）训练，忘却型模型的精准度得分降至62.7分，标准模型降到53.3分。

再训练时如果研究人员施加计算限制，忘却型模型的表现会更好。例如，当研究人员将训练长度从125000步短到5000步，忘却型模型的平均得分约为57.8分，标准模型降到37.2分，几乎和猜测差不多。

因此研究人员得出结论：在学习语言时，忘却型模型表现更好一些。

魁北克深度学习研究中心Mila的研究人员EvgeniiNikishin认为：“因为模型在训练时不断忘却，然后再重新学习，所以后面再教网络一些新东西时会变得更容易些。”种种迹象显示，模型理解语言时会从更深层次着眼，不只是了解单个词汇的意思。

忘却法与人类大脑的运行模式有些相似。旧金山大学神经科学家BenjaminLevy认为：“存储大量详细信息时人类记忆是相当不精准的。但人类大脑可以记住经验要点，记住抽象信息，而且擅长推断。让AI像人类一样处理信息，比如让它具备忘却能力，AI也许会更有弹性。“

YihongChen认为，未来也许会出现制造语言模型的工厂，这样的工厂需要忘却型技术，它是一个基本模型，可以快速适应新领域。

THE END

相关阅读

展会预告

新品

中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
中维世纪又推智能场景机!此次场景机在看清电子屏幕的基础上，增加字符提取与超阈值报警功能，超清视野与灵…
中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
思特威推出具有AOV快启功能的5MP高分辨率IoT图像传感器SC535IoT
思特威推出0.7微米5000万像素图像传感器SC5000CS
云天励飞发布新一代AI芯片DeepEdge10
爱芯元智发布新一代IPC SoC芯片AX630C和AX620Q

访谈

做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…
博思高邓绍昌：乘产品创新及客户服务之舟，在市场变革中逆风飞扬

11月24日，由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会，在深…

企业

圣恩科技：守护城市生命线
树立行业标杆，讲好中国故事，传递中国声音，充分展现腾飞的中国经济、崛起的民族品牌和向上的企业家精神。…
佳都科技“数智堤坝”助力地铁安全度汛
高新兴与麒麟软件达成战略合作，加速国产化应用生态布局与落地
圣恩科技：守护城市生命线
熵基科技在多模态BioCV技术领域取得新突破
捷顺科技发布“停充一体”标准，打造一站式停充服务，推动停车充电行业规范发展