像GPT-4这样的大型语言模型在应用中出现的涌现能力是幻象吗？

这项研究的结果很重要，因为它揭开了大型语言模型(LLM)具有的一些神奇能力的神秘面纱，并且还对“规模是创造更好的大型语言模型唯一途径”这一观点提出了质疑。

大型语言模型(LLM)的涌现能力

一些研究已经检验了大型语言模型(LLM)显示出的涌现能力。一项研究将涌现能力定义为“在较小的模型中不存在，但在较大的模型中存在的能力”。基本上，这意味着机器学习模型在某些任务上具有随机性能，直到其大小达到一定的阈值。在达到阈值之后，随着其规模的增长，大型语言模型(LLM)的能力将开始提升。可以在图1中看到LLM表现出的涌现能力，其性能在一定范围内突然跃升。

大型语言模型(LLM)显示出大规模的涌现能力，在模型大小达到一定阈值之前，其完成任务的性能保持在随机水平。之后，随着模型规模的变大，其性能将会跃升并开始提高。

研究人员对LaMDA、GPT-3、Gopher、Chinchilla和PaLM等具有1000多亿个参数的大型语言模型(LLM)的涌现能力进行了研究。这些研究包括从BIG-Bench中选择的任务，BIG-Bench是一个众包基准，包括语言学、常识推理和数学等许多领域。他们还使用了TruthfulQA、大规模多任务语言理解（MMLU）和场景中的单词（WiC）进行了测试，这些测试都是为了了解大型语言模型(LLM)在处理复杂语言任务方面的局限性。

有几个原因使大型语言模型(LLM)的涌现能力变得非常重要。首先，这些研究表明，在开展进一步创新的情况下扩展大型语言模型(LLM)规模可以继续在更通用的AI能力方面取得进展。其次，随着大型语言模型(LLM)的发展，人们无法预测它们会带来什么。当然，这些研究结果将会进一步强化大型语言模型(LLM)的神秘光环。

为什么大型语言模型(LLM)的涌现能力会被炒作

斯坦福大学的这项新研究对大型语言模型(LLM)所谓的涌现能力提出了不同的看法。根据他们的研究，对大型语言模型(LLM)的涌现能力的观察通常是由于指标的选择引起的，而不是规模。斯坦福大学的研究人员认为，“现在关于涌现能力的说法是研究人员分析的结果，而不是特定任务中模型行为随着规模的增加而发生变化。”他们指出，强有力的支持证据表明，涌现能力可能不是扩展AI模型的基本属性。

具体来说，他们认为涌现能力似乎只出现在非线性或不连续地缩放任何模型的每个令牌错误率的指标下。这意味着在衡量任务性能时，一些指标可能显示出大规模的涌现能力，而另一些则显示出持续的改进。

例如，有些测试只测量大型语言模型(LLM)输出正确令牌的数量。这种情况尤其发生在与分类和数学相关的任务中，只有当所有生成的令牌都是正确的时候，其输出才是正确的。

实际上，LLM模型输出的令牌逐渐接近正确的令牌。但由于最终答案与基本事实不同，它们都被归类为不正确，直到它们达到所有标记都是正确的阈值。

研究人员表示，在他们的研究中，如果对相同的输出使用不同的指标，涌现能力就会消失，LLM模型的性能也会平衡提高。这些指标衡量的是到达正确答案的线性距离，而不仅仅是计算正确答案。

当用非线性指标进行评估时，LLM出现涌现能力；当用线性指标进行评估时，性能会平稳提高.jpg

当用非线性指标进行评估时，LLM出现涌现能力；当用线性指标进行评估时，性能会平稳提高

研究人员还发现，在某些情况下，出现涌现能力是由于没有足够的测试数据。通过创建更大的测试数据集，其性能改进就会变得稳步提高。

为了进一步证明这一点，研究人员试图了解是否能在其他类型的深度神经网络中重现涌现能力的情况。他们对视觉任务和卷积神经网络(CNN)进行了测试。测试结果表明，如果他们使用非线性指标来评估LLM模型的性能，那么就会观察到在大型语言模型(LLM)中会出现相同的情况。

为什么这个结论至关重要？

研究人员在发表的论文总结出一个重要的结论：“对于一个固定的任务和一个固定的模型家族，研究人员可以选择一个指标来创建涌现能力，也可以选择一个指标来消除涌现能力。因此，涌现能力可能是研究人员选择的产物，而不是模型家族在特定任务上的基本属性。”

研究人员表示，并不是说大型语言模型(LLM)不能显示出涌现能力，但他们强调，之前声称的LLM中的涌现能力可能是研究人员在分析时引发的幻象。

这一研究的一个重要收获是对于认识大型语言模型(LLM)性能提供了一个更关键的视角。鉴于LLM的惊人能力和成果，如今已经有了一种将它们拟人化的趋势，或将它们与其不具备的特性联系起来。

这项研究得出的结论很重要，因为它们将有助于为大型语言模型(LLM)领域带来更清醒的认识，并更好地理解扩大LLM模型规模的影响。SamBowman最近发布的一篇论文指出:“当实验室投资训练一个新的大型语言模型(LLM)并逐步扩大规模时，他们有理由相信将会获得具有经济价值的各种新能力，但他们几乎无法对这些能力做出自信的预测，或者他们需要做些什么准备才能负责任地部署这些能力。”而有了更好的技术来衡量和预测改进，研究人员将能够更好地评估更大的LLM模型的效益和风险。

这种方法也有助于鼓励研究人员探索创建更大的大型语言模型(LLM)的替代方案。虽然只有大型科技公司才能负担得起训练和测试大型LLM的成本，但规模较小的公司也可以对较小的模型进行研究。有了这些指标，他们将能够更好地探索这些较小的LLM的功能，并找到新的研究方向来改进它们。

THE END

相关阅读

云知声发布山海大模型现场实测十大核心能力2023-05-25
甲骨易AI 研究院发布“超越”中文大模型测试集2023-05-23
产线追溯+生产增效12%！东集超高频RFID读写器成功应用于钢铁企业2023-05-23
对标 ChatGPT，华硕子公司台智云发布福尔摩斯大模型2023-05-22
云从科技发布从容大模型2023-05-18
北京拟对 AI 训练所需的算力推行统筹供给，整合大模型中文语料库2023-05-18
物联网卡在安防行业的应用2023-05-16
集成ChatGPT、开发大型语言模型，Zoho公布AI战略计划2023-05-16
大华股份：会重点投入大模型和多模态方向2023-05-15
C语言可以用于开发智能安防、智能门禁等应用2023-05-15

展会预告

新品

中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
中维世纪又推智能场景机!此次场景机在看清电子屏幕的基础上，增加字符提取与超阈值报警功能，超清视野与灵…
中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
思特威推出具有AOV快启功能的5MP高分辨率IoT图像传感器SC535IoT
思特威推出0.7微米5000万像素图像传感器SC5000CS
云天励飞发布新一代AI芯片DeepEdge10
爱芯元智发布新一代IPC SoC芯片AX630C和AX620Q

访谈

做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…
博思高邓绍昌：乘产品创新及客户服务之舟，在市场变革中逆风飞扬

11月24日，由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会，在深…

企业

圣恩科技：守护城市生命线
树立行业标杆，讲好中国故事，传递中国声音，充分展现腾飞的中国经济、崛起的民族品牌和向上的企业家精神。…
佳都科技“数智堤坝”助力地铁安全度汛
高新兴与麒麟软件达成战略合作，加速国产化应用生态布局与落地
圣恩科技：守护城市生命线
熵基科技在多模态BioCV技术领域取得新突破
捷顺科技发布“停充一体”标准，打造一站式停充服务，推动停车充电行业规范发展