开源AI到底是什么？业界：超出开源软件范畴，需要重新界定

2024-03-28 17:53 | 来源：极客网

照字面意思，开源AI意味着未来任何人都可以参与科技开发，它能加速创新、增强透明度，让用户对系统拥有更多控制权。但到目前为止没有人给“开源AI”进行明确界定，科技巨头完全可以根据自己的需要扭曲概念，甚至有可能利用开源AI稳固自身地位。

最近AI圈突然流行起开源概念。Meta承诺将会打造开源AI，马斯克起诉OpenAI，说它缺少开源模型。与此同时，一批科技领袖和科技企业纷纷为开源概念呐喊。不过科技界碰到一个难以解决的根本问题：它们对“开源AI”的概念无法达成共识。

在这里我们不得不提到OpenSourceInitiative(OSI)，它是一个非盈利组织，成立于1998年，正是它推动了开源软件的发展。OSI已经招集研发人员、律师、议员、大科技公司代表，总计约70人，试图明确界定“开源AI”概念。

OSI高管StefanoMaffulli说，他们对开源AI原则已经达成广泛共识，但细节方面分歧很多。要考虑复杂的竞争利益，要找到一套方案让所有人满意，要让大企业积极参与，真的不容易。

开源AI到底是什么？业界：超出开源软件范畴，需要重新界定

大厂的态度

去年7月，Meta开源Llama2模型。MetaAI与开源事务法律副总顾问JonathanTorres说：“我们支持OSI明确定义开源AI，为了全球开源社区的利益，我们会积极参与定义工作。”

相比Meta，OpenAI显得没有那么积极。在过去几年前，OpenAI很少谈及自己的研发进度，理由是安全无法保证。OpenAI新闻发言人称：“只有当我们谨慎评估好利益与风险，包括误用、加速等问题，才会考虑将强大的AI模型开放。”

StabilityAI和AlephAlpha已经提供一些开源模型，HuggingFace托管了一批免费使用AI模型。

谷歌Gemini和PaLM2模型也没有开源，但Gemma模型已经可以免费使用，它的对手是MetaLlama2，但谷歌所说的不是“开源”，而是“开放”。

到底上述模型能不能称为“开源”，大家意见并不统一。不管是Llama2还是Gemma都需要获得授权，使用时会受到限制，苛刻的要求无疑是与开源相违背的。既然开源就不能施加任何限制，科技企业显然没有做到。

OSI高管StefanoMaffulli称，开源的目的本来是要确保开发者可以随意使用、研究、修改、分享软件，不施加任何限制，但AI的运行方式有些不同，所以原本适用于软件的开源理念无法流畅转移到AI领域。

StefanoMaffulli解释称，AI模型涉及的组件太多了，如果是软件，只需要修改底层代码就行了，AI更复杂，根据目的的不同，修改AI模型会牵涉到训练模型、训练数据、处理数据的代码、管理训练流程的代码，还有模型的底层架构等。

基本自由是什么？基本权利是什么？我们都需要明确界定。为了执行基本权利如何操作也不够明晰。只有定义明确，定义被大家尊重、接受才能降低合规成本，减少摩擦，分享知识。

当前的症结在于数据。所有大型科技企业只是简单发布了预训练模型，没有提供训练数据。如果想给开源AI下一个更明确的定义，没有数据就很难修改、研究模型，所以它们并不是开源模型。

有些人持不同意见，他们认为只要简单描述数据，研究人员就能深入调查模型，没有必要通过重新训练来修改模型。预训练模型可以通过所谓的微调进行调整，也就是用一批规模较小的特殊数据集来重新训练。

比如Meta提供的Llama2，Meta虽然给出的是预训练模型，但已经有一批开发者下载、修改它，然后分享自己的修改结果。开发者会用它完成各种项目，它已经拥有一整套生态系统，我们能不能叫它半开放？或者叫半开源？

非盈利组织OpenFuture的研发人员ZuzannaWarso认为，从技术角度看，如果没有原始训练数据，研发人员无法修改模型，但没有训练数据就真的无法自由研究模型吗？这个争论点也值得商榷。

ZuzannaWarso称：“在整个流程中，训练数据是关键组成部分。如果我们真的关心开放，也应该关心数据的开放度。”

开源的意义

AINowInstitute联合执行董事SarahMyersWest去年曾发表一篇论文，她在论文中指出，许多开源AI项目缺少开放性，但她同时也指出，训练尖端AI需要大量数据和计算力，苛刻的要求限制了小玩家的参与，不管模型的开源程度如何都受到限制。

通过开源，人们希望达成怎样的目标？对于这个问题大家也莫衷一是。SarahMyersWest称：“是为了安全？为了学术研究？还是为了增强竞争？我们必须对目标有更清晰的认识，系统开放到什么程度会对目标追求产生怎样的影响，这点也需要考虑。”

OSI在定义草案中认为，开源能带来好处，其中自主、透明就是关键收益，但文件中也提到了“超出范围的问题”，比如伦理、信任、责任。

Maffulli解释称，从历史上看开源社区的关注重点是如何减少软件分享摩擦，不能陷入无限争论，比如应该如何使用软件。

有人不认同Maffulli的说法，技术是中性的，伦理问题不可控，这些有争议的问题本来就很重要，之所以拒绝讨论是避免松散的开源社区分崩离析。

除了OSI，还有一些组织也想为开源AI指明方向，比如2022年成立的ResponsibleAILicenses（RAIL），它想通过开源授权的方式限制模型特殊使用方式。拿到授权后，开发者不能以不合适、不道德的方式使用AI模型。在HuggingFace的托管平台上，已经有28%的模型使用了RAIL授权。

谷歌Gemma的授权也遵循相似的原则，拿到授权的开发者不能将模型应用于有害场景。艾伦人工智能研究所也制定了自己的授权规则。

开源软件管理公司Tidelift的联合创始人LuisVilla认为，考虑到AI与常规软件有所不同，探索不同程度的开放是难以避免的，这样做对整个行业也可能是有益的。但是各种开放授权互不兼容可能会影响协作，只有协作能让开源走向成功，除此还有其它一些负作用，比如AI创新会受影响，透明度会降低，小玩家参与难度提升。

社区应该围绕单一标准进行授权合并，否则就会各行其是。对于OSI的方针政策，LuisVilla也不是很认可。当初OSI提出开源软件定义时时间充裕，外部审查也很少，如今的AI环境大不相同，有大企业和监管者干涉。

如果开源社区无法给出明确的定义，其它人就会根据自己的需求各提出一套定义。LuisVilla称：“它们会填补真空，扎克伯格可能会告诉我们所谓的开源AI是什么，他讲的话影响肯定很大。”

THE END

相关阅读

向云端！工业软件突破“卡脖子”进入快车道2024-03-21
中国移动联合中兴通讯完成业界首个基于低频通感一体的车联网业务端到端验证2024-03-07
外媒：欧盟对微软安全软件业务展开反垄断调查2024-02-29
生成式人工智能将推动汽车软件化｜观点2023-11-01
索尼发布堆叠式工业图像传感器分辨率实现业界突破2023-10-20
业界：聚焦新型工业化发展推动数字化转型走深向实2023-10-19
人工智能将如何影响我们？业界大咖这样说2023-08-27
用友发布业界首个企业服务大模型YonGPT 2023-07-28
Chiplet 究竟是什么？为什么说 Chiplet 能帮助中国芯片突围？2023-07-24
智慧城市的未来：BIM软件如何改变游戏规则2023-07-14

展会预告

新品

深视智能精灵系列高速相机新品上市！
精灵系列是深视智能高速相机家族面向高端科研与工业领域的匠心之作。
深视智能精灵系列高速相机新品上市！
中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
思特威推出具有AOV快启功能的5MP高分辨率IoT图像传感器SC535IoT
思特威推出0.7微米5000万像素图像传感器SC5000CS
云天励飞发布新一代AI芯片DeepEdge10

访谈

做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…
博思高邓绍昌：乘产品创新及客户服务之舟，在市场变革中逆风飞扬

11月24日，由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会，在深…

企业

芯科科技突破性超低功耗Wi-Fi 6和低功耗蓝牙5.4模块加速设备部署
致力于以安全、智能无线连接技术，建立更互联世界的全球领导厂商Silicon Labs(亦称“芯科科技”，NASDAQ：S…
芯科科技突破性超低功耗Wi-Fi 6和低功耗蓝牙5.4模块加速设备部署
熵基科技摘获2024世界数字城市大会九项大奖
赋能智慧社区建设！ “图数融合”边缘智慧小站助力社区安全管理
天防安全实力入选《数字安全护航技术能力全景图》
CMMI5级认证通过！宇泛获全球软件领域最高级别认证