AI2发布开放数据集Dolma:打破AI语言模型的数据壁垒

2023-08-21 16:39 | 来源：站长之家

艾伦人工智能研究所（AI2）发布了名为Dolma的开放式文本数据集，旨在促进AI语言模型的透明度和创新。Dolma作为AI2开放式语言模型(OLMo)计划的核心，将为研究人员和开发者提供免费的数据资源，以支持更广泛的AI研究。

在GPT-4和Claude等语言模型的崛起中，人们对这些模型的强大能力感到惊叹，但模型背后的数据集却笼罩在神秘的面纱之下，引发了对透明度的担忧。为了改变这种现状，AI2决定采取一项突破性举措，向全球发布了Dolma数据集，以推动AI语言模型领域的透明度和协作。

Dolma作为AI2开放式语言模型（OLMo）计划的基石，其名称缩写代表“Data to feed OLMo#39;s Appetite”(供养OLMo食欲的数据)。AI2旨在通过向研究社区提供免费、开放的数据资源，鼓励更多的创新和研究。该数据集的发布不仅是AI2首次共享关于OLMo的“数据成果”，还是AI2在透明度方面迈出的重要一步。

AI机器人玩游戏© 由站长之家提供

根据AI2的Luca Soldaini在详细的博文中所述，Dolma数据集的来源和处理过程得到了透明记录。AI2团队详细解释了将文本还原为原始英语内容等决策的方法。AI2强调，他们计划发布更全面的论文，以深入探讨数据集的细节。

与此同时，Dolma不仅仅是一个规模庞大的开放数据集，拥有惊人的30亿标记（AI中内容量的本地度量），而且使用和许可方面也非常简便。AI2采用了“中风险成果的ImpACT许可证”，并鼓励用户:

- 提供联系信息和使用情况

- 披露基于Dolma的衍生创作

- 在相同许可下分发这些衍生创作

- 同意不将Dolma应用于禁止领域，如监视或虚假信息

AI2还为担心个人数据隐私的用户提供了专门的数据删除请求表单，以确保个人数据的保护。

Dolma的发布标志着AI2在透明度和协作方面迈出的重要一步，为AI语言模型的开放和共享知识设立了有力的先例。该数据集的开放为研究人员和开发者提供了更多的资源，将推动AI领域走向更加透明和合作的未来。用户可通过Hugging Face平台访问Dolma，这是一个对AI领域的积极而重要的发展。

THE END

相关阅读

展会预告

新品

中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
中维世纪又推智能场景机!此次场景机在看清电子屏幕的基础上，增加字符提取与超阈值报警功能，超清视野与灵…
中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
思特威推出具有AOV快启功能的5MP高分辨率IoT图像传感器SC535IoT
思特威推出0.7微米5000万像素图像传感器SC5000CS
云天励飞发布新一代AI芯片DeepEdge10
爱芯元智发布新一代IPC SoC芯片AX630C和AX620Q

访谈

做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…
博思高邓绍昌：乘产品创新及客户服务之舟，在市场变革中逆风飞扬

11月24日，由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会，在深…

企业

圣恩科技：守护城市生命线
树立行业标杆，讲好中国故事，传递中国声音，充分展现腾飞的中国经济、崛起的民族品牌和向上的企业家精神。…
佳都科技“数智堤坝”助力地铁安全度汛
高新兴与麒麟软件达成战略合作，加速国产化应用生态布局与落地
圣恩科技：守护城市生命线
熵基科技在多模态BioCV技术领域取得新突破
捷顺科技发布“停充一体”标准，打造一站式停充服务，推动停车充电行业规范发展