清华大学联合字节跳动，开源听觉大语言模型 SALMONN

2023-08-22 17:54 | 来源：IT之家

官方同时表示，目前 SALMONN 能够胜任英语语音识别、英语到中文的语音翻译、情感识别、音频字幕生成、音乐描述等重要的语音和音频任务，同时又涌现出多种在模型训练中没有专门学习过的多语言和跨模态能力，涵盖非英语语音识别、

清华大学电子工程系日前与字节跳动的火山语音团队携手合作，推出一款开源大语言模型 SALMONN。

清华大学联合字节跳动，开源听觉大语言模型 SALMONN© 由 IT之家提供

▲ 图源 SALMONN 的 GitHub 页面

IT之家经过查询得知，SALMONN 模型支持语音、音频以及音乐输入，它可以感知和理解不同类型的音频内容输入，并具备多语言语音识别和翻译以及语音推理等功能。

▲ 官方发布的模型解析图

官方表示，SALMONN 支持语音、音频以及音乐输入，它可以感知和理解不同类型的音频内容输入，并具备多语言语音识别和翻译以及语音推理等功能。

清华大学联合字节跳动，开源听觉大语言模型 SALMONN© 由 IT之家提供

▲ 图源 SALMONN 的 Demo 页面

官方同时表示，目前 SALMONN 能够胜任英语语音识别、英语到中文的语音翻译、情感识别、音频字幕生成、音乐描述等重要的语音和音频任务，同时又涌现出多种在模型训练中没有专门学习过的多语言和跨模态能力，涵盖非英语语音识别、英语到（中文以外）其他语言的语音翻译、对语音内容的摘要和关键词提取、基于音频的故事生成、音频问答、语音和音频联合推理等任务。

目前该模型已经发布于 GitHub 中，官方同时放出了项目的 Demo 链接，感兴趣的小伙伴们可以前往了解。

THE END

相关阅读

展会预告

新品

中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
中维世纪又推智能场景机!此次场景机在看清电子屏幕的基础上，增加字符提取与超阈值报警功能，超清视野与灵…
中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
思特威推出具有AOV快启功能的5MP高分辨率IoT图像传感器SC535IoT
思特威推出0.7微米5000万像素图像传感器SC5000CS
云天励飞发布新一代AI芯片DeepEdge10
爱芯元智发布新一代IPC SoC芯片AX630C和AX620Q

访谈

做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…
博思高邓绍昌：乘产品创新及客户服务之舟，在市场变革中逆风飞扬

11月24日，由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会，在深…

企业

圣恩科技：守护城市生命线
树立行业标杆，讲好中国故事，传递中国声音，充分展现腾飞的中国经济、崛起的民族品牌和向上的企业家精神。…
佳都科技“数智堤坝”助力地铁安全度汛
高新兴与麒麟软件达成战略合作，加速国产化应用生态布局与落地
圣恩科技：守护城市生命线
熵基科技在多模态BioCV技术领域取得新突破
捷顺科技发布“停充一体”标准，打造一站式停充服务，推动停车充电行业规范发展