全新中文通用16K识别模型重磅上线！

End To End

下一代中文识别模型重磅上线

“端到端”语音识别框架在云端落地，并搭载自研的SAN-M和SCAMA模型，继续保持业界性能优势，为用户提供优质的离线/流式语音转文字服务。相较我们上一代模型，全新的“端到端”架构在各业务场景，如客服、直播、会议、输入法、教育、交互等，识别性能均有较大的提升，在时延和并发上优势也相当明显。

立即体验一对一专家咨询

识别准确率高

相较我们上一代模型，全新的“端到端”架构在各业务场景，识别性能有较大的提升

高速解码速率

国内独创的LFR解码技术，在不损失识别精度的情况下，将解码速率大幅提升

自学习模型优化工具

提供自学习平台系统，同时支持热词定制和模型定制

广泛的领域覆盖

目前已经积累了大量行业客户，业务场景包括智能问答、智能质检、庭审记录、字幕翻译、语音助手等等

功能展示

E2E云上模型

“端到端”语音识别框架在云端落地，并搭载自研的SAN-M和SCAMA模型，继续保持业界性能优势，为用户提供优质的离线/流式语音转文字服务。

立即体验

端侧纯离线ASR

无需将语音上传到云端，重点用于无网络、私密性、低延时的语音识别的应用场景，例如会议场景，法庭场景等，以及无网络的场景；同时对于瞬时高并发请求的场景，如直播场景等，能够大幅降低云服务调用成本。

立即体验

典型场景

云上通用

场景优势

满足出行场景，导航场景，搜索场景，物流场景，读书场景，直播、音视频、游戏、聊天、质检、翻译、笔记、输入法等各行各业场景需求。

政企会议、谈话等场景

场景优势

在长时间会议或谈话过程中，辅助记录人员解决误记、漏记等的问题，做到记录可快速、可定位查询。

智慧法庭等

场景优势

由于离线端到端直接在移动端进行识别，无需将语音上传到云端，因此为高隐私要求的场景使用语音识别提供了可行的方案。

智能语音交互都解决了哪些问题

呼叫中心语音质检

上传呼叫中心的录音文件，通过录音文件识别得到文本，进一步通过文本检索，质检服务合规性、友好性；

实时直播字幕及管理

现场演讲场景、直播场景下，将视频中的音频实时转写成字幕。还可以辅助视频平台进行内容合规治理；

业务电话内容分析

传统中介业务中容易出现客户双方建立联系后抛弃中介的事情，如房东诱导房客进行线下交易，从而导致中介公司经济损失；

智能语音问询终端

该套方案中集合了语音识别，自然语言理解，对话管理，音频信号处理，语音合成，机器视觉等多项人工智能技术，给用户提供一种全新的，多模态的语音交互方式；

语音搜索

支持各种场景下的语音搜索，比如地图导航、浏览器搜索等。可以集成到任何形式的手机应用中，很大程度上解放了双手；

语音指令

通过语音命令控制智能设备，实现快捷便利的操作。比如控制空调的开关、电视的换台等。可以集成到智能家居等设备中；

更多产品

语音本地部署

提供轻量化本地部署方案，支持语音识别、语音合成、语言模型自学习工具的本地化部署，帮助企业在自己的数据中心零时差使用与阿里云公共云同款的智能语音服务。

查看详情

口语评测

通过智能语音技术自动对发音水平进行评价、帮助用户找到发音缺陷，纠正发音错误并进行问题分析的语音软件。广泛应用于口语考试、幼教发音启蒙、儿童教育产品、辅助教学等多种场景。

查看详情

文档与资源