相关分享
人机语音交互场景中的低延迟流式语音识别技术
美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型在训练过程中自动降低出字延迟。在实验测试集上,本方法能够获得最高近 200 毫秒左右的平均出字延迟降低。
MRCP在美团语音交互中的实践和应用
“当你和智能语音机器人对话交互时,你是否好奇电话背后的机器人如何“听懂”你的意思,又如何像人一样“回答”你的问题?其中比较重要的技术就是 MRCP。本文主要介绍了 MRCP 在美团语音交互中的实践和应用,基于美团自研的语音识别及语音合成能力,我们提升了外呼通话的成功率,并且保证了更好的用户体验。”
使用 DeepSpeech 在你的应用中实现语音转文字
应用中的语音识别不仅仅是一个有趣的技巧,而且是一个重要的无障碍功能。
计算机的主要功能之一是解析数据。有些数据比其他数据更容易解析,而语音输入仍然是一项进展中的工作。不过,近年来该领域已经有了许多改进,其中之一就是 DeepSpeech,这是 Mozilla 的一个项目,Mozilla 是维护 Firefox 浏览器的基金会。DeepSpeech 是一个语音到文本的命令和库,使其对需要将语音输入转化为文本的用户和希望为其应用提供语音输入的开发者都很有用。
微信语音终于可以转发了,安卓用户优先!
近日, 看到微信语音可以进行转发了 ,之前微信出于对安全方面的考虑,语音消息无法进行直接转发,下面给大家分享一个隐藏的转发技巧。
泡沫下的破浪者,智能语音产品到底落地何处?
如今的科技在各个方面的发展都非常的迅速,越来越多“不切实际”的幻想也在被实现!而作为现代人信息获取以及沟通需求最为方便快捷的路径-智能语音,这条路就摆在我们面前。
演讲嘉宾:
盛京,阿里云达摩院-机器智能技术专家
达摩院语音组成立于2014年,具有语音识别、语音合成、声纹识别、自然语言处理、语音交互等等的能力。
Android 语音播报实现方案(无SDK)
类似支付宝收款时候的语音播报功能:当别人扫描你的收款码,你收到钱之后,就会听到“支付宝到账12.55元”的语音播报。
基于AliOS Things玩转智能语音
随着AI技术的进步,智能语音开始将人机交互从手+眼睛的传统模式中解放出来。带给人们更便捷、更风趣、更有人情味的体验,让被操作对象变得不再只是一个死板的工具,而更像是一个有生命的助理。“帮我打开空调”,“明天上班需要带伞吗”,“快递到哪了”…在万物互联的时代,你的所有需求只需要一句话便能实现。
微信小程序语音与讯飞语音识别接口(Java),Kronopath/SILKCodec,ffmpeg处理silk,pcm,wav转换
微信小程序语音与讯飞语音识别接口(Java),Kronopath/SILKCodec,ffmpeg处理silk,pcm,wav转换
【人工智能】智能语音交互技术与应用
课程介绍
智能语音交互,是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等。
本课程主要讲解智能语音相关技术,包括语音识别、人机交互、语音合成等。
学习入口:点击这里
课程目标
学习智能语音相关技术
适合人群
大数据、人工智能开发者
