当前位置:网站首页>小度 小度 在呢!
小度 小度 在呢!
2022-08-05 05:18:00 【乘云科技】
什么是智能语音识别?
简单来说
智能语音识别就是将人类的声音信号
转化为文字的过程。
我们平时接触到的
语音识别、人脸识别、OCR等
都属于人工智能中的感知智能
其核心功能就是
将物理世界的信息转化为可供计算机处理的信息
为后续的认知智能提供基础。
语音识别能够满足的需求层次
01人与人之间的信息同步
转化成文字的语音信息,由于少了时间轴的约束,在同等量级的情况下,人类使用眼睛获取的速度远远快于耳朵。
02检索&语义抽取
利用语义建模,对某些业务场景中比较关注的词/语义进行检索,或者将其抽取出来并进行结构化记录。
03人机交互
使用更自然的方式与机器/虚拟助理进行交互,实现拟人对话、对设备的操控或者问题答案的获取。
04数据挖掘
通过对数据的聚类或者与各维度数据体系打通,可以对个人/人群/特定领域的语义数据进行价值挖掘。
封闭域识别
1定义:
识别范围为预先指定的字/词集合。
算法只在开发者预先设定的封闭域识别词的集合内进行语音识别,对范围之外的语音会拒识。
2.产品形态 :
流式传输-同步获取。
3.典型应用场景:
不涉及到多轮交互和多种语义说法的场景。
比如,对于简单指令交互的智能家居和电视盒子,语音控制指令一般只有“打开窗帘”、“打开中央台”等。
开放域识别
1.定义
无需预先指定识别词集合,算法将在整个语言大集合范围中进行识别。
2.产品形态
1.流式上传-同步获取
应用/软件会对说话人的语音进行自动录制,并将其连续上传至云端,说话人在说完话的同时能实时地看到返回的文字。
2.已录制音频文件上传-异步获取
音频时长一般<3/5小时。用户需自行调用软件接口或是硬件平台预先录制好规定格式的音频,并使用语音云服务厂商提供的接口进行音频上传,上传完成之后便可以断掉连接。用户通过轮询语音云服务器或者使用回调接口进行结果获取。
3. 已录制音频文件上传-同步获取,音频时长一般小于<1分钟。用户需自行预先录制好规定格式的音频,并使用语音云服务厂商提供的接口进行音频上传。
4.典型应用场景
1.主要在输入场景,如输入法、会议/法院庭审时的实时字幕上屏。
2.已经录制完毕的音/视频字幕配置;实时性要求不高的客服语音质检和UGC语音内容审查场景等。
3.作为前两者的补充,适用于无法用音频录制接口进行实时音频流上传,或者结果获取的实时性要求比较高的场景。
边栏推荐
猜你喜欢
随机推荐
来来来,一文让你读懂Cocos Creator如何读写JSON文件
LeetCode刷题之第701题
什么是全栈设计师?
Leetcode刷题——对链表进行插入排序
每日一题-无重复字符的最长子串-0712
【shell编程】第二章:条件测试语句
framebuffer应用编程及文字显示(1)
【ts】typescript高阶:分布式条件类型
Redis设计与实现(第三部分):多机数据库的实现
OSPF故障排除办法
链表章6道easy总结(leetcode)
Cocos Creator小游戏案例《棍子士兵》
常用 crud 的思考和设计
网工必用神器:网络排查工具MTR
PoE视频监控解决方案
IT系统运行维护方法及策略
教你如何封装功能组件和页面组件
【UiPath2022+C#】UiPath If条件语句
每日一题-最长有效括号-0724
Unity常用模块设计 : Unity游戏排行榜的制作与优化









