首页>>人工智能->人工智能的声线是什么(2023年最新整理)

人工智能的声线是什么(2023年最新整理)

时间:2023-12-02 本站 点击:0

导读:本篇文章首席CTO笔记来给大家介绍有关人工智能的声线是什么的相关内容,希望对大家有所帮助,一起来看看吧。

人工智能是如何在嘈杂声中分辨特定声音的?

人工智能是根据声源不同的声线和质地来区分的。实时分离多个声源,大大提高了自动语言识别的能力。人工智能设备已经能够处理独立个体的请求,但是和我们一样,在嘈杂的鸡尾酒会上或者几个人同时说话时,它们也会感到纠结。根据《新科学家》杂志官方网站最近的一篇文章,美国剑桥三菱电气研究实验室的研究人员开发的语音识别人工智能装置。

 这项技术首次在日本东京的先进技术展览会上公开展示。团队将其称为“深度聚类”机器学习,可以识别多个声源在“声纹”中的独特功能。然后,将每个说话者声音的不同特征组合在一起,允许它从多个声音中选择具有特定特征的声音,并最终重构每个说话者的语音。智能技术使用许多人说的英语进行培训和学习。即使说话者是日本人,也能轻松地分辨出来。

据介绍,传统的语音识别方法使用两个收音器模拟听者的两只耳朵的位置,只能达到51%的准确率。几十年来,“鸡尾酒会效应”困扰了AI研究几十年。新型智能系统能够成功分离两个人的声音,重构一个人声音的准确率高达90%。这项新技术可以帮助家庭和汽车更好地执行智能任务,一次可以分离多达五个人的声音,并可用于电梯、空调机组和家用产品的智能控制。

语音识别研究的目的就是让机器“听懂”人类口述的语言。包括两方面的含义:其一是逐字逐句听懂非转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解,做出正确响应,而不拘泥于所有词的正确转换。语音识别系统从讲叙方式角度可分为孤立词、连接词和连续语音三种。从服务对象的角度可分为特定人与非特定人。即系统只针对一个用户或可用于任意用户。

什么叫“声线”???

声线是自声源发出,代表声能传播方向的曲线。只有在几何声学适用的范围内,声的波动性质不计,声线才有意义。

在各种同性的媒质中,声线代表波的传播方向,处处与波阵面垂直。由于折射和反射现象存在,声线不一定是直线,可以是折线或曲线,但声线与波阵面始终正交。

声线和光线一样,也会发生反射和折射现象,声波遇到某一物体时,会遵从反射定律,反射回声音。也会部分发射折射,进入新介质中,其传播遵从折射定律。由于折射和反射现象存在,声线不一定是直线,可以是折线或曲线,但声线与波阵面始终正交。

扩展资料:

歌唱发声练习的目的,简要地说,就是将歌曲演唱中对声音所需求的各种技术环节,通过有规律、有步骤的发声练习,逐步提高歌唱发声的生理机能,调节各歌唱器官的协作运动,养成良好的歌唱状态,使歌唱发声的技术成为歌唱表现的有力手段,为达到声情并茂的演唱服务。

我们练声的目的是要调整巩固科学的发声状态,把良好的歌唱状态保持到歌唱中去,改变平时生活中自然的发声习惯,使之成为符合歌唱发声的习惯和状态,所以必须明确我们练声的目的,而不是简单的“开开声”而已。

声线是什么

声线是自声源发出,代表声能传播方向的曲线。只有在几何学声学适用的范围内,声的波动性质不计,声线才有意义。在各种同性的媒质中,声线代表波的传播方向,处处与波阵面垂直。由于折射和反射现象存在,声线不一定是直线,可以是折线或曲线,但声线与波阵面始终正交。声线是自声源发出,代表声能传播方向的曲线。只有在几何学声学适用的范围内,声的波动性质不计,声线才有意义。在各种同性的媒质中,声线代表波的传播方向,处处与波阵面垂直。由于折射和反射现象存在,声线不一定是直线,可以是折线或曲线,但声线与波阵面始终正交。声线也指人发声的音色。如果把人的嗓子比做乐器的话,声线就是人发声的音色 。不同的人由于声带构造不同,声线也就不同,就像小提琴,钢琴,吉他,口琴等音色都不一样。(音色与振动频率无关,只与材质,构造有关。)

生活中的人工智能之声纹识别

姓名:陈心语  学号:21009102266 书院:海棠1号书院

转自: 人工智能技术在声纹识别方面的应用|解读技术-云+社区-腾讯云(tencent.com)

【嵌牛导读】本文介绍了人工智能在声纹识别方面的应用。

【嵌牛鼻子】人工智能运用于声纹识别。

【嵌牛提问】人工智能在声纹识别方面中有什么运用呢?

【嵌牛正文】

人工智能技术对于传统产业的推进作用越来越凸显,极大提升了传统产品的商业价值。“听声识我,开口即播”长虹CHiQ5人工智能电视成为全球首款搭载 声纹识别 的人工智能电视,可以直接通过每个人说话的声音不同而区分目前使用电视用户是谁,从而实现内容的精准推荐。无需借助遥控和手机等智能设备,通过识别家庭成员的声纹来控制电视。语音助手配备海量语音库,使用语义模糊识别功能,即使说错片名也能自动识别出你想要的内容,但是当人们在观看某一节目的时候谈论提及其他电视节目名称,语音助手功能识别后当即转换到另一个节目影响正常节目的观看。但是在价格方面,55寸售价7597元,65寸售价13997元,75寸售价21997元,价格过高难以普及,但是也从侧面证明人工智能确实可以提升产品附加值。

目前人工智能发力的领域主要集中在指纹、脸、声音、眼睛等等,都是人和人之间相互区分的独一无二的标识上,称之为“生物特征”。声音就是这种一种可以反映人身份的生物特征,参考“指纹”的命名方式,可以叫它“声纹”。 声纹是指人类语音中携带言语信息的声波频谱,它同指纹一样,具备独特的生物学特征,具有身份识别的作用,不仅具有特定性,而且具有相对的稳定性 。声音信号是一维连续信号,将它进行离散化后,就可以得到我们现在常见的计算机可以处理的声音信号。

在实际应用中,声纹识别也存在一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。尽管如此,与其他生物特征相比,声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过 语音识别 进行内容鉴别等,可以提高准确率;……等等。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于指纹和掌纹的生物特征识别,并有不断上升的趋势。

声纹识别(也称说话人识别)技术也如同现在在智能手机上应用十分广泛的指纹识别技术一样,从说话人发出的语音信号中提取语音特征,并据此对说话人进行身份验证的生物识别技术。每个人都具有独一无二的声纹,这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似,声纹其实都是具有显著区别的。声纹识别(Voiceprint

Recognition, VPR),也称为说话人识别(Speaker Recognition),有两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker

Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是"多选一"问题;而后者用以确认某段语音是否是指定的某个人所说的,是"一对一判别"问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的"训练"或"学习"过程。

现实生活中的“未见其人,先闻其声”就是人类通过声音去识别另一个人身份的真实描述,虽然目前计算机还做不到通过一个字就判断出人的身份,但是利用大量的训练语音数据,可以学出一个“智商”还不错的“声纹”大脑,它在你说出8-10个字的情况下可以判断出是不是你在说话,或者在你说1分钟以上的话后,就可以准确地判断出你是否是给定的1000人中的一员。这里面其实包含了大部分生物识别系统都适用的重要概念:1:1 和 1:N,同时也包含了只有在声纹识别技术中存在的独特的概念:内容相关和内容无关。

对于一个生物识别系统而言,如果它的工作模式是需要你提供自己的身份(账号)以及生物特征,然后跟之前保存好的你本人的生物特征进行比对,确认两者是否一致(即你是不是你),那么它是一个1:1的识别系统(也可以叫说话人确认,Speaker

Verification);如果它只需要你提供生物特征,然后从后台多条生物特征记录中搜寻出哪个是你(即你是谁),或者哪个都不是你,那么它是一个1:N的识别系统(也可以叫辨认,Speaker

Identification)。

技术上,简单的声纹识别的系统工作流程图。

对于声纹识别系统而言,如果从用户所说语音内容的角度出发,则可以分为内容相关和内容无关两大类技术。顾名思义,“内容相关”就是指系统假定用户只说系统提示内容或者小范围内允许的内容,而“内容无关”则并不限定用户所说内容。前者只需要识别系统能够在较小的范围内处理不同用户之间的声音特性的差异就可以,由于内容大致类似,只需要考虑声音本身的差异,难度相对较小;而后者由于不限定内容,识别系统不仅需要考虑用户声音之间的特定差异,还需要处理内容不同而引起的语音差异,难度较大。

目前有一种介于两者之间的技术,可以称之为“有限内容相关”,系统会随机搭配一些数字或符号,用户需正确念出对应的内容才可识别声纹,这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异,这种特性正好与互联网上广泛存在的短随机数字串(如数字 验证码 )相契合,可以用来校验身份,或者和其他人脸等生物特征结合起来组成多因子认证手段。

具体到声纹识别算法的技术细节,在特征层面,经典的梅尔倒谱系数MFCC,感知线性预测系数PLP、深度特征Deep Feature、以及能量规整谱系数PNCC 等,都可以作为优秀的声学特征用于模型学习的输入,但使用最多的还是MFCC特征,也可以将多种特征在特征层面或者模型层面进行组合使用。在机器学习模型层面,目前还是N.Dehak在2009年提出的iVector框架一统天下,虽然在深度学习大红大紫的今天,声纹领域也难免被影响,在传统的UBM-iVector框架下衍化出了DNN-iVector,也仅仅是使用DNN(或者BN)提取特征代替MFCC或者作为MFCC的补充,后端学习框架依然是iVector。

上图示出了一个完整的声纹识别系统的训练和测试流程,可以看到在其中iVector模型的训练以及随后的信道补偿模型训练是最重要的环节。在特征阶段,可以使用BottleNeck特征取代或者补充MFCC特征,输入到iVector框架中训练模型。

在系统层面,不同的特征及模型,可以从不同的维度刻画说话人的声音特征,加上有效的分数规整,将各子系统融合能有效的提高系统的整体性能。

声线是什么意思?

声线的概念是类比光线(light ray)而来的。声线和光线一样,也会发生反射和折射现象。声线是自声源发出,代表声能传播方向的直线或曲线。

只有在几何声学适用的范围内,声的波动性质不计,声线才有意义。在各种各向同性的媒质中,声线代表波的传播方向,处处与波阵面垂直。由于折射和反射现象存在,声线不一定是直线,可以是折线或曲线,但声线与波阵面始终正交。

物理学解释:

物理学中,声线(sound ray)的概念是类比光线(light ray)而来的。声线是自声源发出,代表声能传播方向的直线或曲线。只有在几何声学适用的范围内,声的波动性质不计,声线才有意义。

几何声学中,声线刻画了声波的传播路径,代表波的传播方向,处处与波阵面垂直。

声线和光线一样,也会发生反射和折射现象,声波遇到某一物体时,会遵从反射定律,反射回声音。也会部分发射折射,进入新介质中,其传播遵从折射定律。由于折射和反射现象存在,声线不一定是直线,可以是折线或曲线,但声线与波阵面始终正交。

以上内容参考 百度百科—声线

结语:以上就是首席CTO笔记为大家整理的关于人工智能的声线是什么的相关内容解答汇总了,希望对您有所帮助!如果解决了您的问题欢迎分享给更多关注此问题的朋友喔~


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:/AI/9160.html