当身边有人在狂欢时,在别人狂欢时要学会离场当你身边有人在聚会的时候。无论是人们在说话,孩子们在玩耍,隔壁的建筑工人,还是一只宠物狗试图从前廊吓跑一只想象中的怪物,当试图在Skype上打电话时,背景噪音真的听不见。不过这种情况在Skype会有很大改善今天我向大家介绍的是Skype桌面应用的最新背景降噪功能当你用Skype......
无论是人们在说话,孩子们在玩耍,隔壁的建筑工人,还是一只宠物狗试图从前廊吓跑一只想象中的怪物,当试图在Skype上打电话时,背景噪音真的听不见。
不过这种情况在Skype会有很大改善
今天我向大家介绍的是
Skype桌面应用的最新背景降噪功能
当你用Skype和对方通话时,除了你自己的声音之外,消除几乎所有的声音。
在设置中,点击音频和视频,找到“噪音消除”选项,调整周围的声音。
取消调整通话的Skype选项。
以下是可用的选项:
自动(默认)Skype应用程序将根据您的环境调整噪音抑制水平。
低将抑制低水平的持续背景噪音,如计算机风扇或空调。但是,如果您想要共享正在播放的音乐,您可以使用此设置。
高所有背景声音,除了语音,将被取消。
关闭噪音取消已被禁用。
注:启用此选项将使用更多的计算机资源,因为降噪发生在所用的设备上,而不是Skype。
真的有这么神奇吗
如果你想知道它是如何工作的,请继续读下去。
它的工作原理是对音源进行分析,然后利用经过专门训练的深度神经网络,在不影响说话人声音的情况下,过滤掉噪音。虽然传统的降噪算法可以解决简单而一致的噪音(例如风扇发出的噪音),但这些神经网络可以学习区分语音和更复杂和不一致的噪音(例如在键盘上打字,食物包装纸的吱嘎声,对,还有那只狗的嚎叫声)。
这项技术依靠机器学习(ML)来学习净化语音和噪音的区别,也就是通常所说的人工智能(AI)。使用一个有代表性的数据集来训练ML模型,以便它能在我们的Skype用户遇到的大多数情况下工作。在纯语音、噪音类型和用户加入在线电话的环境方面,数据集需要有足够的多样性。
为了实现这种多样性,我们使用的数据集包含大约760小时的纯语音数据和180小时的噪声数据。为了遵守微软严格的隐私标准,没有为此数据集收集任何客户数据。相反,我们使用公开可用的数据或众包来收集特定的场景。对于纯语音,我们平衡地使用男性和女性的声音。我们还收集了10多种语言(包括声调语言)的数据,以帮助确保模型不会扭曲单词的声调,从而改变句子的意思。对于噪音数据,我们包括了150种噪音,以覆盖用户可能遇到的各种场景,从键盘输入到流水到打鼾。我们也在纯言语中包含情绪,以防止笑或哭等表达受到抑制。用户加入Skype会议的环境特征对语音信号也有很大影响。为了捕捉这种多样性,我们使用来自3000多个真实房间环境和115000多个合成房间的数据来训练我们的模型。
当我们采用深度学习时,拥有一个强大的模型训练基础结构是很重要的。我们使用Microsoft Azure使团队能够开发ML模型的改进版本。从噪声中提取原始纯净语音的另一个挑战是以人类耳朵认为自然和愉快的方式。由于没有与人类感知高度相关的客观指标,我们开发了一个框架,使我们能够将处理后的音频样本发快递给众包供应商,它们的音频质量将由人类听众在一到五颗星的范围内进行评级,以获得平均意见得分(MOS)。在这些人类分数的帮助下,我们可以开发新的感知指数,并且在人类主观分数的帮助下,我们在提高深度学习模型的质量方面取得了快速进展。为了促进这一领域的研究,我们开源了感知质量的数据集和众包框架。
最后,我们创建了一个deep 学习模型,以便在Skype桌面应用程序上实时高效运行。通过针对人类感知进行优化,我们可以在质量和复杂性之间实现良好的妥协,这意味着用户使用的大多数Windows设备都可以利用基于人工智能的降噪功能。
特别声明:以上文章内容仅代表作者本人观点,不代表ESG跨境电商观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与ESG跨境电商联系。
二维码加载中...
使用微信扫一扫登录
使用账号密码登录
平台顾问
微信扫一扫
马上联系在线顾问
小程序
ESG跨境小程序
手机入驻更便捷
返回顶部