一场关键比赛,刚刚在全球顶级语音会议INTERSPEECH 2021上决出胜负。
腾讯、西工大、CMU等国内外机构是这场对决的主办方,两项比赛内容是语音行业的前沿研究,针对真实视频会议场景。
来自中国、美国、新加坡等16个国家和地区的实力队伍参赛,其中有像浙大、北航这样的顶尖高校,也有像中科院声学所这样的专业研究机构。
两项任务的第二名,分别是来自浙江大学和海康威视研究院联合团队,以及中国科学院大学、中科院声学所、北京航空航天大学、北京语言大学、西北工业大学联合团队。
快手团队在这场比赛中所使用的技术,已经以2篇论文的形式被INTERSPEECH 2021收录。
语音增强技术,指在含噪语音中,对噪声信号进行抑制、降低,尽可能提取纯净的原始语音信号。
如果场景中只有一个麦克风(单通道),将难以解决在会议室、智能家居、智能座舱等场景下出现的远场问题。
主要存在三个难点:信噪比低、房间混响(在封闭、室内场景下,声波在传播时不断被墙壁反射、吸收和衰减)、多人说话场景
因此,一般会用多通道(多个麦克风组成的阵列)技术,来获取更多不同方向信号的幅度和相位信息,进一步解决远场问题,就是这场挑战赛的目标。
多通道包括单个、多个分布式麦克风阵列两种类型,因此这场挑战赛也由两项任务组成,分别考查这两种多通道类型的远场语音增强技术。
传统基于信号的多通道算法,往往噪声抑制能力有限。这次的比赛中,快手团队决定从一个新方面出发解决远场问题:将深度学习技术和多通道算法进行融合。
经过筛选后,团队最终敲定了U-Net模型架构,这是一个图像分割领域的经典模型,在医疗图像和遥感领域的应用效果很好。
U-Net模型以其结构左右完全对称、非常像“U”而得名,与FCN相似,同样为encoder-decoder架构,最初被用于图像压缩和图像去噪中。
由于下采样和上采样均进行了4次,同时相比于FCN多了skip-connection(跳层连接)结构,因此U-Net能很好地提取高级语义信息和低级特征。
但团队却将U-Net用在了语音增强领域中,基于因果U-Net提出了一种多输入多输出算法模型。
因果U-Net的卷积结构采用了因果卷积(causal convolutions),目的是考虑实时问题(语音数据处理需要仔细考虑实时性)。
事实上,将深度学习技术用于多通道模型,仍属于前沿研究,相关论文非常少。这也成为了团队设计模型时的一大难题。
经过反复测试验证后,团队发现,如果将模型的输出和经典的波束形成相结合,就能获得1+1>
2的效果。
同时,在整体设计的基础上,串联一个后处理滤波器,对基于深度学习模型生成的语音信号进行二次降噪,让语音音质更加清晰。
事实证明,这一“跨界”模型的效果确实不错,原本大范围的使用在图像分割领域的经典模型,现在在语音增强领域也能取得不错的效果。
最终,快手团队研发的多输入多输出模型支持8通道语音增强技术,同时具有可扩展性(能扩展不同的通道数量)。
举办方只会给出纯净的单人语音和噪声数据,但在最终的场景考核中,所有语音信号却都来自真实场景。
也就是说,在最终比赛时,模型会遇到各种远场情况、不同房间尺寸、不同麦克风放置地点和各种噪声强度等不一样的数据,但训练数据却完全要靠团队自行设计。
这就需要参赛者合理考虑各类数据的占比,尽可能使模拟出来的数据更贴近真实情况。
不仅如此,由于此前深度学习在语音增强方向的研究大多基于单通道模型,因此团队自行设计的数据,还得进一步考虑多通道的情况。
也就是说,需要对同一场景下、不同麦克风(通道)收到的信号数据来进行模拟,用于多通道模型的训练。
尽可能还原真实场景的合成数据,加上自己研发的基于深度学习的多通道模型,让快手团队最终在这场语音增强比赛上获得两项任务的第一。
虽然「远场多通道语音增强技术」确实尚处于前沿研究阶段,但它未来的应用场景也已经得以预见。
常见的线上视频会议中,基本上任何一个人都需要佩戴一副耳机,才能实现多人视频会议,这也是目前大多数视频会议APP所能实现的功能。
但未来可能只需要一块屏幕,加上多通道语音技术就能在两个异地部门、或是两群人之间实现实时视频沟通。
即使坐在屏幕最远端的人,也能听见视频对面每个人的声音,就像在一个办公室沟通那样顺利。
5G+AI的组合,让XR中的图像实时传输技术成为现实,但语音实时交互却任旧存在不少困难,其中远场是不可避开的一个技术难点。
如果远场多通道语音增强技术进一步得到发展,或许将来XR也能真正的完成语音上“声临其境”的交互效果。
想象一下,如果将来XR能应用到直播中(例如户外直播),或许我们也能实时进入到直播环境中,足不出户感受世界的美景。
作为音视频行业的引领者,快手已经在探索这样的多通道语音增强技术落地场景。
将来,像多人会议、XR、直播场景互动这些设想中的“无障碍”听觉技术,说不定哪天就会成为产品,落入寻常百姓家。
在这次的语音增强比赛上获得第一,背后是一整个快手的音频处理算法团队在做技术支撑。
据团队成员表示,实现这个模型,团队用了将近一个月的时间,期间在模型设计和数据处理上遇到了不少难关,但最终团队都将它们逐一攻破。
毕竟远场通信的一大特点就是实时性,如果模型设计得太大,忽略了可实现性的话,也会失去落地应用的价值。
这也是快手“技术无差别”的基因之一,让技术更贴近实际生活,尽可能造福每一圈层的人群。
而在技术落地方面,同样是在今年5月,快手还上线了基于深度学习的实时变声直播,成为行业中首个上线有关技术的公司。
去年12月,高通宣布了全球首款基于7nm生产的基本工艺、适用于Always Connected PC的处理器--骁龙8cx;今年的MWC大展上,高通宣布了骁龙8cx 5G,是全球首个商用5G PC平台。在即将开幕的Computex 2019大会上,联想计划推出业内首款支持5G网络的Windows 10 PC,并且会搭骁龙8cx 5G平台。高通官方账号发布推文称:“我们正和联想一起开启现代计算的新时。即将启幕:全球首个5G PC,搭载高通骁龙8cx 5G。” Snapdragon 8cx 5G,这是与Snapdragon X55 5G调制解调器搭配使用的8cx的变种。Snapdragon X55是高通公司的第二代5G调制解调器,有望提
网络PC /
深思考人工智能机器人科技(北京)有限公司投资股东由5名增加至6名,新增股东为哈勃科技投资有限公司,而哈勃是华为刚于今年4月23日成立的全资子公司。 目前,深思考拥有两家全资子公司,分别为上海深芯智能科技有限公司与深芯人工智能科技(杭州)有限公司。 图片来自:天眼查 深思考官网显示,该公司是一家专注于类脑A与深度学习核心科技的AI公司,核心团队由中科院自动化所、软件所、计算所、微电子所等中科院院所等专家组成,公司的核心技术是“多模态深度语义理解技术”,可同时理解文本、视觉图像背后的语义。 此前,该公司曾发布全球首款医疗专用深度学习处理器M-DPU,全球首款边缘语义理解专用深度学习处理器S-DPU。 今年4月份华为出资7亿元
公司深思考 /
11月25日,模式识别和AI学科前沿研讨会上,谭铁牛院士做“人工智能新动态”报告,回顾了近代以来历次科技革命及其广泛影响,并根据科学技术发展的客观规律解释了当前人工智能非常关注的深层原因。报告深入分析了其当前存在的局限性和面临的瓶颈问题,整理并列举了2017年人工智能的十件大事,全方位、多维度展示了人工智能所取得的最新进展。基于对这些事件的深入分析,报告总结了人工智能未来的发展的新趋势和需要我们来关注的研究方向。 在科学研究中,从方法论上来讲都应先见森林,再见树木。为了更好地带领大家认识人工智能的发展的新趋势,报告回顾了近代世界科学技术发展的历史进程,最重要的包含从16世纪到现在,世界上发生的两次科学革命与三次技术革命。 报告说明,这五次科技革命对
电信设备巨头华为,也为全球众多的运营商提供了大量的5G基站,在国内目前就已建成了20万个。 华为在国内建成20万个5G基站的消息,是由华为无线G Summit上透露的,他在会上表示华为已在国内建成20万个5G基站。 随着5G网络建设的推进,华为在国内的5G基站数量还会促进增加,甘斌在会上就表示,预计到今年年底,华为在国内所建成的5G基站将达到80万个,覆盖全国超过340个城市。 华为官网所公布的信息数据显示,他们是在2009年开始投入5G的研发的,近十年累计投入40亿美元,在5G核心技术上有诸多突破,华为在ETSI的5G基础专利数量以及在3GPP 5G标准提案数量排名均为第一。 华为也在全球
9月30日,《海南省加快工业互联网创新发展三年行动计划(2021-2023年)》(以下简称《计划》)印发。 《计划》提出,围绕海南省高新技术产业高质量发展布局,到2023年底,建立健全全省工业互联网网络、平台、安全、创新体系,促进新一代信息技术与制造业融合发展,加强数据要素聚集,支撑全省工业经济高水平发展再上新台阶。 一是网络能力明显地增强。2021-2023年力争新增部署5G基站数量1.2万个,基本实现全省室外广域覆盖。推动5G行业专网落地,计划打造15个以上内网改造标杆工厂。加快工业互联网标识解析在重点行业推广应用。热情参加构建国家工业基础大数据库,适时开展工业互联网大数据分中心建设。 二是平台应用深化拓展。引导建设符合本地特色的产业
2016年是机器人市场大爆发的一年。伴随着人工智能、大数据、语音等技术的迅速成熟,人们的目光不在仅仅关注机器人在工业领域的应用,而是投向了市场更为广阔的服务机器人。根据国际机器人联盟的预测,2015-2018年期间,个人及家庭用服务机器人的全球销量将高达2590万台,市场规模高达到122亿美元,超过2014年市场规模的5倍。 服务机器人的应用远比工业机器人广泛,随着我们国家经济水平的提高,及老龄化社会的到来,机器人将在医疗、养老、公共政务、家居、商场等各种服务场所发挥及其重要的作用。在中国,家居生活始终是人们关注的重心,在忙碌的工作之余,能通过机器人与家人进行即时沟通,对家用电器进行智能化管理,慢慢的变成了都市白领渴求的潮流生活。今年一
标准化机构3GPP公布了5G LOGO。 (图/翻摄3GPP) 集微网消息,标准化机构3GPP日前正式公开宣布,5G将成为下一代移动网络连接技术的正式名称,让5G正式成为LTE以及LTE-Advanced 4G网络之后的新一代移动通讯技术。 在宣布5G成为下一代移动网络连接技术的正式名称,3GPP也连带公布了5G的官方标志。 熟悉LTE官方LOGO的朋友显而易见,5G的LOGO其实是建立在LTE官方LOGO的基础之上,并改采绿色波纹所成,在共享异曲同工之妙之际,看来也相当简单大方。 无疑,5G时代来临将全面改变人类的生活,不仅移动网速将逐步提升,也代表着万物互联的时代即将成为你我生活的日常,极具时代性的意义。 5G的官方LOGO
多年来,保险行业似乎无时不刻都在面临着“如何提升客户体验”这样的一个问题,从冗长复杂的保单内容,再到交互效率低下的操作系统,似乎一直都在挑战客户的耐心和甄别能力。在工作节奏持续加快的今天,一份保险或许便是支撑当代年轻人远航的安全港。而随着90后在社会中扮演的角色慢慢的变多,这些“互联网原住民”的抗风险意识也在慢慢地加强。由于几乎同时伴随着网络的发展而成长,90后群体的保险使用体验却并没有正真获得满足。而对于保险从业者来说,铺天盖地的工作需求、繁杂的核保流程,和来自客户的投诉抱怨,也慢慢的变成为不容忽视的职业障碍。 需求和被需求的无解困局 虽然每家保险公司都有网站,或许还有手机APP,但数字化远不是一个网站和APP所能诠释的。数字化
在新能源汽车行业的应用_万舜
的低功耗电源系统模块设计的优化研究_马晓红
诊断方法研究_唐圣学
【电路】ADXL05型带有信号调节±1g至±5g的单片加速度传感器电路
2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站, 火热报名中
Follow me第二季第4期来啦!与得捷一起解锁蓝牙/Wi-Fi板【Arduino Nano RP2040 Connect】超能力!
嵌入式工程师AI挑战营(进阶):基于RV1106部署InsightFace算法,实现多人的实时人脸识别
用FPGA解决高频交易时延问题:AMD推出Alveo UL3422金融专用加速卡
AMD正式对外发布了新一代Alveo UL3422金融科技加速卡,其专为金融行业进行服务,特别为高频交易领域设计。...
CAN(Controller Area Network)是一种用于汽车和工业控制管理系统的局域网技术,它具有高可靠性、实时性和灵活性。而RS-485是一种串行通信协 ...
CAN(Controller Area Network)是一种用于汽车和工业自动化领域的通信协议。采集到的CAN数据需要经过处理和分析,以便更好地理解通信过 ...
CAN(Controller Area Network)是一种基于总线通信的局域网技术,大范围的应用于汽车电子、工业控制等领域。在实际应用中,CAN通讯电路的好 ...
测量CAN总线(Controller Area Network)的高电平和低电平电阻是一项重要的工作,因为它们对于确保CAN总线 引言C ...
站点相关:嵌入式处理器嵌入式操作系统开发相关FPGA/DSP总线与接口数据处理消费电子工业电子汽车电子其他技术存储技术综合资讯论坛电子百科