新疆都市报 > 科技 > 智能 >

摄像头上的那些音视频黑科技

发布时间:2022-03-23 02:02来源: 未知
  随着时代的发展和科技的进步,如今摄像头产品在功能和性能上都有了巨大提升。在应用范围上,除了搭配PC使用外,摄像头在视频会议、直播带货等商用领域也被广泛使用。为了提升摄像头的使用体验,很多厂商在产品上加入了许多新技术,比如让摄像头对焦更快、更精准,让摄像头拥有更好的音频体验等。本期,我们就来聊聊摄像头上的那些音视频黑科技。
 
  市场痛点:功能全面的摄像头凤毛麟角
 
  在电商网站上以“摄像头”为关键词进行检索,你会发现其中绝大部分产品都只集成了麦克风功能,带扬声器的摄像头并不多见。那么为什么很多摄像头本身没有集成扬声器呢?首先,当集成了扬声器后,成本会有所增加;其次,扬声器与麦克风都集成在一个摄像头上,当麦克风采集音频时会遇到扬声器发出的声音,这就导致扬声器自己发出的声音会被再次采集然后又通过扬声器播放出来,如此反复就形成了回声,如果调校不好,会影响用户体验;最后,如果麦克风不支持噪声抑制,当环境中存在其他杂音干扰,就会影响音质的采集,对方和自己听到的声音品质就会大打折扣。如果加入噪声抑制和回声消除,这会进一步增加成本,这也是很多摄像头都不带扬声器的原因。
 
  目前,市面上有少部分麦克风扬声器一体的摄像头,不过绝大部分都是名不见经传的小品牌。这类产品通常都是采用不到百元的监控摄像头的方案,麦克风拾音效果差,扬声器更是谈不上音质,只是满足用户“听个响”而已。由于受成本限制,像专业的噪声抑制、回声消除等功能都不支持。
 
  此外,在画质方面,虽然目前有很多摄像头都将分辨率提升至4K,但在对焦方面还是存在很大的问题,比如MC评测室曾用于直播的某款中高端摄像头,经常出现对焦慢、对焦不准、反复对焦的问题。也就是说,当前大部分摄像头都只是将重点放在了拍摄的分辨率上,而在音频、对焦等方面存在短板。
 
  那么市面上有音频品质和各方面功能都比较出色的摄像头吗?有,不过产品凤毛麟角。我们在市面上找到了一款在各方面表现都比较均衡的摄像头:Rocware RC08,号称是集成了全高清摄像机、全向麦克风、全频扬声器一体的摄像头,同时内置音频3A算法(AEC/AGC/ANS)、TOF激光对焦等黑科技,并支持全双工对话,是由国内著名的音视频通信设备品牌维海德推出。那么,这款产品是真的可以解决用户的痛点还是“王婆卖瓜”呢?我们接下来会对它进行拆解,分析它的内部用料并解析它的音频3A算法黑科技。
 
  SSC333主控芯片+ SC2239图像传感器+HT8693功放芯片
 
  拆解后可以看到Rocware RC08采用了一颗SigmaStar(厦门星宸科技有限公司)SSC333主控芯片,该芯片被广泛应用于家用监控和摄像头领域。据公开资料显示,SSC333采用了单核心设计,主频为800MHz,基于ARM Cortex-A7架构。虽然SSC333的核心数不多,但是它却拥有非常高的集成度。比如它内置了ISP图像信号处理器、H.264和H.265以及MJPEG视频编码器等。
 
  另外,它还支持音频输出,并具备音频模数转换器(ADC)和数模转换器(DAC)等外围设备接口,以实现扩展的灵活性。SSC333兼容G.711、G.726、ADPCM多种音频编码格式,还能支持音频3A(AEC、ANS、AGC)算法,这也为Rocware RC08的音频表现奠定了基础。此外,SSC333内置了512MB DDR2内存,支持WDR、多级降噪、多种图像增强和矫正算法,能提供更好的图像质量。
 
  与SigmaStar SSC333主控芯片搭配的还有一颗来自SmartSens(上海思特威)的SC2239图像传感器,这颗CMOS主要用于监控系统、网络摄像机、行车记录仪、运动相机以及视频会议的摄像头领域。SC2239拥有200W像素,像素大小为2.9μm×2.9μm,尺寸为1/2.8英寸,最高支持1920×1080@30fps分辨率的图像。SC2239拥有高光敏度和高信噪比,信噪比为38dB,同时还支持850nm/940nm波长的红外灯。
 
  为了让摄像头拥有更好的声音表现,Rocware RC08加入了一颗嘉兴禾润电子科技有限公司生产的HT8693单声道功放芯片。这是一颗具有AB类和D类两种工作模式的音频功率放大器,在D类模式4Ω的负载下,可连续输出11W的功率。该芯片具有防破音输出控制功能,能够自动监测输入的声音信号幅度过大导致的输出声音出现破音问题,并可以提高声音质量。此外,它还集成了免滤波器数字调制技术,能够直接驱动扬声器,并最大程度降低输出信号的失真和噪声问题。
 
  可以看到,RC08在机身内部最主要的核心芯片上都是采用的我国企业的自主产品,这也说明在视频监控、摄像头领域的芯片已经实现了自主可控。当然,为了确保产品的品质,RC08所采用的芯片都是国产中的头部企业,真正实现了自主可替代。
 
  音频3A算法黑科技让音频性能大幅提升
 
  如果说硬件是产品的躯体,软件是灵魂,那么算法就是中枢神经系统。优秀的算法能让硬件的性能得以充分发挥,为了让Rocware RC08在音频效果上拥有更好的体验,它通过算法技术让产品在搭配了麦克风和扬声器的同时还能消除噪声和回声干扰。相信很多读者好奇这是如何实现的呢?接下来我们将对它的算法技术进行解析。
 
  Rocware的工程师赋予了RC08优秀的音频3A算法—AEC(Acoustic Echo Cancelling,回声消除)、AGC(Automatic Gain Control,语音自动增益控制)、ANS(Active Noise Suppression,主动噪声抑制)。那么这个音频3A算法是如何工作的呢?
 
  假如RC08在的扬声器在播放声音时,声音通过空间传播、反射后,会再次被它的麦克风采集到,同时再遇到说话的声音时,如果没有AEC算法,那么就会导致通话中一直循环往复地听到自己的回声。AEC算法的作用是将不需要的回声从语音流中筛除,通常最常见的算法是对消。AEC通过扬声器信号与扬声器所产生的回声信号,建立一个语音模型,再通过它对回声进行估计,然后不断地修改滤波器系数,让建立的语音模型估计值接近真实回声值。最后再将回声估计值从麦克风的输入信号中相互抵消,从而达到消除回声的目的。如果算法中的估计值越准确,那么过滤的回声效果就越好。另外,AEC还可以将麦克风的输入值与扬声器的输出值对比,然后过滤掉经过多次反射回来的延迟回声。
 
  那么问题来了,当输入的语音信号很弱时,是不是AEC算法就不起作用了?这个时候AGC算法开始工作了。我们在日常面对面交谈时的声音大小通常在40——60dB左右,如果两个人距离稍远,声音低于30dB时,听起来就比较吃力,如果声音过大,比如超过100dB的时候,又会让人不舒服。AGC的作用则是将声音调整到合适的范围,它分为模拟调整与数字调整两种方式,模拟调整是通过麦克风的采集,数字调整则是通过声音数据流的数字电平调整。当输入信号很弱,那么AGC就会自动放大语音信号,当输入的语音信号过大,就会进行抑制,让输出的语音不会忽大忽小。
 
  当回声的问题解决了,事实上还有来自外部环境的噪声,比如公共场所中嘈杂的人声、播放音乐的声音等。如果设备将这些噪声也采集后,会严重影响通话的质量。此时,就需要用到ANS噪声抑制算法了。ANS算法的作用是对有干扰的声音信号进行压制和消除,同时改善语音信号的信噪比和语音清晰度,让人与机器都能听得清。噪声有平稳和瞬时噪声两种类型,其中前者的噪声频谱比较稳定,而瞬时噪声的频谱持续时间短并且没有谐波等特点。利用噪声的特点,为声音数据加入反向的波形,最终消除噪声。
 
  Rocware RC08通过采用一个全向麦克风收集语音和噪声信号,然后再对麦克风采集的输入信号与数字信号比对,从而过滤掉环境中的噪声。这种单麦克风采集和过滤噪声信号的方式采用的算法更加复杂,并且对算法技术的要求更高。
 
  TOF激光对焦:快、准
 
  我们知道,不论是手机还是摄像头甚至是投影机,自动对焦是非常关键的性能之一。Rocware RC08为了获得更好的成像效果,它加入了TOF激光对焦模组。对焦的方式有很多种,比如有相位对焦(Phase Detection Auto Focus,PDAF)、反差对焦(Contrast Detection Auto Focus,CDAF)、激光对焦(Laser Detection Auto Focus,LDAF)等。由于相位对焦和反差对焦都是通过外界光感进行的对焦,所以对环境光线要求较高,如果环境光线较暗,就会导致对焦速度变慢。而激光对焦方式则不存在这种问题,它是通过发射红外光线,借助被反射回来的红外光计算出拍摄的物体之间的距离,然后对焦马达开始移动进行对焦。哪怕是在暗光环境下也能实现快速对焦,不过发射的红外光距离有限,它更适合在室内的环境中使用。像Rocware RC08这类摄像头采用了激光+TOF相结合的方式,不仅能做到对焦速度快,而且也更准。它可以计算光线从光源到被拍摄物体或人体的时间,从而计算出被拍摄物体或人体的深度信息。
 
  相对来说,采用TOF激光对焦成本相对更高,非常适合应用在视频会议、直播这些专业应用场景。那么如何分辨摄像头是否采用了激光对焦呢?以Rocware RC08为例,可以将摄像头通电后,将手机摄像头对准它的激光对焦发射器,手机屏幕上会出现红色的反光,就证明这是一款真正的激光对焦摄像头。