【来源:虎嗅网】
本文来自微信公众号:果壳 (ID:Guokr42),作者:糕级冻雾,编辑:沈知涵
前些天,在公司跟同事一起看小米发布会,他们一个个都盯着超跑跃跃欲试,而我(因为经济实力)只能点头微笑,仿佛镇定地表达对新耳机更感兴趣(扶额苦笑.jpg)……
是的,又一款冠以AI头衔的耳机。
官方自夸小米Buds 5 Pro为“4000元以内音质最好TWS耳机”,拥有无损音质、深度降噪,以及一些AI功能。
小米Buds5 Pro Wi-Fi版能达到2.1甚至4.2 Mbps的传输速率;
55dB的降噪深度,AirPods Pro 2官方未公布具体数值,发烧友测试在40-44dB左右,Bose“王牌产品”QC Ultra Earbuds最深度也是46dB左右;
频响范围在15-50kHz,然而正常人耳能听见的频响范围是20-20kHz。
Buds5 Pro Wi-Fi版本搭载了骁龙S7+音频平台,是目前唯一支持Wi-Fi功能的蓝牙耳机芯片,但主要还是服务音频传输速率。
耳机支持高通aptX Lossless编码,该协议支持传输16bit/44.1kHz音频,这也是CD唱片和主流音乐平台里无损音乐(绝大多数)的规格。
aptX Lossless官方最大码率为1200 kbps,而Wi-Fi版最高达到4200 kbps,理论上也为后续更新的编码,提供了更大的码率空间。
这似乎跨过了“AI耳机得先是一个好耳机”的门槛?
暂时,还没有一个能打的
其实,TWS耳机自开始就少不了AI算法——处理音质、优化拾音、环境分析、智能降噪等等。
但今天我们讨论的AI,意味着让耳机去做一些更时髦的任务:给打工人翻译、整理速记、唤醒智能助手。反而TWS原本的“三要素”——佩戴、音质、降噪成为了AI耳机的短板。大众默认和市场成熟的产品形态和标准,却成为了让产品AI化的桎梏。
比如字节Ola Friend、Cleer ARC3、小度G108等选择了耳挂或者耳夹式。虽然相比入耳式更能成为一个“随身AI”,少了很多压迫和异物感,能长时间佩戴,但是被动降噪几乎没有,音质也会因为开放式设计,低频泄漏严重。
也有AI耳机选择了入耳式的外观形态。比如iKKO ActiveBuds AI、科大讯飞Nano+、飞利浦8号。降噪上用了主被动降噪结合,有几款官方标注的极限降噪深度能达到45db,效果还不错——但音质又拿不出手了。
iKKO ActiveBuds AI售价1899,不便宜了,蓝牙解码协议只支持到AAC、SBC,不支持音质更好的LDAC、aptX。在定位上,显然不是以音质为导向的耳机。对比市面上很多三四百元左右价位的“普通”TWS耳机,比如红米Buds6Pro、飞傲FW3、Oppo EncoAir4、1MORE S20等都没有在协议上做妥协。
很多AI耳机的宣传噱头,也更多在智能、生产力、陪伴等AI上,而可以淡化了关于音质、降噪、佩戴、续航、多协议等TWS耳机的基本品质——在前瞻性和实用性之间,还没有达到一种良好平衡。
不能只做手机的附庸啊!
那么耳机究竟把AI做得怎么样?
纵观大多数产品介绍,AI耳机如今也就“三大宝”:翻译、速记、唤醒智能助手。
你不免会问,这些功能哪个智能手机做不到?为什么还要额外买个AI耳机呢?这是个对于AI硬件来说一个老生常谈,又从未被很好解答的问题。
但耳机在处理语音需求优势巨大,似乎又天然为“语言大模型”而生——佩戴贴近耳朵和嘴巴,语音采集的信号更清晰,说话起止更易判别,麦克风收声时最大避免了环境噪音和语音衰减。
利用这些优势,是可以打磨出在某些垂直场景中比手机更加细致的用户体验的。
比如很多耳机配合连接手机做到,一人戴耳机,一人持手机,同步互译。
比如耳机像一款独立的录音笔一样,独立录制两小时会议。然后同步到手机里,转文字,翻译,会议纪要一下都出来了。
比如有的耳机号称支持翻译62种语言,还有能识别方言,维吾尔语、藏语之类的。
再比如,唤醒AI助手,随时聊天、练口语,景区讲解。更“赛博”一点的话,带着耳机和AI聊骚恋爱,可比举着个手机自然多了。
那么,第二个问题来了。Ola Friend叫出来基于豆包大模型的豆包,小米Buds 5 Pro叫出来接入DeepSeek的超级小爱,跟我通过AirPods唤醒Siri有啥差别?
AirPods是在2017年推向市场,大多iPhone用户早就无比熟悉问Siri天气如何、设置闹铃、甚至让它搜索一堆“锅包肉菜谱”的网页给你......
所以目前的AI耳机本质上还是一个“唤醒器”,是一个接收app音频输出的载体,与AI助手对话不是独立在耳机内完成,而是经过“耳机-手机App-云端-手机App-耳机”的路径。
其智能体现完全依赖模型能力,某款AI耳机就曾在直播活动中因为识别不出主播一句“I like百年孤独”中英文夹杂而卡住。
真·AI耳机,可不是要把手机塞进耳朵
耳机目前还无法成为具备独立联网、独立运算能力的设备,因为人耳体积是限制耳机内置AI算力和性能的天花板,其内置的计算能力承载不了哪怕是最小的端测模型。
体积上,目前最边缘的AI芯片,比如有13 TOPS算力的树莓派AI模块,物理尺寸都有22*42 mm,比单只AirPods Pro还宽还长,最少1-2W功耗。
目前TWS耳机功耗都控制在5-150mW(全功能开启后)范围内,1W功耗别说续航和技术上实现不了,塞进耳朵内无法有效散热,人耳也受不了,这下真“发烧”了(小伙儿~听啥见不得人的呢?咋耳根台子都红了)。
所以现阶段,AI耳机必须需要依靠外部算力,抛开手机的可能性也许是“复古”:比如颈挂式,比如配一个越来越大的耳机盒,用来扩容算力。
比如WISHEE Ai,iKKO Active Buds,把耳机盒做成一个带sim卡槽,能打电话,能上网,带屏幕,能下app的智能终端。
可想而知,将传感器,存储和计算单元,数据传输和网络连接等硬件模组放到一个如此“极致”的体积下,实际上算力应该非常有限,AI助手估计经常卡顿,聊着聊着,AI就消失了。
那么更加丝滑的语音智能交互应该什么样?
你们还记不记得,之前有一个引起了很多讨论的硬件,叫Friend AI——大体上是一个项链的形态,内置了麦克风,长续航电池,收集用户周围的声音信息,并通过连接手机与用户对话。
Friend AI的宣传片里,一名女生边吃饭边在手机上看剧,Emily(女生给其Friend AI起的名字)听到电视里的声音,给女生手机发消息说,“这部剧被低估了,太精彩了。”女生不小心把食物掉到其上面,又收到了一句,“味道还不错。”
这是很多AI硬件找到的成立理由,手机积累了大量数据但仍有限,能收集到比手机更多数据、更多维度数据,才能打造随身的“Personal AI”。
耳机如何实现这种个性化和智能化?
就像智能手表/手环,耳机也可以依靠捕捉到的佩戴者体征信息和环境声音后,提供“听力健康”类似的功能。
比如AI分析我的语气,检测我的情绪,然后自动推荐适合的音乐,白噪音来缓解压力,提升注意力,改善我当下的情绪。
耳机是语音交互最为直接的入口。对人来说,用语音交互非常自然,但对机器处理任务来说,并不高效。
区别于我们早已习惯的屏幕交互,语音对话是线性的(想想你做ppt汇报,和只有语音的电话会汇报,这两个场景的区别)。耳机应该成为更多环节复杂,但步骤明确,容错率高的语音场景的入口,一个随叫随到,交互摩擦尽可能少的AI助理。
比如当你再问耳机里的智能助手“锅包肉咋做”,它会考虑到你刚健完身,推荐一个低卡版给你,甚至从电商平台上比好了价,整理好了购物清单给你;
如果能与其他随身设备配合,比如根据手表在记录的运动类型,自动在跑步时放快歌,在游泳时播播客;
也会在你设置闹铃时,提醒你当天有哪些安排。
这也是大家仍执着于要AI耳机(或其他AI硬件)的原因——随身的AI不应该被困在某个app当中,而即将到来的通用agent,也许并不再会是软件应用,而恰恰是一款硬件,比如耳机。