发布时间:2025-03-10 已有: 位 网友关注
和利鹏:我们是尽量提供能力,合作伙伴在做创新场景。要说目前AI爆款应用,现在还没有,我的理解是,目前处在创新的前期,大家都在试用,哪一天爆款出来,就会是快速地增长。
问:如何看待实时互动的市场空间?
和利鹏:AI大模型推动了人和机器交互,对于RTE赛道是更大的扩展。之前大模型都是文字,现在通过RTE让大模型能够听懂看懂,也是把场景变得更丰富了,会有更多的应用落地。
我们认为,这次是人机交互界面的变革,之前我们一直用键盘,手机没有触摸屏,下一个变革应该就是所有触摸式和键盘都变成语音式,现在我们已经看到了一些苗头,很多之前做传统软件的公司,现在都在重新写自己的代码,要么加智能助手,要么加音频输入。人机交互的界面都变了,语音交互就得是实时的,这是一个比较大的AI赛道的变化。
我们也会看到,现在的模型是在云端,将来会有端云配合,声网也有自己比较实时的网络,需要更好地连通和覆盖,这些会起到让AI行业快速发展、快速迭代的作用。
问:1分钟不到1毛钱,将来市场容量的前景多大?
和利鹏:人和人交互只有那么多人,人和机器交互,机器比人还多,赛道空间就更大了,对于我们来说是一个比较大的增长空间。至于是不是能够很快收回成本,我们倒觉得没有,AI是一个比较长期的、大的机会,看到这个机会肯定要快速进去。达到一定预期以后,我们肯定会有比较好的收入。
问:价格还有下降的空间吗?
和利鹏:我们未必会降价,因为首先要保证体验越来越好,将来带来情感价值,我们反而是想把质量进一步提升,让用户觉得更值。当然,大家要是觉得成本比较贵,我们到时候再去考虑,但目前的情况下,我们要把质量不断提得更高。
姚光华:因为我们已经把价格定得很便宜了。
AI幻觉不能消灭,可以减少
问:对话式AI引擎从立项到落地的过程中,都碰到哪些问题和瓶颈,怎么解决的?
姚光华:对话式引擎牵涉到的部门比较多,包括算法、体验、工程化、测试、产品等等,过年的时候专门找了一个小黑屋,所有人在里面加班,一共应该有十几个人。DeepSeek出来之后,我们做AI的人全部都在加班,看到DeepSeek给中国科技界带来的正向影响,我们也想参与到这种浪潮中。
和利鹏:现在的产品开发过程都是动态的,潜在的用户不断反馈,也在和一些友商PK。我们的产品需要快速反应、快速迭代。声网成立至今11年,一直都在打造这种开发能力,特别是实时互动方面,我们还是很有信心的。
问:你们有没有遇到过比较大的挑战?
姚光华:即时互动是按照毫秒压缩,特别是响应延迟,我们做到1秒钟,接下来就要再压缩。我们给出一个清晰的目标,要做到世界一流,然后最终把体验做出来。
和利鹏:对话式AI强调体验,包括延迟、响应打断、人声的锁定。之前声网实现了人和人之间的即时交流,这次是人和机器的交流,交流模式发生了变化,技术要求是不一样的。我和你交流只需要分配网络,但对面是机器的话,可能会有打断和快速响应,在落地工程化方面还是有很多的挑战。
姚光华:AI用户体验相当于无人区,没人知道衡量哪几个指标,比如,锁定人声这一点之前根本没人提过,是客户提出来的,不想失去实时打断的能力,就要把对话过滤做出来,之前有没有降噪基础,没有的话就要开发一个新的。我们是把认知变成标准,把标准变成指标,然后呈现到今天发布的产品当中。
问:Manus过代码构成整个网络步骤,这种语音上的Agent和图文上的Agent有什么区别?
和利鹏:人的交互模式肯定是多模态的,实时互动是很重要的一部分,随着行业的发展,我们就在想能不能不输入文字?语音包含情绪,所以信息会更丰富。我觉得目前是这种形态,是不是可以用摄像头交互,让摄像头完成一些事情?可能让AI把简历过一下,打开摄像头和麦克风以后还能不能做其他的事情?这些是我们比较关注的。
现在来看,Agent的形态肯定非常多,输入方式也非常多,将来可能把语音也会加入进去,或者多个人同时去做一件事情。行业发展得太快,我们是把基础能力准备好,让大家在里面去做创新的场景。
姚光华:AI引擎产品之所以叫引擎,就是因为我们不做Agent,只想构建对话式,将来会有其他的调整。我们觉得这是一种颠覆性的交互方式,对话的情绪价值如果能够发展得非常好,Humanlike做得非常好,就是超越工具以外的一个陪伴的东西,可能是一个宠物,介于宠物和朋友之间。
问:Minimax、ChatGPT等对话产品都有严重的幻觉问题,怎样消除幻觉?
和利鹏:幻觉减少肯定是模型自己本身要迭代的,除此之外,我们要看到周围的噪音,如果让你的声音不清楚,也会造成误解。声网需要锁定人的声音,把背景的声音都清除,让原始声音很干净。
幻觉这个东西不可消灭,可以减少,就像今天的,人和人的交流也会有误解,但你发现误解的话,通过告知更多的上下文让对方知道自己说错了。人和人之间交流都会有幻觉,我们的知识背景不一样,你的理解和我的理解也不一样,但通过几次交流,大概知道我是什么意思。
姚光华:我也这么认为,模型的参数量更小,聚焦在一个垂类的话,上下文的不断增多会让幻觉减少。
今后我们都在推理参与决策,这是最核心的,看到幻觉产生的路径,然后告诉对方,这个东西你想错了,然后就会重新开始想这个事情,参与最终的决策,这是消除幻觉的唯一路径。
问:这就减少了实时交互的可能性,就像自动驾驶,等着思维链的输出不太可能。
和利鹏:我们也在讨论,一定要分场景。有些场景是实时的,不能有等待的时间。我们现在也接到具身机器人的需求,延时的要求很高,包括客服外呼等等,不能等半天才回答,所以这确实是比较细分的,不是所有场景都要用声网,还是要找到最合适的,就是延时、交互、陪伴等等。
最近我也看到智能硬件的需求确实比较多,我们跟芯片厂商合作,打造出不同的形状,但里面都是对话式AI。孩子用了DeepSeek以后变成了十万个为什么,小孩希望快速互动,不在于答案准不准确,就是希望能玩起来。