对话声网：实时交互正催生AI新赛道

发布时间：2025-03-10 已有：位网友关注

　　和利鹏：我们是尽量提供能力，合作伙伴在做创新场景。要说目前AI爆款应用，现在还没有，我的理解是，目前处在创新的前期，大家都在试用，哪一天爆款出来，就会是快速地增长。

　　问：如何看待实时互动的市场空间？

　　和利鹏：AI大模型推动了人和机器交互，对于RTE赛道是更大的扩展。之前大模型都是文字，现在通过RTE让大模型能够听懂看懂，也是把场景变得更丰富了，会有更多的应用落地。

　　我们认为，这次是人机交互界面的变革，之前我们一直用键盘，手机没有触摸屏，下一个变革应该就是所有触摸式和键盘都变成语音式，现在我们已经看到了一些苗头，很多之前做传统软件的公司，现在都在重新写自己的代码，要么加智能助手，要么加音频输入。人机交互的界面都变了，语音交互就得是实时的，这是一个比较大的AI赛道的变化。

　　我们也会看到，现在的模型是在云端，将来会有端云配合，声网也有自己比较实时的网络，需要更好地连通和覆盖，这些会起到让AI行业快速发展、快速迭代的作用。

　　问：1分钟不到1毛钱，将来市场容量的前景多大？

　　和利鹏：人和人交互只有那么多人，人和机器交互，机器比人还多，赛道空间就更大了，对于我们来说是一个比较大的增长空间。至于是不是能够很快收回成本，我们倒觉得没有，AI是一个比较长期的、大的机会，看到这个机会肯定要快速进去。达到一定预期以后，我们肯定会有比较好的收入。

　　问：价格还有下降的空间吗？

　　和利鹏：我们未必会降价，因为首先要保证体验越来越好，将来带来情感价值，我们反而是想把质量进一步提升，让用户觉得更值。当然，大家要是觉得成本比较贵，我们到时候再去考虑，但目前的情况下，我们要把质量不断提得更高。

　　姚光华：因为我们已经把价格定得很便宜了。

　　AI幻觉不能消灭，可以减少

　　问：对话式AI引擎从立项到落地的过程中，都碰到哪些问题和瓶颈，怎么解决的？

　　姚光华：对话式引擎牵涉到的部门比较多，包括算法、体验、工程化、测试、产品等等，过年的时候专门找了一个小黑屋，所有人在里面加班，一共应该有十几个人。DeepSeek出来之后，我们做AI的人全部都在加班，看到DeepSeek给中国科技界带来的正向影响，我们也想参与到这种浪潮中。

　　和利鹏：现在的产品开发过程都是动态的，潜在的用户不断反馈，也在和一些友商PK。我们的产品需要快速反应、快速迭代。声网成立至今11年，一直都在打造这种开发能力，特别是实时互动方面，我们还是很有信心的。

　　问：你们有没有遇到过比较大的挑战？

　　姚光华：即时互动是按照毫秒压缩，特别是响应延迟，我们做到1秒钟，接下来就要再压缩。我们给出一个清晰的目标，要做到世界一流，然后最终把体验做出来。

　　和利鹏：对话式AI强调体验，包括延迟、响应打断、人声的锁定。之前声网实现了人和人之间的即时交流，这次是人和机器的交流，交流模式发生了变化，技术要求是不一样的。我和你交流只需要分配网络，但对面是机器的话，可能会有打断和快速响应，在落地工程化方面还是有很多的挑战。

　　姚光华：AI用户体验相当于无人区，没人知道衡量哪几个指标，比如，锁定人声这一点之前根本没人提过，是客户提出来的，不想失去实时打断的能力，就要把对话过滤做出来，之前有没有降噪基础，没有的话就要开发一个新的。我们是把认知变成标准，把标准变成指标，然后呈现到今天发布的产品当中。

　　问：Manus过代码构成整个网络步骤，这种语音上的Agent和图文上的Agent有什么区别？

　　和利鹏：人的交互模式肯定是多模态的，实时互动是很重要的一部分，随着行业的发展，我们就在想能不能不输入文字？语音包含情绪，所以信息会更丰富。我觉得目前是这种形态，是不是可以用摄像头交互，让摄像头完成一些事情？可能让AI把简历过一下，打开摄像头和麦克风以后还能不能做其他的事情？这些是我们比较关注的。

　　现在来看，Agent的形态肯定非常多，输入方式也非常多，将来可能把语音也会加入进去，或者多个人同时去做一件事情。行业发展得太快，我们是把基础能力准备好，让大家在里面去做创新的场景。

　　姚光华：AI引擎产品之所以叫引擎，就是因为我们不做Agent，只想构建对话式，将来会有其他的调整。我们觉得这是一种颠覆性的交互方式，对话的情绪价值如果能够发展得非常好，Humanlike做得非常好，就是超越工具以外的一个陪伴的东西，可能是一个宠物，介于宠物和朋友之间。

　　问：Minimax、ChatGPT等对话产品都有严重的幻觉问题，怎样消除幻觉？

　　和利鹏：幻觉减少肯定是模型自己本身要迭代的，除此之外，我们要看到周围的噪音，如果让你的声音不清楚，也会造成误解。声网需要锁定人的声音，把背景的声音都清除，让原始声音很干净。

　　幻觉这个东西不可消灭，可以减少，就像今天的，人和人的交流也会有误解，但你发现误解的话，通过告知更多的上下文让对方知道自己说错了。人和人之间交流都会有幻觉，我们的知识背景不一样，你的理解和我的理解也不一样，但通过几次交流，大概知道我是什么意思。

　　姚光华：我也这么认为，模型的参数量更小，聚焦在一个垂类的话，上下文的不断增多会让幻觉减少。

　　今后我们都在推理参与决策，这是最核心的，看到幻觉产生的路径，然后告诉对方，这个东西你想错了，然后就会重新开始想这个事情，参与最终的决策，这是消除幻觉的唯一路径。

　　问：这就减少了实时交互的可能性，就像自动驾驶，等着思维链的输出不太可能。

　　和利鹏：我们也在讨论，一定要分场景。有些场景是实时的，不能有等待的时间。我们现在也接到具身机器人的需求，延时的要求很高，包括客服外呼等等，不能等半天才回答，所以这确实是比较细分的，不是所有场景都要用声网，还是要找到最合适的，就是延时、交互、陪伴等等。

　　最近我也看到智能硬件的需求确实比较多，我们跟芯片厂商合作，打造出不同的形状，但里面都是对话式AI。孩子用了DeepSeek以后变成了十万个为什么，小孩希望快速互动，不在于答案准不准确，就是希望能玩起来。

上一篇：Strategy：上周未购买比特币

下一篇：LBank已上线BankrCoin(BNKR）

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

对话声网：实时交互正催生AI新赛道

推荐

热门