前段时间, 一款主打即时性的音频社交软件火了。

音频社交春天将至?

作为一款以语音为媒介的社交软件,它的玩法非常简单。在每个房间有主持人、嘉宾、观众三种角色。主持人创建房间后,跟嘉宾聊天,观众可旁听,三种身份经主持人同意后还可转换,主播也可邀请观众上麦互动。他们以语音的形式进行交流,听后即焚。这便是典型的实时语音语聊房场景。

那么它的创新点在哪?

1、内容与玩法的创新:KOL 红人 VS. 意见领袖

2、KOL 红人:草根文化的发展,KOL 红人与普通人相同的生活方式,被更多用户所消费

3、意见领袖:通过自己多年的积累和影响力,在某一行业完成行业的带货,是行业中的明星,自带光环,受大家追捧

基于内容、玩法、亚文化圈层创新的音频社交赛道,随着 5G 时代对于音频质量的改善或将真正迎来行业爆发的春天,相较文字,语音信息量更大且更具个性化,包含的情绪和信息更丰富,可预见将会创造更多的社交玩法与场景。但快速爆发的实时音视频需求仍然面临挑战,一套成熟的音视频技术体系成为助力产品快速发展的必要保证,与此同时,音频社交的场景催生了新的合规需求,如何保证平台音频内容合规成为产品稳健发展的刚需。

一套成熟的技术体系是怎样的?

一套音频社交的搭建并不复杂,原有看起来十分高深的音视频与实时互动的技术,已经变得易于接入。

这套看似复杂的音频社交逻辑,这里做一下技术程度的拆解。

如同我们针对复杂问题的处理,都会先进行分块处理一样,音频社交的技术架构在业务角度也可拆解为:意见领袖的语音交互、意见领袖的语音处理和粉丝的音频获取三个部分来看:

1、意见领袖的语音交互

在七牛云 QRTC 的实时连麦产品加持下,通过易用的房间创建逻辑建立意见领袖的话题房间,在其他意见领袖的房间加入后,意见领袖们通过线上的连麦房间进行实时的语音互动,并且针对预设话题进行沟通交流。

七牛云的 QRTC 在开源的 WebRTC 之上,经过自有研发能力和众多客户的验证,保障了意见领袖们虽身处多地,甚至分别处于不同的国家,亦可保障通信的实时,交互延迟仅在 150ms 左右,让意见领袖虽无法见面,但犹如面对面交流般顺畅。

2、意见领袖的语音处理

意见领袖的语音交流内容经过云端的优化处理和信息审查之后,将流畅的对话语音通过成熟直播分发网络对外进行分发。

在这样云端处理的过程中,既保障了意见领袖们交流信息的完整,亦可完成对信息的内容筛查和优化。

3、粉丝的音频获取

在七牛云的直播功能承载下,意见领袖们的交流信息,通过语音的形式,呈现在粉丝们的耳边。让意见领袖们的粉丝,如同身处房间内听取自己偶像们的声音。

同时,客户端上多年的技术积累,让听众虽身处不同网络环境,都可以以最优的用户体验来获取意见领袖们的对话语音。

那么,从接入角度看,语聊房的接入又是怎样的呢?

1、意见领袖端的研发接入:

这里为研发人员提供 Android、iOS、Web 和小程序等不同系统依赖 SDK 内容,在完成 SDK 引入后,通过以下 5 个步骤的补全实现,即可完成意见领袖端的研发接入:

完成音视频核心初始化:用于初始化 SDK 中七牛音视频互动的核心能力;

进房:建立房间,并实现意见领袖的上麦。为保障意见领袖彼此的通话质量,目前支持14 位意见领袖的同时交流;

发布语音 track:监听并收集意见领袖的语音信息,建立与其他意见领袖的通话;

退房:实现意见领袖的退出房间后的多方感知;

销毁:实现整体流程结束后的资源回收。

2、服务端的业务逻辑处理:

在意见领袖端完成房间的创建和进房等操作后,服务端通过以下 3 个步骤的处理,实现多位意见领袖通话内容的直播转推逻辑:

接入服务端 SDK,完成鉴权逻辑的支持;

完成回调逻辑的支持,用于处理不同房间事件通知的处理;

建立合流转推任务,用户意见领袖交流内容,被更多的粉丝收听。

3、粉丝端的收听接入:

粉丝端七牛云也提供了 Android、iOS 等不同版本的播放器 SDK 的支持,在 SDK 的依赖引入后,通过支持播放器初始化、并且将获取到的直播地址赋值给到播放器的播放链接,就可以完成不同系统的粉丝收听支持。

监管之下的内容审核

随着国内政策对网络平台言论管理的规范化,社交平台面临的内容审核也越来越严。相比传统的音频内容审核,在语聊房场景中的多人实时语音的在线审核,非常繁杂,尤其是日活较高的社交产品,语音内容审核成本和难度更大。因为语音审核除了基础的文本分类技术外,还有三大基础技术难题,即:

语音识别:互联网语音场景常伴有强背景音、语速快、咬字不清、口音严重等情况,相比普通场景,语音识别难度倍增;

NLP:涉政、色情、辱骂等违规音频表达变化多端、内容隐晦,对语义理解的要求极高;

声纹识别:呻吟、娇喘等色情内容容易混杂在对话、歌声甚至背景音当中,声纹特征细微,难鉴别,需要极强的声纹识别能力。

七牛云针对实时音频流的内容审核场景提供色情/广告/涉政/违规等内容的识别,及娇喘类声音的识别能力。并且提供两种方式接入,帮助客户提高审核效率,净化网络环境:

直播审核 API - 适用于直播场景。实时监测,3 秒内返回结果;

文件审核 API - 适用于语音消息、文件、短视频。可以做到先审后发。

音频社交的快速发展得益于语音与文字等传统社交介质的不同优势,对于情绪恰到好处的传达,七牛云作为国内领先一站式云平台即服务(PaaS)提供商,为此类产品提供一整套成熟的音频技术体系与合规技术解决方案,有效助力客户专注业务创新获得快速增长。