资讯 更多 >>
告别单音色播读,火山语音重磅推出...
amd5000相当于英特尔什么cp(amd500...
交房即发证!这项通道即将开通!
适用于所有 Pixel 设备的 2023 ...
小学生环保知识小学生环保知识宣传内容
医渡科技(02158)旗下因数云助力“深...
今日燃料油期货最新价格查询(2023...
武魂殿截杀史莱克七怪,是比比东有...
吓煞!电瓶车头,钻出一条蛇!绍兴...
拒绝拜仁报价,凯恩今夏大概率留在...
动态更多 >>
你们,温暖了2021
西安市新增27个中风险地区 目前有1...
广西新增本土确诊病例1例
哈尔滨市全域均为低风险地区
寒潮将影响我国中东部地区 四川盆...
昆明至哈尔滨一航班发现1名入境复阳...
陕西研考:封控区内考生在原报考点...
北京今日最高气温仅5℃ 明起强冷空...
那年今日 | 历史上的12月22日发生...
我要找债主
会展 更多 >>
美籍酿酒师在崇礼:中国是第二故乡...
河南项城报告2名疑似新冠肺炎病例 ...
浙江绍兴确诊病例首次零新增 上虞...
广西东兴实行全员居家隔离 启动口...
新疆全方位推进乡村振兴 “富春山...
云南瑞丽市主城区全员核酸检测结果...
内蒙古满洲里累计治愈出院本土确诊...
孙海洋夫妻驱车山东阳谷:还在为孙...
大国工匠追梦“玉米强国”40载:用...
让南海“海洋热带雨林”斑斓多彩
专题报道 
当前位置: 资讯 > >> 正文
 
告别单音色播读,火山语音重磅推出「多角色演播方案」
来源:技术联盟     时间:2023-07-06 18:52:53

持续突破语音壁垒 火山语音团队 2023-07-05 11:21 发表于北京

你是不是也曾在畅享有声爽文时,因千篇一律的播讲形式而倍感苦恼?


(资料图片)

是不是也曾期待有一款听书神器能让你感受到角色变化,深入情境获得沉浸体验?

在现实中,我们似乎更常听到这样的“AI语音朗读”:单一音色播讲,无法区分各具特色的角色形象,长时间听书容易枯燥……

单音色播讲 01:02

究竟什么才是新一代“AI 语音朗读”? 相比单单追求“让用户听懂”的初衷,角色分明、声情并茂的演播能更好的吸引用户,这让火山语音嗅到了一个可以充分发挥自身优势、重新定义 “AI语音朗读”的机会。

多角色演播 02:38

历经两年时间的用心打磨,目前团队形成了一套角色分明、情感丰富的「AI多角色演播方案」,并作为首个AI有声小说领域高质量综合解决方案对外推出。 所谓“AI多角色演播方案”,即依托火山语音有声阅读场景60+款优质音色构造的音色矩阵,通过NLP技术智能理解文本内容实现角色自动配音,形成媲美真人的多角色演播效果;此外,上述能力还结合有声创作流程落地创作平台,除实现规模化生产之外,还可满足差异化、精品化的内容定制需求。

“我们同番茄小说有着紧密的业务合作,在听书用户群体中孵化打磨方案,让效果表现更符合用户需求,以此助力我们在有声内容创作这个领域做专业做深入;更重要的一点,火山语音多年来在语音合成领域的技术积累和创新,更是我们炼成此方案的核心优势。”火山语音总结道。

在小说演播场景下,要实现超拟人的精品效果,主要有以下几个难点:AI音色能否适配小说中的各色角色?AI 能否进行情感化配音,通过情感演绎小说文本,展现小说人物性格特征和情感变化? 在不同的情节下,角色能否做出诸如哭泣、大笑等「高浓度」的情感演绎?

千人千「声」, 打造精品「声音宇宙」

目前,AI配音家族已有60多个精品音色 ,无论是穿越文里的睿智大女主,还是言情文中的霸气冷酷总裁,抑或是青涩校园中的鬼马少女,可以满足大部分小说的角色人设需求。 快来感受下火山语音音库中的多样精品音色吧!

,时长 02:02 火山语音优质音色矩阵呈现

会「哭」会「笑」,多种情感演绎「以声传情」

为了让AI主播能「哭」会「笑」,像专业配音演员一样表达“深刻的人类情感”,火山语音还为每个AI音色赋予了开心、悲伤、愤怒、恐惧等多种感情,例如:

平和 00:02

开心 00:02

悲伤 00:03

愤怒 00:03

不仅如此,为了让不同情绪下的演绎更加贴合真人表达,团队还在“副语言”上进行了深入探索。 “副语言”也称“类语言”,是指伴随话语出现的某些声音现象,包括语音要素特征,例如停顿、重音、语速、语调等;以及言语的功能性发声,例如笑声、哭腔、急喘、咬牙切齿等。

冷笑 00:06

哭腔 00:05

急喘 00:05

咬牙切齿 00:03

“我们针对"副语言"现象进行了精细化的建模还原,实现了有声书中常见的重音停顿、疑问反问、笑声哭腔以及各类叹息、叫喊声等,给用户带来更近一步的‘沉浸式体验’。”

其实对于火山语音来说,在声学技术层面实现高表现力的声音合成并不是最难的,更难的则是「AI多角色演播方案」如何能够更加低成本、批量化的高效率生产。 例如在无人工标注的情况下,AI 能否像配音演员一样理解文本,自动区分旁白和对话?能否自动判定句子的情感、重音以及句间停顿?能否快速批量化地生产出高质量有声作品?这些问题,火山语音团队都在不断尝试解决。

突破传统生产瓶颈,AI 文本理解模型效率远超人工

在有声内容创作中,能否实现文本的语义理解并自动制作画本,是贴近多角色有声书批量化生产的关键。通常在精品 AI 有声书制作中,往往需要人工对文本进行标识,即划分出对话与旁白,并标识出每个角色的台词以及其表达的情感,但这一过程往往十分耗时耗力,造成精品 AI 有声书很难大规模批量生产的现状。

针对这一痛点,火山语音开发并应用了 “AI 文本理解”模型 ,即一套多任务的长文本理解 AI 系统。基于预训练语言大模型在数百万章的小说文本上的大规模自监督预训练学习,通过小说人名识别、对话-说话人匹配以及人物指代消解三个任务,让“AI 文本理解”模型具备自动提取小说中对话角色、自动区分对话/旁白、自动判定对话所属的角色的能力。同时,为了让小说演绎情感丰富,团队还采用了对比学习得到句子情感表征,从而大幅提升对话情感的识别能力。

总体来说模型优化带来的成本降低以及产能提升的收益是显著的。 在整体听感与纯人工标注齐平的前提下,AI 文本理解模型可以解放绝大部分的标注人力,大幅缩减标注的时间和成本,这意味着不必维持一个庞大的标注团队,也能让有声书量产成为可能,借助此模型精品 AI 有声书的制作效率得以大幅提升。

AI有声内容创作平台,批量高效的生产工具

值得提及的是,火山语音还自主打造了AI有声内容创作平台,以实现AI多角色有声内容的批量高效生产。 简单来说用户只需将目标书籍文本导入,即可由平台自动完成角色的抽取、对话/旁白的区分,同时判定对话所属的角色和情感。在配音环节,用户可以自主选择配置AI音色来匹配书中各角色 也可选择简单标定角色人设,依据平台内置策略一键配音。完成配音后,平台即会根据自动预测的信息完成音频的自动合成和拼接,仅需几小时便可完成一部数千章的成品有声书的生产!

此外,为了满足连载追更用户的听书诉求,平台还实现了连载自动更新的功能,即收到线上文本更新的通知后,几秒钟之内即可完成更新章节音频的生产和上线,用户可以通过听书功能实时追更、无需等待。

最后,为了满足用户差异化的创作需求,该平台还提供了一系列音频调整和精修功能,例如指定特定词语发音;控制句子的停顿、连读、语速和音调等,可以让AI自动合成的音频演绎更加完美。

火山语音,长期以来面向字节跳动各大业务线提供优质的AI语音技术能力以及全栈语音产品解决方案。目前团队的语音识别和语音合成覆盖了多种语言和方言,多篇论文入选各类AI 顶级会议,技术能力已成功应用到抖音、剪映、番茄小说等多款产品上,并通过火山引擎开放给外部企业。

—END—

关键词:

热门推荐
猜你喜欢