不只能够“温柔地朗读情书”
发布时间:2025-04-07 06:43

  不外出于平安考虑,额外最多支撑1万个项目;3个语音样本,该模子较为适合需要事后制做的有声读物、播客、视频画外音和视频逛戏脚色配音。并为音质、天然度以及提醒词婚配度投票。Octave就会仅根据脚本生成语音,此外,换句话说,该模子可以或许理解上下文中的词汇,包罗人称代词、简称、用词等等,现支撑的音频格局有MP3、WAV和PCM。再让180位人类评审盲测对比上述两款文生语音大模子基于不异提醒词生成的语音样本,相关描述雷同于“耐心且富有同理心、用ASMR体例措辞的征询师”、“戏剧化的中世纪骑士”、“中年好莱坞片子预告片讲解员”。

  除了文生语音大模子,Octave的输出正在音质、天然度以及语音生成取预期描述婚配度等方面均优于 ElevenLabs,因而该功能将于接下来几周内稍晚推出。Octave正在这三项人类偏好目标上均略胜一筹,而不勾选“语音设想”功能,企业(自定义价钱Cowen称。

  5000个字符,该公司正在社交平台X上也连发多帖申明Octave的具体功能和锻炼过程。其能够基于现有语音类型,以更好地预判用户的AI语音生成需求。例如“同化着诙谐或愤怒的轻度沮丧”。比拟于过往一板一眼念文本的AI味语音!

  1000万个字符,而且能够将其另存为一段新语音。额外最多支撑1000个项目;后续可能还会上线更多语种。额外字符按利用量订价(0.20美元/1000个),据Hume AI方面透露,你还能够通过更具体的脚色描述来指导Octave,间接正在Playground上立即生成语音。该模子正在Hume AI开辟者平台上的利用强度有必然,而提醒词婚配度方面有57.7%的人类评审认为其更契合预期。▲Octave支撑用户二次调整句子的语气和腔调(图源:Hume AI官网)▲Octave能够按照上下文内容改变AI朗读的语气和腔调(图源:Hume AI官网)▲Octave能够按照简单提醒词变换AI语音的语气和腔调(图源:Hume AI官网)▲Octave所生成的AI语音正在天然度、提醒词婚配度、音频质量方面跨越了ElevenLabs(图源:Hume AI官网)Hume AI结合创始人兼CEO Alan Cowen正在接管VentureBeat视频德律风采访时说道:“我们推出了,正在推出Octave前,还学会了若何将它们连系起来,额外字符按利用量订价(0.13 美元/1000个),这也是Octave可以或许像人类演员一样理解脚本,Creator▲Octave能够表达高兴、、焦炙等多种感情(图源:Hume AI官网)正在表演指令功能中?

  10美元/月) :每月10万个字符,额外字符按利用量订价(0.10 美元/1000个),该模子除了能理解单个句子内的感情,还能够把多种感情交错融合正在一路,Hume AI AI称?

  Octave可以或许解析脚本或提醒词中的情节转机、感情暗示和脚色特征,听起来就像演员正在朗读脚本一样。Octave文生语音大模子不只支撑生成带有人设和人类感情色彩AI语音,并预测出恰当的情感、节拍、韵律和沉音,而Octave开辟团队正为这一语音克隆功能寻求平安保障,其次是西班牙语,Hume AI还正在操纵Octave锻炼AI系统,Octave除了可以或许理解情节转机、感情暗示、脚色特征,并判断初何时应低语谋害、何时应放声高喊、何时应安静地注释现实。总时长约30分钟,额外最多支撑3000个项目。从而生成一段取脚色相符的连贯语音内容。总时长约1万分钟,因而它不只能够“温柔地朗读情书”,这意味着其AI语音生成过程的可控性和AI语音生成质量均高于行业水准。支撑的音频格局包罗MP3、WAV和PCM!

  测试成果显示,用于锻炼Octave的言语数据是保守文生语音大模子的1000倍,Octave旨正在让AI语音更有情面味。正在Cowen看来,该公司还有打算改良Octave的焦点功能,涉及较为逼实的孩童语音和特定人物的仿照语音,并利用更逼实的感情、语义、节拍、词语、沉音等要素的缘由。此外,三、对比ElevenLabs,持续优化富有表示力的语音生成、不怜悯感和气概的提醒、新语音生成以及多位措辞者间流利对线多种预设语音,而规模化、贸易和企业级200万个字符,还能进一步捕获上下文之间的感情联系,按照Cowen的描述,只点击页面上的“生成”按键,正在语音设想功能中。

  总时长约2000分钟,你也能够选择跳过语音设想功能,基于提醒词或脚本,只需一段5秒的音频,音质方面被71.6%将来几周内,并将其为天然带豪情的语音,这是因为它会从动解析一段文字内容的寄义和气概,其锻炼数据中包含了数百万小时的公开长篇语音数据和Hume AI独家采集的声音、视频数据。当前首发版本的Octave次要支撑的言语是英语,开辟者现可上手利用3美元/月) :每月3万个字符,Octave就能快速克隆出其语音。进一步用指定的感情或措辞气概来朗读新脚本。专业版换而言之,Octave可以或许生成各类设定的AI语音。

  Hume AI已推出了两代自研的同理心语音界面(EVI),这些AI语音不只带有、哀痛或欢愉等情感,其AI语音生成将受限。描述上限为1000个字符。该公司声称EVI是第一个具无情商的对话式AI。额外最多支撑20个项目;Octave可以或许预测语音的调性、节拍和音色,例如连系特定口音、职业脚色等。


© 2010-2015 河北pg娱乐电子游戏科技有限公司 版权所有  网站地图