「字节大模型的发展路径是,先to C打磨产品,等模型能力具备竞争优势后,再to B拓展市场。」9月25日,火山引擎总裁谭待在接受包含【每日经济新闻】记者在内的媒体群访时表示。
基于这一发展路径,在早期版本今年5月应用于剪映团队研发的AI创作平台「即梦」后,豆包视频生成模型在9月24日的2024火山引擎AI创新巡展上正式亮相,并面向企业市场开启邀测。
自Sora开启了「视频的ChatGPT时代」后,国内快手、智谱AI、MiniMax和阿里等大模型玩家相继推出了同类产品,如今字节跳动入局,能否改变视频大模型的现有竞争格局?
通过发布会现场对两款视频生成模型的效果演示,谭待认为,无论是语义理解能力、多个主体运动的复杂交互画面,还是多镜头切换的内容一致性,豆包视频生成大模型均已达到业界领先水平。
与此同时,「音乐生成模型」和「同声传译模型」一并在会上发布,再扩字节AI版图。
作为业内率先进行大模型降价的选手,火山引擎在商业化上加速明显。谭待向【每日经济新闻】记者表示,to B调用量增长迅速。「对to C业务没那么清楚,但感觉也很顺利。我认为AI能实现端到端地解决问题,to B、to C业务边界没有那么明显。」
【每日经济新闻】记者从发布会了解到,截至今年9月,豆包大模型日均Tokens使用量已超1.3万亿,日均生成图片5000万张,日均处理语音85万小时。
字节进军AI视频,「一落地就开始考虑商业化」
8月31日,「AI六小龙」之一的MiniMax发布了视频生成模型video-1;9月19日,可灵AI完成第9次迭代,发布「可灵1.5模型」,同天的云栖大会上,阿里云再推全新的视频生成模型——不到一个月的时间里,本就硝烟四起的视频生成模型领域又迎来了新玩家。
在9月24日的火山引擎AI创新巡展上,豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型一并发布。
【每日经济新闻】记者注意到,这两款大模型支持的视频内容生成最长时长暂未公布,即梦App显示支持3秒、6秒、9秒和12秒的视频内容生成。与之相比的是,可灵在6月21日上线了视频续写功能,可让视频延续约5秒,最长可生成约3分钟视频。
发布会现场 图片来源:每经记者 杨昕怡 摄
「不同场景对视频时长要求不同,我们更关注针对不同行业的解决方案。」谭待在接受【每日经济新闻】记者采访时表示,豆包视频生成大模型在行业中的优势主要在于指令遵循能力、多镜头切换的一致性以及视频生成的泛化能力等方面。
发布会现场,多条官方视频的演示体现了上述能力:例如,在一条一男一女骑马驰骋的演示视频中,在长达10秒的画面里,两人表情、动作各异,但都表现得自然流畅。
值得关注的是,豆包视频生成大模型支持生成黑白、3D动画、2D动画、国画、厚涂等多种风格的内容。
「对于视频生成模型来说,(生产内容的)不同风格是很难做的。技术之外,主要看数据源的丰富程度。」一位大模型技术人员向【每日经济新闻】记者表示。谭待将其归因于「全栈能力的优势、技术突破以及抖音和剪映对视频的理解」。
秉持实用主义原则,谭待表示,新款豆包视频生成模型「从一落地就开始考虑商业化」,使用领域包括电商营销、动画教育、城市文旅和微剧本。
在商业化上同样「着急」的还有可灵。在8月20日晚间的二季度业绩电话会上,快手联合创始人、董事长兼CEO程一笑将可灵的商业化视作当务之急,「力争尽快实现可观的商业化变现规模」。
谈及定价策略,谭待透露,豆包视频生成模型的价格未定。「视频模型和语言模型应用场景不同,定价逻辑也不同,要通过新体验、迁移成本等来衡量产品价值,(产品)最终能否广泛应用也取决于它是否比以前的生产力ROI(投资回报率)提升了很多。」
「价格已不是创新门槛」,云厂商来到AI时代新战场?
除了全新的视频生成模型,本次活动还发布了豆包音乐模型和同声传译模型。截至目前,豆包全模态大模型家族已涵盖大语言模型、视觉大模型和语音大模型三大品类,共发布了13个大模型。
但光有模型是不够的,不乏业内人士称,目前大模型厂商落地应用是「拿着锤子找钉子」。那么,如何发现钉子、如何更省力地用合适的锤子钉钉子,这些都可能成为云厂商在AI时代的新挑战。
首先是横亘在大模型厂商和企业之间的成本问题。
在5月的发布会上,谭待宣布,豆包主力模型的推理输入价格仅为0.0008元/千Tokens,比行业便宜99.3%,打响了大模型领域的价格战。
「成本是关键,价格降十分之一,量就可能涨十倍。」在谭待看来,模型调用量和应用覆盖是当前关注重点,「我们主要关注应用覆盖,而不是收入,我们认为新场景的解锁更有价值,例如聊天、陪伴、生产力等方面的场景升级和企业应用场景的拓展。」
不过,他也坚持,面向B端市场的业务前提一定是要可持续,「不能像to C业务一样考虑靠广告盈利」,「to B产品要实现正毛利,我们有能力也有信心做到。」
在豆包大模型率先降价后,阿里通义千问、百度文心一言等模型也都陆续降价。今年云栖大会上,阿里云百炼平台上的三款通义千问主力模型再次降价,阿里云CTO周靖人甚至表示「相比未来庞大的应用,还太贵了。」
对于这一行业现状,谭待表示,降价后,从调用量来看,成本已不再是创新的阻碍,「接下来要做的是在这个价格基础上,提高模型的质量和性能,质量指的是让模型能力更强、更多元。」
经过一轮「普降」后,大模型行业将不再一味只「卷」价格,现阶段要比拼的是模型性能,这一点也在客户端的需求上得到了佐证。
据谭待观察,对于大模型的落地,to B市场的需求变化缓慢,核心需求是降本增效。「企业应用AI时,以前是自上而下规划,失败概率大,现在需要自下而上创新。」
【每日经济新闻】记者注意到,在辅助企业进行数字化转型的过程中,火山引擎今年联合各方成立了智能终端大模型联盟、汽车大模型生态联盟、零售大模型生态联盟,且外部客户已覆盖手机、汽车、金融、消费、互娱等30多个行业。
如今,字节手中又多了几把称手的「锤子」,怎样找到各行各业中与之匹配的更多「钉子」,就是接下来对火山引擎的考验了。
每日经济新闻