首页 實體資產文章正文

字节跳动火山引擎发布豆包视觉理解模型,开启AI“厘时代”

實體資產 2024年12月21日 00:53 5 author

近日,字节跳动在火山引擎Force大会上正式发布了其豆包视觉理解模型,标志着视觉理解模型也进入了价格低廉的“厘时代”。该模型千tokens输入价格仅为3厘,性价比极高,处理图像的速度和效率远超行业平均水平,价格比同行低85%。

豆包视觉理解模型的功能十分强大,不仅可以精准识别图像内容,还具备理解和推理能力,能够根据图像信息进行复杂的逻辑计算,例如分析图表、处理代码和解答学科问题等。此外,它还拥有细腻的视觉描述和创作能力。

除了视觉理解模型,字节跳动还发布了豆包3D生成模型,该模型结合火山引擎数字孪生平台veOmniverse,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持AIGC创作的物理世界仿真模拟器。

此外,豆包通用模型Pro已全面对齐GPT-4,价格仅为其1/8;音乐模型也从生成60秒的简单结构升级到生成3分钟的完整作品;文生图模型2.1版本实现了业界首个精准生成汉字和一句话P图的产品化能力,并已接入即梦AI和豆包App。

未来,火山引擎还计划在2025年春季推出具备更长视频生成能力的豆包视频生成模型1.5版,并很快上线豆包端到端实时语音模型,解锁多角色演绎、方言转换等新能力。总而言之,虽然发布较晚,但豆包大模型凭借其快速迭代和强大的功能,已迅速成为国内最全面、技术最领先的大模型之一。

发表评论

CryptoInvest Copyright binance5566.com.2024 Rights Reserved. 备案号:川ICP备202411011530号 Power By binance5566.com