开创智能时代,Step 系列引领汽车科技新风向
2025年2月18日,阶跃星辰与吉利汽车集团共同宣布,将双方合作开发的阶跃两款Step系列多模态大模型向全球开发者开源。其中包括目前全球范围内参数规模最大、性能最优的开源视频生成模型阶跃Step-Video-T2V,以及业内首款产品级开源语音交互大模型阶跃Step-Audio。即日起,用户可以在跃问APP中进行体验。与此同时,HuggingFace官方对这一举动表示赞赏,并高度评价阶跃星辰为“下一个DeepSeek”。
在吉利汽车集团的科技生态战略中,阶跃星辰作为重要的合作伙伴,共同参与了两款大模型的研发。通过在算力算法和场景训练方面的深度合作,双方充分发挥各自的优势,显著提升了多模态大模型的性能。这次联合开源的行动不仅是为了促进大模型技术的共享与创新,更是为了推动人工智能的普惠发展。此举不仅将为开源世界注入新的活力,也将为中国在大模型开源领域增添一份强大的力量。 这一举措体现了企业在技术创新和开放合作方面的积极态度,有助于加速人工智能技术的进步,并让更多人受益于这项技术的发展。同时,这也表明中国企业在推动全球科技创新方面正发挥着越来越重要的作用。
吉利汽车集团CEO淦家阅表示:“吉利致力于成为智能汽车AI科技的引领者和普及者。早在2021年,吉利就围绕芯片、软件操作系统、数据和卫星网络,构建了端到端的自研体系和生态联盟,形成了完整的‘智能吉利科技生态网’,推动用户在智能驾驶和智能座舱方面的体验持续升级。目前,吉利全栈自研的星睿AI大模型已与阶跃Step-Video-T2V、Step-Audio等大模型实现深度融合,将为用户提供更智能、更高阶的座舱交互与智能驾驶体验,加速AI科技在智能汽车领域的应用。”
据了解,这是阶跃星辰第一次将其Step系列基础模型进行开源。阶跃星辰的创始人兼CEO姜大昕博士表示:“我们始终以实现AGI为愿景,持续致力于基座大模型的研发。我们深刻理解,实现AGI离不开全球开发者的共同智慧,因此我们选择开源。一方面,我们希望能与大家分享最新的技术成果,为开源社区贡献力量;另一方面,我们坚信多模态模型是达成AGI的关键路径,尽管目前这一领域仍处于起步阶段,但我们期待与社区开发者们共同探索,拓宽技术边界,并推动实际应用的发展。”
阶跃Step-Video-T2V:性能领跑全球开源视频生成大模型
阶跃Step-Video-T2V作为当前全球范围内参数量最大、性能最优的开源视频生成大模型,其技术实力不容小觑。该模型拥有高达300亿的参数量,能够直接生成包含204帧、分辨率为540P的高质量视频,这不仅体现了其在信息密度方面的优势,同时也确保了视频内容的一致性和连贯性。 这款模型的推出,无疑为视频创作领域带来了革命性的变化。它不仅极大地提高了视频生成的效率和质量,还降低了视频制作的技术门槛。对于创作者而言,这无疑是一个巨大的福音,他们可以利用这一工具更便捷地实现创意,创造出更多高质量的视频内容。同时,这也预示着未来视频创作可能会更加依赖于人工智能技术的发展,带来更多的可能性和创新空间。
从生成效果来看,阶跃Step-Video-T2V在处理复杂动作、美学人物、视觉创意、基础文本生成、原生中英双语输入和镜头运用等方面展现出卓越的生成能力,同时其语义理解与指令执行能力也非常出色,能够有效帮助视频制作者实现精准的创意表达。用户可前往跃问网页端(https://yuewen.cn/videos)及跃问App体验阶跃Step-Video-T2V的视频生成功能。
为了对开源视频生成模型的性能进行全面评测,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集Step-Video-T2V-Eval。该测试集包含128条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D动画、电影摄影等11个内容类别上质量。
Step-Video-T2V-Eval评测结果
评测结果显示,Step-Video-T2V模型在指令遵循、运动平滑性、物理合理性和美感度等方面的性能,均明显优于目前市场上最优的开源视频模型。
据了解,目前,用户可以在跃问网页端(https://yuewen.cn/videos)以及跃问App上,使用阶跃Step-Video-T2V的功能来体验视频生成的能力。
阶跃Step-Audio:业内首款产品级开源语音交互模型
阶跃Step-Audio是业内首款产品级的开源语音交互模型,它可以根据不同场景的需求生成包含情绪、方言、语种、歌声及个性化风格的语音表达,从而与用户进行自然且高质量的对话。该模型生成的语音具备超自然和高情商等特点,同时还能实现高质量的声音复制,并进行角色扮演,以满足影视娱乐、社交、游戏等行业的应用场景需求。
在LlaMAQuestion、WebQuestions等五大主流公开测试集中,阶跃Step-Audio模型的表现均超越了行业内同类别的开源模型,位居首位。尤其值得一提的是,在HSK-6(汉语水平考试六级)的评估中,阶跃Step-Audio的表现格外出色,堪称最了解中国语言的开源语音交互大模型。
StepEval-Audio-360基准测试
此外,由于当前行业内语音对话测试集较为匮乏,阶跃星辰自主构建并开源了一套多维度评估体系——StepEval-Audio-360基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等九项基础能力方面对开源语音模型进行了全面评测。经过人工对比分析的结果显示,阶跃Step-Audio的模型能力非常均衡,在各个评测维度上均超越了市场上现有最优的开源语音模型。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.009199秒