AI震撼,微观力量:256M微型视觉语言模型登场
1月26日消息,HuggingFace近日推出了两款全新的多模态模型SmolVLM-256M和SmolVLM-500M。其中,SmolVLM-256M被誉为全球最小的视觉语言模型(Visual Language Model)。
据悉,该模型主要源自HuggingFace团队去年训练的80B参数模型蒸馏而来,据称在性能和资源需求之间达到了良好的平衡。官方表示,SmolVLM-256M和500M这两款模型都可以“开箱即用”,能够直接部署在TransformerMLX和ONNX平台上。
具体技术层面,SmolVLM-256M / 500M 两款模型均采用 SigLIP 作为图片编码器,使用 SmolLM2 作为文本编码器。其中 SmolVLM-256M 是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理 PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到 1GB 的 GPU 显存便可在单张图片上完成推理。
SmolVLM-500M 模型因其出色的性能而备受瞩目,特别适合在企业运营环境中部署。据 HuggingFace 表示,尽管与 SmolVLM-256M 相比,SmolVLM-500M 在处理单张图片时需要更多的 GPU 显存(1.23GB),但它在推理输出方面的准确性显著提升。这一改进无疑为企业提供了更为精确的图像分析工具,从而可能带来更高的业务效率和决策质量。不过,企业在选择使用这类高性能模型时也应考虑其对计算资源的需求,以确保系统的稳定性和经济性。 这种技术进步体现了人工智能领域持续优化的趋势,尤其是在深度学习模型的精度和效率方面。对于依赖图像识别技术的企业来说,这无疑是一个值得期待的发展方向,同时也提醒我们关注计算资源的有效管理。
注意到,两款模型均遵循Apache2.0开源协议,研究团队提供了基于Transformer架构和WebGUI的示例代码。所有模型及其实例演示均已公开,方便开发者进行下载和使用,详情页面请点击此处查看。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.010722秒