微软推出小语言AI模型Phi-3-vision，视觉与文本理解能力显著增强

AI每日新闻2年前 (2024)发布 shen

1,579 0 0

在人工智能领域，微软一直以其创新的技术和深厚的实力引领着行业的发展。近日，微软再次发力，公布了旗下小语言AI模型家族（SLM）的最新成员——Phi-3-vision。这款主打“视觉能力”的模型，不仅能够理解图文内容，而且据称可以在移动平台上流畅高效运行，展现了微软在人工智能领域的强大实力。

Phi-3-vision的推出，标志着微软在AI模型研发方面又迈出了坚实的一步。这款模型作为Phi-3家族的首款多模态模型，不仅继承了Phi-3-mini的轻量特点，还具备了更为强大的图文识别能力，能够在移动平台或嵌入终端中高效运行。其参数量达到42亿，虽然大于Phi-3-mini的3.8B，但小于Phi-3-small的7B，充分展现了其在性能和效率之间的平衡。微软推出小语言AI模型Phi-3-vision，视觉与文本理解能力显著增强

Phi-3-vision的最大特色在于其强大的“图文识别能力”。据微软介绍，该模型能够理解现实世界的图片含义，并快速识别提取图片中的文字。这一能力使得Phi-3-vision在办公场合中具有广泛的应用前景。开发人员特别优化了该模型在识别图表和方块图方面的理解能力，使其能够利用用户输入的信息进行推论，并为企业提供战略建议。微软声称，Phi-3-vision的效果堪比大型AI模型，这无疑为中小型企业和个人用户提供了更加便捷、高效的AI解决方案。

在模型训练方面，微软声称Phi-3-vision是由“多种类型图片及文字数据训练而成”。这些数据包括一系列“经过严选的公开内容”，如“教科书等级”教育材料、代码、图文标注数据、现实世界知识、图表图片、聊天格式等。这样的训练数据确保了模型输入内容的多样性，从而提高了模型的泛化能力和适应性。同时，微软还强调了他们所使用的训练数据“可追溯”，不包含任何个人信息，确保了用户隐私的安全。微软推出小语言AI模型Phi-3-vision，视觉与文本理解能力显著增强

性能方面，微软提供了Phi-3-vision与竞品模型的比较图表。从图表中可以看出，Phi-3-vision在多个项目上表现优异，超过了字节跳动Llama3-Llava-Next（8B）、微软研究院和威斯康星大学、哥伦比亚大学合作的LlaVA-1.6（7B）、阿里巴巴通义千问QWEN-VL-Chat模型等竞品。这一结果充分展示了Phi-3-vision在视觉与文本理解能力方面的强大实力。

目前，微软已经将Phi-3-vision模型上传至Hugging Face平台，供全球开发者免费使用。这一举措无疑将进一步推动AI技术的普及和应用，促进人工智能领域的发展。

AI旋风认为，Phi-3-vision的推出不仅展现了微软在AI领域的强大实力和创新精神，更为全球开发者提供了一个高效、便捷的AI解决方案。随着人工智能技术的不断发展和应用，我们期待未来能够看到更多类似Phi-3-vision这样的优秀AI模型问世，为人类社会的进步和发展贡献更多的力量。