OpenAI将发布多模态人工智能数字助理，开启智能对话与物体识别新纪元

AI每日新闻1年前 (2024)发布 shen

619 0 0

近日，科技界掀起了一阵新的热潮。据可靠消息透露，人工智能领域的领军企业OpenAI即将在5月13日正式发布一款新型多模态人工智能数字助理。这款数字助理不仅具备语音对话能力，还能准确识别物体，预示着人工智能在交互和感知领域的新突破。

据悉，OpenAI已向部分客户展示了这款新型多模态人工智能模型。相较于OpenAI现有的独立图像识别和文本转语音模型，这款新型模型在处理图像和音频信息方面表现出了更高的速度和准确性。想象一下，客服人员将能够借助它更好地理解来电者的语气语调，甚至判断出他们是否在使用讽刺语气。而在教育领域，这款模型也有望帮助学生更好地学习数学知识，甚至翻译现实世界中的标志文字。 OpenAI将发布多模态人工智能数字助理，开启智能对话与物体识别新纪元

AI旋风认为，这款多模态人工智能数字助理的推出，无疑将极大地拓展人工智能的应用场景。它将不再局限于单一的文本或图像识别，而是能够同时处理多种模态的信息，为用户提供更加智能、便捷的服务。这不仅是OpenAI在人工智能技术上的又一重要突破，也是人工智能领域发展的又一重要里程碑。

然而，尽管这款新型模型在某些问题解答方面能够超越GPT-4 Turbo，但消息人士也指出，它仍有可能出现自信地给出错误答案的情况。这提醒我们，在享受人工智能带来的便利的同时，也需要对其结果保持一定的审慎和判断。

值得注意的是，有开发者Ananay Arora发布了一张包含通话相关代码的截图，进一步暗示了OpenAI可能正在为ChatGPT加入打电话的功能。此外，Arora还发现了一些证据表明OpenAI正在配置用于实时音视频通信的服务器。这些迹象表明，OpenAI在推动人工智能交互方式创新方面正迈出坚实的步伐。 OpenAI将发布多模态人工智能数字助理，开启智能对话与物体识别新纪元

不过，在即将发布的新品上，OpenAI首席执行官萨姆・阿尔特曼（Sam Altman）已经明确否认了新品是代号为GPT-5的大型语言模型。据称，GPT-5的性能将大幅优于GPT-4，但预计将在今年年底前正式亮相。同时，阿尔特曼还表示，OpenAI不会发布新的人工智能搜索引擎。

尽管OpenAI的新品并非GPT-5，但其发布仍可能对即将举行的Google I/O开发者大会产生一定影响。众所周知，谷歌也在测试利用人工智能进行电话呼叫的技术。此外，谷歌还有一个据传即将发布的项目，代号为“Pixie”。Pixie是一款能够通过设备摄像头识别物体的多模态Google Assistant替代品，可以为用户提供诸如“如何前往购买地点”或“如何使用”等信息。

OpenAI即将发布的多模态人工智能数字助理无疑将为用户带来更加智能、便捷的体验。而随着人工智能技术的不断发展和创新，我们有理由相信，未来将有更多类似的产品和应用出现，为人类生活带来更多便利和惊喜。