Galileo发布革命性产品Luna，重新定义GenAI评估，成本降低97%、速度提升11倍

AI每日新闻1年前 (2024)发布 shen

571 0 0

在人工智能技术的浪潮中，企业对于生成式人工智能（GenAI）系统的评估方式正经历着前所未有的变革。今日，人工智能技术的领军企业Galileo宣布发布其全新产品Luna，这一革命性的Evaluation Foundation Models套件将重新定义企业对GenAI系统的评估标准。Galileo通过Luna的发布，不仅在速度、成本和准确性方面实现了前所未有的突破，更将人工智能评估技术推向了新的高度。

“我们发布Luna的初衷，就是要打破当前GenAI评估方法的局限。”Galileo联合创始人兼首席执行官Vikram Chatterji在接受采访时表示，“传统的评估方法往往速度缓慢、成本高昂，而且准确性有待提高。Luna的推出，正是为了满足生产环境中对超低延迟、成本效益高和高准确性评估的迫切需求。”

自2021年初成立以来，Galileo一直在企业GenAI领域处于领先地位。Luna的研发，标志着Galileo在推动人工智能评估边界上取得了重要的里程碑。这款产品的诞生，背后是Galileo近一年来的密集研发工作和无数次的实验与优化。 Galileo发布革命性产品Luna，重新定义GenAI评估，成本降低97%、速度提升11倍

在性能上，Luna展现出了令人瞩目的优势。在接收器操作特征曲线下面积（AUROC）得分的基准比较中，Luna以0.78的高分超越了GPT-3.5、Trulens Groundedness和RAGAS Faithfulness等竞争对手，证明了其在评估企业生成式人工智能系统准确性方面的卓越能力。

Luna之所以能够取得如此出色的成绩，其核心在于其专为特定评估任务设计的小型语言模型。这些模型经过精心定制，针对幻觉检测、语境质量评估、数据泄漏防护和恶意提示识别等任务进行了优化。这种专业设计使得Luna在速度、成本和准确性三个关键指标上均表现出色。

据Chatterji介绍，Luna在速度方面比GPT-3.5快11倍，成本则降低了97%。这得益于其小型语言模型的高效计算和低开销。同时，Luna在准确性方面也有显著提升，相比以往方法高出多达20%。这种提升得益于其“多头小型语言模型”和“智能分块”等先进技术，这些技术使得Luna能够更好地保持上下文并提供更准确的评估。 Galileo发布革命性产品Luna，重新定义GenAI评估，成本降低97%、速度提升11倍

除了速度和成本方面的优势外，Luna的另一个亮点是其能够在不需要传统基准数据集的情况下运行。通过利用在多样、领域特定数据集上微调的预训练评估模型，Luna消除了创建定制测试集的耗时和昂贵过程。这一创新简化了评估流程，减少了对大量人工生成数据的依赖。

Luna的潜在应用广泛，特别是在需要人工智能评估具有高可靠性和速度的行业中。Chatterji指出，Luna在医疗保健、金融和电信等行业具有巨大的应用价值。在这些行业中，财富100强企业对于能够处理大规模应用、吞吐量大的企业应用的需求尤为迫切。Luna的出现，无疑为这些企业提供了强有力的支持。

AI旋风认为，Galileo的Luna在人工智能评估领域具有划时代的意义。它不仅提供了无与伦比的速度和准确性，更在成本方面实现了大幅降低。随着Luna的广泛应用和推广，我们有理由相信，它将在未来的人工智能领域发挥越来越重要的作用，推动人工智能技术的进一步发展和普及。