Adobe图像生成AI“Firefly”训练集揭秘：约5%图像源自AI生成

AI每日新闻2年前 (2024)发布 shen

2,072 0 0

近日，Adobe公司的图像生成AI“Firefly”的训练集引发了广泛关注。据美国经济报纸彭博社报道，Firefly的训练集中竟然包含了约5%由Midjourney等其他图像生成AI生成的图像。这一发现不仅揭示了Firefly训练集的真实构成，也引发了人们对于AI训练数据集来源和道德规范的讨论。

Adobe Stock，作为Adobe公司运营的素材库，一直以来都是Firefly训练集的重要来源。这个素材库中注册的图片和视频被用于训练Firefly，使其能够生成高质量的图像内容。然而，令人惊讶的是，Adobe Stock中不仅有真实的图片和视频，还开始接受AI生成的内容。目前，Adobe Stock中约有14%的内容被标记为AI生成的图像。

这一事实引发了人们对于AI训练数据集来源的质疑。AI技术的快速发展离不开大量的数据支持，而训练数据的质量和来源对于AI模型的性能至关重要。然而，如果训练集中包含了大量的AI生成图像，那么这些图像的质量和真实性如何保证？它们是否会对AI模型的训练产生负面影响？

在Firefly开发的早期阶段，Adobe内部曾就是否应该在包括图像生成AI的数据集上进行训练展开过讨论。有观点认为，使用AI生成的图像作为训练数据可能会对模型的性能和准确性产生不利影响。然而，最终Adobe还是决定在训练集中包含一定比例的AI生成图像。 Adobe图像生成AI“Firefly”训练集揭秘：约5%图像源自AI生成

2023年3月，当Adobe Firefly作为beta版本发布时，Adobe Stock社区经理Raul Cerón曾表示，在发布正式版本时，他们将准备一个新的训练数据库，并排除生成的AI内容。然而，据彭博社报道，Firefly首个商业模型的训练中，仍然有约5%的图像是由其他图像生成AI生成的。

这一事实让一些用户感到不满和担忧。一位名为Brian Penny的用户在Adobe Stock上注册了由Midjourney生成的作品，他表示对Adobe的奖励感到惊讶，并认为用自己的内容训练Firefly是不对的。他呼吁Adobe更加注重道德和透明度，采取更多措施来确保训练数据的质量和真实性。

对于这一问题，哈佛大学法律学者和版权商标专家Rebecca Tushnett教授表示，即使Adobe的Firefly学习自图像生成AI的内容，它在版权或商标方面可能并不会更不安全。然而，她也指出，Firefly学习自Midjourney生成的图像的事实与其声称与其他图像生成AI不同的说法相矛盾。这引发了人们对于AI技术声明真实性和透明度的质疑。

AI旋风认为，这一事件再次提醒我们，在AI技术的快速发展中，我们不仅需要关注其性能和功能，还需要重视其背后的数据来源和道德规范。只有确保训练数据的质量和真实性，才能构建出更加可靠和有效的AI模型。同时，我们也应该呼吁相关企业和机构加强自律和监管，确保AI技术的发展符合道德和法律规定，为人类社会带来更多的福祉和进步。