快手开源“可图Kolors”：双语驾驭，文字入画，AI赋能创意无界

AI每日新闻2年前 (2024)发布 shen

1,946 0 0

在AI技术日新月异的今天，快手再次以其前瞻性的视野和强大的技术实力，为创意产业投下了一颗震撼弹。今日，快手正式宣布开源其自主研发的图像生成模型——“可图Kolors”，这一举措不仅标志着图像生成技术迈入了一个全新的阶段，更在中文文字生成与融合方面取得了突破性进展，为创作者们开启了一扇通往无限创意的大门。

快手此次开源的“可图Kolors”绝非等闲之辈。该模型在数十亿级的文本图像对海洋中深耕细作，通过海量数据的滋养，孕育出了强大的图像生成能力。尤为值得一提的是，它搭载了通用语言模型（GLM）作为文本编码器，这一设计使得“可图Kolors”不仅精通英文语境，更在中文领域展现出了非凡的理解力和创造力，真正实现了双语无缝切换，为全球创作者提供了更为广阔的创作空间。快手开源“可图Kolors”：双语驾驭，文字入画，AI赋能创意无界

“可图Kolors”的亮点之一在于其卓越的中英文双语支持能力。在AIbase的初步测试中，该模型在中文文字生成方面的表现尤为抢眼，几乎能够准确无误地将中文提示词转化为生动形象的图像元素，且能巧妙地将中文文字嵌入画面之中，为图像赋予更多层次的意义和表达力。相比之下，虽然英文生成偶有瑕疵，但这一小瑕疵并未掩盖“可图Kolors”在双语处理上的卓越成就。

更为难能可贵的是，“可图Kolors”还支持长达256个token的上下文处理，这意味着创作者可以更加自由地挥洒创意，无论是构建复杂场景还是编织动人故事，都能得到模型的精准响应和生动呈现。同时，针对中国文化元素的特别优化处理，更是让生成的图像充满了浓郁的中国风情，满足了本土创作者的独特需求。快手开源“可图Kolors”：双语驾驭，文字入画，AI赋能创意无界

技术层面，“可图Kolors”基于先进的SDXL模型架构，并深度融合了ChatGLM256技术，这一创新组合不仅增强了模型的双语理解和文字生成能力，还进一步提升了图像生成的多样性和精准度。然而，值得注意的是，运行如此强大的模型对硬件设备也提出了较高的要求，大约需要19GB的显存支持，这或许是少数创作者在享受技术红利时需要克服的小小障碍。

但快手显然已经考虑到了这一点。开源计划中不仅包含了“可图Kolors”模型本身，还一并提供了CN（ControlNet）支持、LoRa(低秩适应)、IPA(图像提示适应)和ComfyUI等一系列工具和接口，旨在帮助创作者们更加高效、便捷地利用这一技术成果，实现个性化创作。

AI旋风认为，快手的这一开源之举不仅仅是对技术社区的慷慨馈赠，更是对创意自由的一次勇敢宣言。它展示了快手在AI技术领域的深厚积累和前瞻布局，同时也为我们揭示了AI技术在艺术创作中的无限潜力。随着“可图Kolors”的广泛应用和不断迭代升级，我们有理由相信，未来的艺术创作将更加多元、更加精彩，而这一切的起点，正是今天快手所迈出的这一步。