通过自然语言指导创作，Text-to-Image达到了极高的创作自由度，但是仍然难以通过语言指导生成特定概念的图像，修改它们的外观，或将他们组成新的角色和新的场景。

本文提出了一种允许这种创作的简单方法：

使用给定的3-5张图像，学习在冻结的Text-to-Image的嵌入空间中通过新的“单词”描述它。
这些“单词”可以组合成自然语言句子，指导个性化创作。

我们发现，单个单词足以捕获多样的概念。

主要贡献：

介绍了个性化的文本到图像生成任务，在自然语言指导下合成了用户提供的概念的新颖场景。
提出文本反转想法，目标是在文本编码器的嵌入空间中寻找新的伪词，这些伪词可以捕捉到高级语义和精细的视觉细节。

介绍

最近的大规模Text-to-Image模型展现出了对自然语言描述进行推理的前所未有的能力。允许用户用从未见过的构图合成新奇的场景，以无数种风格产生生动图片。然而，它们的使用受制于用户通过文本描述所需目标的能力。

在大规模的模型中引入新的概念往往非常困难。重新训练模型非常昂贵，对少数例子进行微调通常会导致灾难性的遗忘。更多的方法是冻结了模型并训练变换模块以在面对新的概念时调整输出。

本文提出通过与训练好的文本到图像的文本嵌入中寻找新词来克服这些困难。在文本编码器过程的第一阶段（每个token替换成自己的嵌入向量），找到新的嵌入向量，代表新的、特定的概念。

我们用一伪词（用 $S_*$ 表示）表示一个新的嵌入向量。这个伪词被作为任何其他词来对待，例如人们可以询问模型“a photograph of $S_∗$ on the beach”，甚至组合两个概念“a drawing of $S^1_∗$ in the style of $S^2_∗$ ”