Bert-VITS2
时间: 2023-10-23 21:13:56 浏览: 277
人工智能深度学习,语音克隆项目 Bert-vits2项目, 模型:星之守护者阿狸 语言:中文,训练步数:6000 版本号:2.3
Bert-VITS2是一种基于Transformer的视觉语言模型。它同时对图像和文本进行建模,使用单个Transformer堆栈来学习两个领域之间的关系。Bert-VITS2的架构类似于VisualBERT,但不同于双流网络如ViLBERT和LXMERT。在预训练阶段,Bert-VITS2使用两个目标进行训练,其中一个目标是预测缺失的文本标记,另一个目标是区分给定图像的真假标题。作者建议在与任务无关的预训练之后,执行特定于任务的预训练以减少领域差异。Bert-VITS2是一种强大的视觉语言模型,适用于各种视觉语言任务。
阅读全文