如果数据科学家缺乏足够的数据来训练机器学习模型,该怎么办?一种潜在的途径是合成数据生成,IBM Research的研究人员在新发表的预印本文章中主张使用合成数据。他们使用了经过预训练的机器学习模型来人工合成用于文本分类任务的新标签数据。他们声称他们的方法被称为基于语言模型的数据增强(简称Lambada),可提高分类器在各种数据集上的性能,并显着改善了最新的数据增强技术。
根据眼前的问题,要适合分类器模型,可能需要大量的标记数据。但是,在许多情况下,尤其是在为特定应用开发AI系统时,标记数据很少且获取成本很高。”论文的合著者写道。根据眼前的问题,要适合分类器模型,可能需要大量的标记数据。但是,在许多情况下,尤其是在为特定应用程序开发AI系统时,标记数据很少而且获取成本很高。”
研究人员指出,在文本域中生成合成训练数据比在视觉域中更具挑战性,因为在更简单的方法中使用的转换通常会使文本失真,从而使其在语法和语义上不正确。因此,大多数文本数据增强技术(包括本文中详细介绍的技术)都涉及用同义词替换单个单词,删除单词或更改单词顺序。
Lambada利用生成模型(OpenAI的GPT)对大型文本进行了预训练,使其能够捕获语言结构,从而生成连贯的句子。研究人员在现有的小型数据集上微调了他们的模型,并使用微调的模型来合成新的带标签句子。独立地,他们在上述数据集上训练了分类器,并对其进行了过滤,从而仅在对现有数据和合成数据进行分类之前,仅保留看起来“定性”好的数据。
为了验证他们的方法,研究人员通过运行实验在三个数据集上测试了三个不同的分类器-BERT,支持向量机和一个长期的短期记忆网络-他们在每个班级改变了训练样本。所涉及的语料库包含有关航班相关信息的查询,几类中的基于开放域和基于事实的问题,以及来自电信客户支持系统的数据。