Abstract
BERT和RoBERTa的出现使得 STS(Sentence Textual Similarity)得到显著突破,并且对比学习的应用使得STS得到更好的性能。但对比学习的方法难以利用细粒度的标注信息,以及要求大批量的大小以防止模型崩溃。上述挑战都使得 STS 任务受到细微相似度以及在资源有限时的表现。而Sentence-Bert一定程度的解决了上述问题,但Sentence-Bert将 STS 建模为分类任务,作者任务这忽视了语义相似的进步性。因此本文采用回归框架,并提出两个简单有效的loss函数,最终通过实验验证其有效性。
对比学习的二分类性质导致无法很好的利用两条数据相近信息
此外,之前的工作也表示负例越多效果越好,因此要求batch size的规模需要足够大,其中SimCSE要求batch_size 大小为512,同时在消费级GPU上还需要限制token长度不能超过32
语义相似的进步性是指语义相似并非是不相似与相似两种状态,中间还会有若干其他状态,即作者任务语义相似性建模为离散变量不合适
