样本是用户可能询问机器人的语音话述,可以从线上的对话日志或离线生成,这部分语音话述可以用来进行标注,以便于后续的指标评估或模型迭代。
由多个样本组成。样本集可以对样本进行分组管理,不同样本集类型的标注内容也不相同,现在样本集有两种类型,分别如下:
文法样本集:文法样本集中的样本,可以标注领域、意图和槽位。
问答样本集:问答样本集中的样本,可以标注用户的询问话述与召回的问题是否相似。