lcqmc数据集,哈工大发表的一个中文问答匹配数据集总样本数为:260068,其中,匹配样本个数为:149226,不匹配样本个数为:110842
中文SNLI数据集:
中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
2019.12.01本数据集CMNLI 已被CLUE 收录,详情请参考 CLUE 自然语言推理任务 Chinese Multi-Genre NLI。训练集与本数据集保持一致,dev和test有所改变
数据格式
Chinese-SNLI & Chinese-MNLI { "sentence1": "你敢不敢像拉斯柯尔尼科夫那样,勇于面对现实,拒绝那些管理小人物的琐碎规则?", "sentence2": "你会站起来揭发镇上所有的邪恶领主吗?", "gold_label": "neutral" }
数据使用声明:
一、数据来源与展示说明:
1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
二、所有权说明:
1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
三、数据转载说明:
1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
四、侵权与处理说明:
1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。