中文文本分类(情感分析)数据集汇总

作者:rousong2024.02.17 22:29浏览量:5

简介:本文将介绍几个常用的中文文本分类(情感分析)数据集,包括THUCNews、知乎看山杯和AI_challenger情感分析数据集。这些数据集对于研究中文文本分类和情感分析具有重要意义,可以帮助我们更好地理解中文文本的情感倾向和主题分类。

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用

立即体验

在中文文本分类和情感分析领域,数据集的选取和使用是至关重要的。以下是一些常用的中文文本分类(情感分析)数据集:

  1. THUCNews数据集

THUCNews是一个基于新浪新闻RSS订阅频道的中文文本数据集,包含2005年至2011年间的历史数据。该数据集共包含74万篇新闻文档,经过筛选过滤后生成纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别,包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。数据集地址:http://thuctc.thunlp.org/

  1. 知乎看山杯数据集

知乎看山杯是一个中文文本分类数据集,源自知乎社区的问答内容。该数据集按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。该数据集共包含15个分类标签,每个分类标签下有多个样本。数据集下载地址:https://pan.baidu.com/s/1qUr6IQQn6DzrMlbaAUZslQ提取码:qbiw

  1. AI_challenger情感分析数据集

AI_challenger情感分析数据集是一个中文文本分类数据集,主要用于情感分析任务。该数据集分为训练、验证、测试A与测试B四部分,其中训练集包含14438个样本,验证集包含3609个样本,测试A包含3575个样本,测试B包含3570个样本。评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。该数据集对于中文情感分析和自然语言处理领域具有重要的意义和应用价值。

在实际应用中,选择适合的数据集要根据具体任务和需求来决定。对于中文文本分类和情感分析任务,以上几个数据集都可以作为参考和借鉴。同时,还需要注意数据的质量和标注的准确性,以及在实际应用中对模型进行充分的训练和优化,以提高模型的分类准确率和泛化能力。

article bottom image

相关文章推荐

发表评论