大语言模型训练数据集分享

作者：起个名字好难2024.01.05 11:48浏览量：244

简介：本文将介绍30个大语言模型训练相关的数据集，这些数据集涵盖了不同领域和语言，可供研究人员和开发者使用。

随着人工智能技术的不断发展，大语言模型已经成为研究的热点领域。而大语言模型的训练需要大量的数据集作为支持。本文将为大家分享30个大语言模型训练相关的数据集，供大家参考和使用。

Common Crawl: Common Crawl 是一个每月更新的大规模网络爬虫数据集，可用于自然语言处理等领域的研究。
EXEQ-300K：一个用于训练文本生成模型的英文数据集，包含300,000个示例。
CodeExp：一个用于代码注释的自然语言处理数据集，包含多种语言的代码注释。
EmoContext：一个用于情感分析的英文数据集，包含文本和相应的情感标签。
Newsgroups：一个用于文本分类的英文数据集，包含多个新闻组的数据。
IMDB：一个用于电影评论情感分析的英文数据集，包含正面和负面的电影评论。
Yelp Reviews：一个用于商业评论情感分析的英文数据集，包含正面和负面的商业评论。
Amazon Reviews：一个用于产品评论情感分析的英文数据集，包含多个产品的评论数据。
PubMed Central：一个生物医学领域的英文数据集，可用于自然语言处理和信息抽取等领域的研究。
PubMed XML：一个生物医学领域的英文XML数据集，可用于自然语言处理和信息抽取等领域的研究。
Free Law: 一个用于法律领域文本分析的英文数据集，包含多个法律案例的文本数据。
OSCAR：一个用于电影评论观点挖掘的英文数据集，包含多个电影评论的观点和情感标签。
SemEval-2010 Task 8：一个用于语义相似度判断的英文数据集，包含多个文本对和相应的语义相似度标签。
SemEval-2012 Task 6：一个用于语义角色标注的英文数据集，包含多个句子和相应的语义角色标签。
CoNLL-2000 Shared Task：一个用于命名实体识别的英文数据集，包含多个句子和相应的命名实体标签。
CoNLL-2003 Shared Task：一个用于依存句法分析的英文数据集，包含多个句子和相应的依存关系标签。
Treebank：一个用于英语语法分析的英文数据集，包含多个句子和相应的语法结构标签。
CodeExp：一个用于代码注释的自然语言处理数据集，包含多种语言的代码注释。
CodeSearchNet：一个用于代码搜索的自然语言处理数据集，包含多个问题和相应的代码片段。
StackOverflow：一个用于自然语言处理的英文数据集，包含多个问题和相应的答案和评论。
Quora Question Pairs：一个用于问答系统的英文数据集，包含多个问题和相应的答案和评论。
SQuAD：一个用于问答系统的英文数据集，包含多个问题和相应的答案和评论。
Newsgroups：一个用于文本分类的英文数据集，包含多个新闻组的数据。
IMDB：一个用于电影评论情感分析的英文数据集，包含正面和负面的电影评论。
Yelp Reviews：一个用于商业评论情感分析的英文数据集，包含正面和负面的商业评论。
Amazon Reviews：一个用于产品评论情感分析的英文数据集，包含多个产品的评论数据。
TED Talks：一个用于自然语言处理的英文数据集，包含多个演讲的视频和相应的文本内容。
OSCAR：一个用于电影评论观点挖掘的英文数据集，包含多个电影评论的观点和情感标签。
SST-2：一个用于情感分析的英文数据集，包含正面和负面的句子。
IMDB-Wiki-Movies：一个用于多模态信息融合的电影推荐系统数据集，包含电影元数据、用户评分、电影描述等信息。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

大语言模型训练数据集分享

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者