大语言模型训练数据集分享
2024.01.05 03:48浏览量:222简介:本文将介绍30个大语言模型训练相关的数据集,这些数据集涵盖了不同领域和语言,可供研究人员和开发者使用。
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
立即体验
随着人工智能技术的不断发展,大语言模型已经成为研究的热点领域。而大语言模型的训练需要大量的数据集作为支持。本文将为大家分享30个大语言模型训练相关的数据集,供大家参考和使用。
- Common Crawl: Common Crawl 是一个每月更新的大规模网络爬虫数据集,可用于自然语言处理等领域的研究。
- EXEQ-300K:一个用于训练文本生成模型的英文数据集,包含300,000个示例。
- CodeExp:一个用于代码注释的自然语言处理数据集,包含多种语言的代码注释。
- EmoContext:一个用于情感分析的英文数据集,包含文本和相应的情感标签。
- Newsgroups:一个用于文本分类的英文数据集,包含多个新闻组的数据。
- IMDB:一个用于电影评论情感分析的英文数据集,包含正面和负面的电影评论。
- Yelp Reviews:一个用于商业评论情感分析的英文数据集,包含正面和负面的商业评论。
- Amazon Reviews:一个用于产品评论情感分析的英文数据集,包含多个产品的评论数据。
- PubMed Central:一个生物医学领域的英文数据集,可用于自然语言处理和信息抽取等领域的研究。
- PubMed XML:一个生物医学领域的英文XML数据集,可用于自然语言处理和信息抽取等领域的研究。
- Free Law: 一个用于法律领域文本分析的英文数据集,包含多个法律案例的文本数据。
- OSCAR:一个用于电影评论观点挖掘的英文数据集,包含多个电影评论的观点和情感标签。
- SemEval-2010 Task 8:一个用于语义相似度判断的英文数据集,包含多个文本对和相应的语义相似度标签。
- SemEval-2012 Task 6:一个用于语义角色标注的英文数据集,包含多个句子和相应的语义角色标签。
- CoNLL-2000 Shared Task:一个用于命名实体识别的英文数据集,包含多个句子和相应的命名实体标签。
- CoNLL-2003 Shared Task:一个用于依存句法分析的英文数据集,包含多个句子和相应的依存关系标签。
- Treebank:一个用于英语语法分析的英文数据集,包含多个句子和相应的语法结构标签。
- CodeExp:一个用于代码注释的自然语言处理数据集,包含多种语言的代码注释。
- CodeSearchNet:一个用于代码搜索的自然语言处理数据集,包含多个问题和相应的代码片段。
- StackOverflow:一个用于自然语言处理的英文数据集,包含多个问题和相应的答案和评论。
- Quora Question Pairs:一个用于问答系统的英文数据集,包含多个问题和相应的答案和评论。
- SQuAD:一个用于问答系统的英文数据集,包含多个问题和相应的答案和评论。
- Newsgroups:一个用于文本分类的英文数据集,包含多个新闻组的数据。
- IMDB:一个用于电影评论情感分析的英文数据集,包含正面和负面的电影评论。
- Yelp Reviews:一个用于商业评论情感分析的英文数据集,包含正面和负面的商业评论。
- Amazon Reviews:一个用于产品评论情感分析的英文数据集,包含多个产品的评论数据。
- TED Talks:一个用于自然语言处理的英文数据集,包含多个演讲的视频和相应的文本内容。
- OSCAR:一个用于电影评论观点挖掘的英文数据集,包含多个电影评论的观点和情感标签。
- SST-2:一个用于情感分析的英文数据集,包含正面和负面的句子。
- IMDB-Wiki-Movies:一个用于多模态信息融合的电影推荐系统数据集,包含电影元数据、用户评分、电影描述等信息。

发表评论
登录后可评论,请前往 登录 或 注册