大语言模型训练数据集分享

作者:起个名字好难2024.01.05 03:48浏览量:222

简介:本文将介绍30个大语言模型训练相关的数据集,这些数据集涵盖了不同领域和语言,可供研究人员和开发者使用。

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用

立即体验

随着人工智能技术的不断发展,大语言模型已经成为研究的热点领域。而大语言模型的训练需要大量的数据集作为支持。本文将为大家分享30个大语言模型训练相关的数据集,供大家参考和使用。

  1. Common Crawl: Common Crawl 是一个每月更新的大规模网络爬虫数据集,可用于自然语言处理等领域的研究。
  2. EXEQ-300K:一个用于训练文本生成模型的英文数据集,包含300,000个示例。
  3. CodeExp:一个用于代码注释的自然语言处理数据集,包含多种语言的代码注释。
  4. EmoContext:一个用于情感分析的英文数据集,包含文本和相应的情感标签。
  5. Newsgroups:一个用于文本分类的英文数据集,包含多个新闻组的数据。
  6. IMDB:一个用于电影评论情感分析的英文数据集,包含正面和负面的电影评论。
  7. Yelp Reviews:一个用于商业评论情感分析的英文数据集,包含正面和负面的商业评论。
  8. Amazon Reviews:一个用于产品评论情感分析的英文数据集,包含多个产品的评论数据。
  9. PubMed Central:一个生物医学领域的英文数据集,可用于自然语言处理和信息抽取等领域的研究。
  10. PubMed XML:一个生物医学领域的英文XML数据集,可用于自然语言处理和信息抽取等领域的研究。
  11. Free Law: 一个用于法律领域文本分析的英文数据集,包含多个法律案例的文本数据。
  12. OSCAR:一个用于电影评论观点挖掘的英文数据集,包含多个电影评论的观点和情感标签。
  13. SemEval-2010 Task 8:一个用于语义相似度判断的英文数据集,包含多个文本对和相应的语义相似度标签。
  14. SemEval-2012 Task 6:一个用于语义角色标注的英文数据集,包含多个句子和相应的语义角色标签。
  15. CoNLL-2000 Shared Task:一个用于命名实体识别的英文数据集,包含多个句子和相应的命名实体标签。
  16. CoNLL-2003 Shared Task:一个用于依存句法分析的英文数据集,包含多个句子和相应的依存关系标签。
  17. Treebank:一个用于英语语法分析的英文数据集,包含多个句子和相应的语法结构标签。
  18. CodeExp:一个用于代码注释的自然语言处理数据集,包含多种语言的代码注释。
  19. CodeSearchNet:一个用于代码搜索的自然语言处理数据集,包含多个问题和相应的代码片段。
  20. StackOverflow:一个用于自然语言处理的英文数据集,包含多个问题和相应的答案和评论。
  21. Quora Question Pairs:一个用于问答系统的英文数据集,包含多个问题和相应的答案和评论。
  22. SQuAD:一个用于问答系统的英文数据集,包含多个问题和相应的答案和评论。
  23. Newsgroups:一个用于文本分类的英文数据集,包含多个新闻组的数据。
  24. IMDB:一个用于电影评论情感分析的英文数据集,包含正面和负面的电影评论。
  25. Yelp Reviews:一个用于商业评论情感分析的英文数据集,包含正面和负面的商业评论。
  26. Amazon Reviews:一个用于产品评论情感分析的英文数据集,包含多个产品的评论数据。
  27. TED Talks:一个用于自然语言处理的英文数据集,包含多个演讲的视频和相应的文本内容。
  28. OSCAR:一个用于电影评论观点挖掘的英文数据集,包含多个电影评论的观点和情感标签。
  29. SST-2:一个用于情感分析的英文数据集,包含正面和负面的句子。
  30. IMDB-Wiki-Movies:一个用于多模态信息融合的电影推荐系统数据集,包含电影元数据、用户评分、电影描述等信息。
article bottom image

相关文章推荐

发表评论