自然语言处理:数据集精选与下载
2023.09.25 09:20浏览量:8简介:自然语言处理(NLP)数据集汇总 2(附下载链接)
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
立即体验
自然语言处理(NLP)数据集汇总 2(附下载链接)
自然语言处理(NLP)是人工智能领域的一个热门分支,主要关注人与机器之间的交互。在NLP的研究与应用中,数据集起着至关重要的作用。以下是NLP领域一些常用的数据集及其下载链接。
- 斯坦福大学英语句子数据集(Stanford Sentiment Treebank)
Stanford Sentiment Treebank是斯坦福大学提供的一个情感分析数据集,包含11,427个带标签的句子。这个数据集的标签范围从极负面的情感到极正面的情感,被广泛用于训练和测试情感分析模型。
下载链接:https://nlp.stanford.edu/sentiment/ - 百万小语种句子数据集(MultilingualOneMillion)
百万小语种句子数据集包含超过1000万条多语种句子,涵盖了13种语言。该数据集是一个庞大的语料库,适合用于多种NLP任务,如文本分类、情感分析和语言模型训练。
下载链接: - 布朗大学维基百科语料库(BrownWikitext)
BrownWikitext是一个大型的英文维基百科语料库,包含约1000万个句子。该数据集以纯文本形式提供,可用于多种NLP任务,如词性标注、句法分析和语义分析等。
下载链接:https://www.cs.brown.edu/~sk/Wikitext/ - 多伦多大学对话数据集(Toronto Dialogue Dataset)
Toronto Dialogue Dataset是多伦多大学提供的一个对话数据集,包含了约25,000个对话。这些对话涵盖了多个主题,如电影、音乐、旅游和科技等,可用于训练和测试对话系统。
下载链接:https://www.cs.toronto.edu/~asamir/dialogue.html - 谷歌新闻数据集(Google News dataset)
Google News dataset是一个大型的新闻文章数据集,包含了超过100万个新闻标题和摘要。这个数据集被广泛用于训练和测试文本分类和主题建模等NLP任务。
下载链接:https://ai.googleblog.com/2008/07/introducing-mikulov-et-al-2008-large.html - Common Crawl数据集
Common Crawl是一个每月更新的大规模网络爬虫数据集。它涵盖了来自各种网站的大量文本数据,适合用于多种NLP任务,如文本分类、实体识别和关系抽取等。
下载链接:https://commoncrawl.org/ - 图灵测试数据集(Turing Test dataset)
Turing Test dataset是一个图灵测试数据集,用于评估机器是否能够像人一样进行自然语言交流。这个数据集包含了人类和机器之间的数百个对话,可以作为NLP研究的一个挑战性任务。
下载链接:http://turingtest.eousie.org/

发表评论
登录后可评论,请前往 登录 或 注册