自然语言处理：数据集精选与下载

作者：搬砖的石头2023.09.25 17:20浏览量：8

简介：自然语言处理（NLP）数据集汇总 2（附下载链接）

自然语言处理（NLP）数据集汇总 2（附下载链接）
自然语言处理（NLP）是人工智能领域的一个热门分支，主要关注人与机器之间的交互。在NLP的研究与应用中，数据集起着至关重要的作用。以下是NLP领域一些常用的数据集及其下载链接。

斯坦福大学英语句子数据集（Stanford Sentiment Treebank）
Stanford Sentiment Treebank是斯坦福大学提供的一个情感分析数据集，包含11,427个带标签的句子。这个数据集的标签范围从极负面的情感到极正面的情感，被广泛用于训练和测试情感分析模型。
下载链接：https://nlp.stanford.edu/sentiment/
百万小语种句子数据集（MultilingualOneMillion）
百万小语种句子数据集包含超过1000万条多语种句子，涵盖了13种语言。该数据集是一个庞大的语料库，适合用于多种NLP任务，如文本分类、情感分析和语言模型训练。
下载链接：
布朗大学维基百科语料库（BrownWikitext）
BrownWikitext是一个大型的英文维基百科语料库，包含约1000万个句子。该数据集以纯文本形式提供，可用于多种NLP任务，如词性标注、句法分析和语义分析等。
下载链接：https://www.cs.brown.edu/~sk/Wikitext/
多伦多大学对话数据集（Toronto Dialogue Dataset）
Toronto Dialogue Dataset是多伦多大学提供的一个对话数据集，包含了约25,000个对话。这些对话涵盖了多个主题，如电影、音乐、旅游和科技等，可用于训练和测试对话系统。
下载链接：https://www.cs.toronto.edu/~asamir/dialogue.html
谷歌新闻数据集（Google News dataset）
Google News dataset是一个大型的新闻文章数据集，包含了超过100万个新闻标题和摘要。这个数据集被广泛用于训练和测试文本分类和主题建模等NLP任务。
下载链接：https://ai.googleblog.com/2008/07/introducing-mikulov-et-al-2008-large.html
Common Crawl数据集
Common Crawl是一个每月更新的大规模网络爬虫数据集。它涵盖了来自各种网站的大量文本数据，适合用于多种NLP任务，如文本分类、实体识别和关系抽取等。
下载链接：https://commoncrawl.org/
图灵测试数据集（Turing Test dataset）
Turing Test dataset是一个图灵测试数据集，用于评估机器是否能够像人一样进行自然语言交流。这个数据集包含了人类和机器之间的数百个对话，可以作为NLP研究的一个挑战性任务。
下载链接：http://turingtest.eousie.org/

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

自然语言处理：数据集精选与下载

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者