ag-news dataset - ag-news 数据集
AG News数据集是一个常用的文本分类数据集,通常用于训练和评估文本分类模型。该数据集由来自AG(About Good)的新闻文章组成,涵盖了四个类别:World(世界新闻)、Sports(体育新闻)、Business(商业新闻)和Sci/Tech(科技新闻)。
AG News数据集具有以下特点:
- **规模适中**:数据集包含约120,000条新闻文本,其中约30,000条用于训练,约1,900条用于测试。这使得它适合用于快速开发和评估文本分类算法。
- **类别明确**:每个样本都被明确标记为四个类别之一,使得分类任务变得简单明了。
- **真实性**:新闻来源包括真实的新闻机构,如CNN、BBC和Reuters,使得数据更具有现实意义。
- **多样性**:涵盖了多个领域的新闻,从世界新闻到科技新闻,反映了不同主题和内容的文本。
AG News数据集通常用于研究和教育目的,帮助研究人员和开发者了解和实践文本分类技术。通过使用AG News数据集,可以快速搭建和测试文本分类模型,评估其性能并进行改进。