首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

使用doccano标注NER数据详细教程

编程知识
2024年10月12日 09:56

使用doccano标注NER数据详细教程

说明:

部署doccano

https://github.com/doccano/doccano 有说明如何部署。比如使用Docker部署:

docker run --name doccano \
  -d --restart always \
  -e "ADMIN_USERNAME=admin" \
  -e "ADMIN_EMAIL=admin@example.com" \
  -e "ADMIN_PASSWORD=password" \
  -v doccano-db:/data \
  -p 8001:8000 doccano/doccano

创建用户

默认只有一个用户,我们需要打开ADMIN管理页面添加新的用户。

在主网址后加/admin/然后打开ADMIN管理页面(注意后边的斜杠是必须的),点击Add

添加用户名和密码信息后,点击SAVE以保存:

如何进行NER标注

创建项目

默认的界面是英语的,不习惯英语的话,可以切换为中文:

然后点击登录,输入用户名和密码登录,登录之后:

点击创建,会跳转到以下页面:

点击以选择序列标注(Sequence Labeling),然后输入名称等必要信息,根据需要配置其他属性:

点击创建,跳转到以下页面:

导入数据集

单击左侧的数据集按钮:

移动鼠标到操作按钮:

点击导入数据集:

doccano支持多种格式的文本,它们的区别如下:

  • Textfile:上传的文件为txt格式,打标时一整个txt文件显示为一页内容;
  • Textline:上传的文件为txt格式,打标时txt文件的一行文字显示为一页内容;
  • JSONLJSON Lines的简写,每行是一个有效的JSON值;
  • CoNLLCoNLL格式的文件,每行均带有一系列制表符分隔的单词;

上传一个TXT文件:

点击导入后:

定义标签

点击左侧的标签,然后移动鼠标到操作菜单后点击创建标签

创建3个常见的标签,PER, LOC, ORG,实际应用中需要根据需求确定有哪些标签。以下以创建PER标签为例:

创建完后:

添加成员

点击左侧的成员按钮,然后点击增加

选择需要添加到项目的用户和角色,其中有3种角色(项目管理员 ,标注员,审查员)。选择好后保存:

保存后可以看到:

分配标注任务

首先,选中需要分配的数据:

然后,点击操作菜单下的Assign to member

选择分配方案,然后点击右侧的Assign按钮

以上分配方案将15%的任务分配给admin用户,85%的任务分配给user1用户。

查看分配结果:

标注

点击左侧数据集,然后选择一条数据,点击最右边的标注按钮开始标注。

举例来说,点击右侧的PER标签,然后鼠标分别选择文本中的对应文字:

标注完成后,点击文本左上角的X按钮表示已标注完成:

导出数据

点击左侧数据集按钮,移动鼠标到操作菜单,点击导出数据集

选择JSONL格式,勾选Export only approved documents(仅导出已审核过的数据),然后点击导出:

From:https://www.cnblogs.com/shizidushu/p/18460062
本文地址: http://shuzixingkong.net/article/2511
0评论
提交 加载更多评论
其他文章 Nuxt.js 应用中的 restart 事件钩子详解
title: Nuxt.js 应用中的 restart 事件钩子详解 date: 2024/10/14 updated: 2024/10/14 author: cmdragon excerpt: restart 方法是 Nuxt.js 中用于重启当前实例的重要功能。该方法允许开发者在需要时快速重启应
Nuxt.js 应用中的 restart 事件钩子详解 Nuxt.js 应用中的 restart 事件钩子详解
现代化 React UI 库:Material-UI 详解!
随着 React 在前端开发中的流行,越来越多的 UI 框架和库开始涌现,以帮助开发者更高效地构建现代化、响应式的用户界面。其中,Material-UI 是基于 Google Material Design 规范设计的一款开源 React UI 库,Github Star高达 94K,凭借其丰富的组
现代化 React UI 库:Material-UI 详解! 现代化 React UI 库:Material-UI 详解!
SaaS架构:开放平台架构设计
大家好,我是汤师爷~ 今天聊聊开放平台架构设计。 为什么需要搭建开放平台 增强产品能力 开放平台能够让三方开发者和合作伙伴开发新的应用或服务,增加原有SaaS产品能力。这样就可以满足更多用户需求,从而提高用户的满意度和黏性。 促进创新 三方开发者能够在SaaS标准产品的基础上,创造新的解决方案,为平
SaaS架构:开放平台架构设计 SaaS架构:开放平台架构设计 SaaS架构:开放平台架构设计
OpenGL RHI优化
前言 随着Vulkan的普及,OpenGL已经在被慢慢淘汰,更轻的API调用可以节省不少性能,尤其是在移动平台上,可以减少CPU开销,进而减少功耗。看起来很完美,但是问题是目前移动平台Vulkan驱动存在很多兼容性问题,大家主流的做法都是通过白名单的方式去开Vulkan,所以目前我们还是要继续以Op
OpenGL RHI优化
Springboot --- 使用国内的 AI 大模型 对话
实在是不知道标题写什么了 可以在评论区给个建议哈哈哈哈 先用这个作为标题吧 尝试使用 国内给出的 AI 大模型做出一个 可以和 AI 对话的 网站出来 使用 智普AI 只能 在控制台中输出 对应的信息 不如就做一个 maven 的 项目调用对应的API https://open.bigmodel.c
manim边做边学--有向图
有向图和上一篇介绍的无向图基本一样,唯一的区别在于有向图的边有方向性,它表示的是顶点之间的单向或依赖关系。 有向图G一般表示为:G=<V,E>。和无向图一样,V是顶点集合,E是边的集合。 不同之处在于,无向图是用小括号(V,E),有向图用尖括号<V,E>。 在有向图中,边是有
manim边做边学--有向图 manim边做边学--有向图 manim边做边学--有向图
用sdkman管理多个jdk切换
前言 最近项目前后端进行升级,需要在jdk8和jdk17两个版本切换。最简单的是通过手动切换,但切换过程太繁琐,修改环境变量,达到切换目的。于是尝试其它解决方案,最终确实使用sdkman工具。 sdkman 是一款面向Java开发者的命令行工具,旨在简化操作系统上SDKs的管理。支持跨平台
用sdkman管理多个jdk切换 用sdkman管理多个jdk切换 用sdkman管理多个jdk切换