首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

编程知识
2024年07月24日 23:20

引言

蛋白质语言模型 (Protein Language Models, PLM) 已成为蛋白质结构与功能预测及设计的有力工具。在 2023 年国际机器学习会议 (ICML) 上,MILA 和英特尔实验室联合发布了 ProtST 模型,该模型是个可基于文本提示设计蛋白质的多模态模型。此后,ProtST 在研究界广受好评,不到一年的时间就积累了 40 多次引用,彰显了该工作的影响力。

PLM 最常见的任务之一是预测氨基酸序列的亚细胞位置。此时,用户输入一个氨基酸序列给模型,模型会输出一个标签,以指示该序列所处的亚细胞位置。论文表明,ProtST-ESM-1b 的零样本亚细胞定位性能优于最先进的少样本分类器 (如下图)。

为了使 ProtST 更民主化,英特尔和 MILA 对模型进行了重写,以使大家可以通过 Hugging Face Hub 来使用模型。大家可于 此处 下载模型及数据集。

本文将展示如何使用英特尔 Gaudi 2 加速卡及 optimum-habana 开源库高效运行 ProtST 推理和微调。英特尔 Gaudi 2 是英特尔设计的第二代 AI 加速卡。感兴趣的读者可参阅我们 之前的博文,以深入了解该加速卡以及如何通过 英特尔开发者云 使用它。得益于 optimum-habana,仅需少量的代码更改,用户即可将基于 transformers 的代码移植至 Gaudi 2。

对 ProtST 进行推理

常见的亚细胞位置包括细胞核、细胞膜、细胞质、线粒体等,你可从 此数据集 中获取全面详细的位置介绍。

我们使用 ProtST-SubcellularLocalization 数据集的测试子集来比较 ProtST 在英伟达 A100 80GB PCIeGaudi 2 两种加速卡上的推理性能。该测试集包含 2772 个氨基酸序列,序列长度范围为 79 至 1999。

你可以使用 此脚本 重现我们的实验,我们以 bfloat16 精度和 batch size 1 运行模型。在英伟达 A100 和英特尔 Gaudi 2 上,我们获得了相同的准确率 (0.44),但 Gaudi 2 的推理速度比 A100 快 1.76 倍。单张 A100 和单张 Gaudi 2 的运行时间如下图所示。

微调 ProtST

针对下游任务对 ProtST 模型进行微调是提高模型准确性的简单且公认的方法。在本实验中,我们专门研究了针对二元定位任务的微调,其是亚细胞定位的简单版,任务用二元标签指示蛋白质是膜结合的还是可溶的。

你可使用 此脚本 重现我们的实验。其中,我们在 ProtST-BinaryLocalization 数据集上以 bfloat16 精度微调 ProtST-ESM1b-for-sequential-classification。下表展示了不同硬件配置下测试子集的模型准确率,可以发现它们均与论文中发布的准确率 (~92.5%) 相当。

下图显示了微调所用的时间。可以看到,单张 Gaudi 2 比单张 A100 快 2.92 倍。该图还表明,在 4 张或 8 张 Gaudi 2 加速卡上使用分布式训练可以实现近线性扩展。

总结

本文,我们展示了如何基于 optimum-habana 轻松在 Gaudi 2 上部署 ProtST 推理和微调。此外,我们的结果还表明,与 A100 相比,Gaudi 2 在这些任务上的性能颇具竞争力: 推理速度提高了 1.76 倍,微调速度提高了 2.92 倍。

如你你想在英特尔 Gaudi 2 加速卡上开始一段模型之旅,以下资源可助你一臂之力:

感谢垂阅!我们期待看到英特尔 Gaudi 2 加速的 ProtST 能助你创新。


英文原文: https://hf.co/blog/intel-protein-language-model-protst

原文作者: Julien Simon,Jiqing Feng,Santiago Miret,Xinyu Yuan,Yi Wang,Matrix Yao,Minghao Xu,Ke Ding

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

From:https://www.cnblogs.com/huggingface/p/18322072
本文地址: http://www.shuzixingkong.net/article/395
0评论
提交 加载更多评论
其他文章 全网最适合入门的面向对象编程教程:24 类和对象的 Python 实现-异常的捕获与处理:try/except 语句、文件读写示例、Exception 引用
本文主要介绍了在使用Python面向对象编程时,如何使用try/except语句捕获并处理异常,并辅以CSV文件读写为例进行讲解,同时说明了如何对Exception对象进行引用。
全网最适合入门的面向对象编程教程:24 类和对象的 Python 实现-异常的捕获与处理:try/except 语句、文件读写示例、Exception 引用 全网最适合入门的面向对象编程教程:24 类和对象的 Python 实现-异常的捕获与处理:try/except 语句、文件读写示例、Exception 引用 全网最适合入门的面向对象编程教程:24 类和对象的 Python 实现-异常的捕获与处理:try/except 语句、文件读写示例、Exception 引用
nginx的一些功能
一、四层(tcp/udp)代理 由于nginx默认是不支持四层代理的因此在安装的时候需要加上对应的模块with-stream ./configure --with-stream # 查看当前nginx安装了什么模块 root@proxy[05:52:09]:/usr/local/nginx $ sb
nginx的一些功能
C# 12 新增功能实操!
前言 今天咱们一起来探索并实践 C# 12 引入的全新功能! C#/.NET该如何自学入门? 注意:使用这些功能需要使用最新的 Visual Studio 2022 版本或安装 .NET 8 SDK 。 主构造函数 主构造函数允许你直接在类定义中声明构造函数参数,并自动生成相应的属性。 主构造函数参
C# 12 新增功能实操! C# 12 新增功能实操!
locust多进程实现分布式压测遇到的问题
多进程分布式的实现: locust分布式时,需借助命令locust 一个一个启动worker,在使用中有点繁琐, 下面借助于多进程,按既定worker数量,一键启动; from locust import FastHttpUser, task, User, events, HttpUser #cla
【数学建模导论】Task01 数据处理与拟合模型
0 前言 感谢 DataWhale 的开源学习课程 intro-mathmodel,项目仓库在这。 现在开始,跟着Task01 进入数据类的学习,实现每一个代码,包括数据预处理、回归分析与分类分析、假设检验、随机过程与随机模拟、数据可视化图表、三种插值模型。 本篇是知识的梳理和总结,用以更好地食用教
【数学建模导论】Task01 数据处理与拟合模型 【数学建模导论】Task01 数据处理与拟合模型 【数学建模导论】Task01 数据处理与拟合模型
【VMware VCF】VMware Cloud Foundation Part 04:准备 ESXi 主机。
VMware Cloud Foundation 管理域部署要求至少准备 4 台 ESXi 主机作为最小计算单元,如果采用整合部署(管理域和 VI 工作负载域合并),还需要根据实际情况适量增加 ESXi 计算主机。但是,对于测试学习来说,我们不需要准备这么多物理主机,可以采用嵌套虚拟化部署的方式来完成
【VMware VCF】VMware Cloud Foundation Part 04:准备 ESXi 主机。 【VMware VCF】VMware Cloud Foundation Part 04:准备 ESXi 主机。 【VMware VCF】VMware Cloud Foundation Part 04:准备 ESXi 主机。
涨见识了!脱离vue项目竟然也可以使用响应式API
前言 vue3的响应式API大家应该都特别熟悉,比如ref、watch、watchEffect等。平时大家都是在vue-cli或者vite创建的vue项目里面使用的这些响应式API,今天欧阳给大家带来一些不一样的。脱离vue项目,在node.js项目中使用vue的响应式API。 关注公众号:【前端欧
涨见识了!脱离vue项目竟然也可以使用响应式API 涨见识了!脱离vue项目竟然也可以使用响应式API 涨见识了!脱离vue项目竟然也可以使用响应式API
深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略
GaussDB(for MySQL)通过自研并行查询(PQ)和计算下推(NDP)特性,解决了大表COUNT慢的问题,典型场景下,相比MySQL并行扫描主键性能可提升超过80倍。
深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略 深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略 深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略