首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

(数据科学学习手札163)ibis:极具潜力的Python数据分析框架

编程知识
2024年08月07日 15:10

本文完整代码及附件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

  大家好我是费老师,今天要给大家介绍的Python框架叫做ibis,没错,跟著名连锁酒店宜必思同名,其作者是创造了pandasArrow等著名框架的Wes McKinney

  ibis的核心理念是用同一套数据框操作API,统一操纵各种主流的数据运算框架,使得用户可以更轻松更一致的构建自己的数据分析处理过程,而不是囿于不同框架之间千差万别的用法,下面我们就来一起学习其基础用法😉~

2 ibis基础用法介绍

2.1 ibis的安装

  为了方便演示,我们这里使用condamamba创建新的虚拟环境,来安装试用ibis,以mamba为例,在终端中执行下列命令,完成演示用虚拟环境的创建及激活,并安装ibis最基础的相关模块+示例数据集模块:

mamba create -n ibis-demo python=3.9 -y

mamba activate ibis-demo

pip install ibis-framework[duckdb,examples]

  验证是否安装成功:

python -c "import ibis;print(ibis.__version__)"

  可以看到,我们完成了对ibis的安装,当前版本为9.0.0

2.2 ibis主要功能

2.2.1 构建具有便携性的分析逻辑

  ibis本身不直接执行分析计算,当我们针对目标数据编写好对应计算逻辑的ibis代码后,实际执行时其底层会将计算逻辑自动转换到当前的计算后端中。目前ibis支持超过20种计算后端,均为当前单机分析分布式分析领域的主流框架:

  这使得基于ibis构建的数据分析工作流,可以在不修改代码的情况下,轻松扩展应用于任意的计算后端。

  譬如,ibis默认使用DuckDB作为后端进行单机分析运算,你可以在本机上使用部分数据构建并验证业务分析逻辑后,再套用相同的代码,切换计算后端到诸如ClickHouse上执行分布式运算,这一特性也是ibis便携性的体现。

  举个简单的例子,首先我们基于pandas生成具有一千万行记录的示例数据并导出为parquet格式:

import numpy as np
import pandas as pd

# 生成测试用数据并导出为parquet格式
(
    pd
    .DataFrame(
        {
            '类别': np.random.choice(list('abcdef'), 10000000),
            '数值': np.random.uniform(0, 100, 10000000)
        }
    )
    .assign(数值=lambda df: df['数值'].round(3))
    .to_parquet('demo.parquet')
)

  接下来我们先使用默认的DuckDB后端,在ibis中执行一些示例运算,注意其运算耗时:

  接着,我们切换计算后端为pandas,执行完全一样的计算代码,可以看到计算耗时陡增,毕竟pandas处理上千万行数据性能要远逊于DuckDB,这个例子体现出ibis强大的代码便携性:

2.2.2 充分搭配Python与SQL

  ibis中另一个非常强大的功能,是其可以充分结合Python代码和SQL代码来开展分析工作,譬如,你可以将ibis分析代码直接转换为SQL语句:

  也可以直接执行SQL语句开展分析:

  这使得ibis可以充分联结各类最先进的计算后端,帮助分析师轻松维护业务分析逻辑。

  无论你原先在使用pandasSQL还是R进行数据分析,ibis官网文档中都提供了非常友好的使用指南,确保你可以无痛的迁移使用ibis

  ibis正处于高速迭代发展阶段,其代码仓库几乎每天都在进行新的提交活动,欢迎进行⭐支持:https://github.com/ibis-project/ibis

  更多相关内容,请移步其官网学习更多:https://ibis-project.org/


  以上就是本文的全部内容,欢迎在评论区与我们进行讨论~

From:https://www.cnblogs.com/feffery/p/18347233
本文地址: http://shuzixingkong.net/article/882
0评论
提交 加载更多评论
其他文章 架构知识点(三)
动态分支预测是一种通过记录和分析程序运行时分支行为的历史信息来预测未来分支的机制。这种技术旨在提高处理器流水线的效率,减少分支指令引起的流水线停顿。你提到的通过查找指令地址判断分支行为的方法,就是一种动态分支预测的实现。 体现动态分支预测的几个关键点 历史信息记录: 记录分支行为:动态分支预测器会记
删库了不用跑路!binlog恢复数据实操
各位道友大家好呀! 想必道友们或多或少都听说过MySQL的binlog的作用,它记录了数据库整个的生命周期,可用于恢复数据或者从库同步数据。 那么如果发生了数据库误删,具体该怎样恢复数据呢? 下面就以一个例子来给道友们演示一下,让我们开始吧!do it! 数据备份 首先,数据库要定时进行备份,因为如
删库了不用跑路!binlog恢复数据实操 删库了不用跑路!binlog恢复数据实操 删库了不用跑路!binlog恢复数据实操
最佳实践:解读GaussDB(DWS) 统计信息自动收集方案
摘要:现在商用优化器大多都是基于统计信息进行查询代价评估,因此统计信息是否实时且准确对查询影响很大,特别是分布式数据库场景。本文详细介绍GaussDB(DWS)如何实现了一种轻量、实时、准确的统计信息自动收集方案。 本文分享自华为云社区《【最佳实践】GaussDB(DWS) 统计信息自动收集方案》,
最佳实践:解读GaussDB(DWS) 统计信息自动收集方案 最佳实践:解读GaussDB(DWS) 统计信息自动收集方案 最佳实践:解读GaussDB(DWS) 统计信息自动收集方案
QWen2-72B-Instruct模型安装部署过程
最近在给我们的客户私有化部署我们的TorchV系统,客户给的资源足够充裕,借此机会记录下部署千问72B模型的过程,分享给大家! 一、基础信息 操作系统:Ubuntu 22.04.3 LTS GPU: A800(80GB) * 8 内存:1TB 二、软件信息 Python: 3.10 Pytorch:
QWen2-72B-Instruct模型安装部署过程 QWen2-72B-Instruct模型安装部署过程 QWen2-72B-Instruct模型安装部署过程
EF Core连接PostgreSQL数据库
PostgreSQL数据库介绍 PostgreSQL是一个功能强大的开源对象关系型数据库管理系统(RDBMS)。最初于1986年在加州大学伯克利分校的POSTGRES项目中诞生,PostgreSQL以其稳定性、灵活性和扩展性而著称。它支持丰富的数据类型、复杂的查询、事务完整性、多版本并发控制(MVC
EF Core连接PostgreSQL数据库 EF Core连接PostgreSQL数据库 EF Core连接PostgreSQL数据库
AI 大模型时代呼唤新一代基础设施,DataOps 2.0和调度编排愈发重要
Bessemer Venture Partners 在基础设施投资方面有着悠久的历史。经过这家公司的长期观察,他们发现在 AI 时代,为 AI 量身定制的新型基础设施范式正在兴起,以增强 AI 时代下一波企业数据软件的发展。其中,DataOps 2.0 和调度编排技术和产业的发展也成为焦点。
AI 大模型时代呼唤新一代基础设施,DataOps 2.0和调度编排愈发重要 AI 大模型时代呼唤新一代基础设施,DataOps 2.0和调度编排愈发重要 AI 大模型时代呼唤新一代基础设施,DataOps 2.0和调度编排愈发重要
Kotlin 控制流和数组操作详解
Kotlin的`when`表达式提供了一种比`if..else`更清晰的方式来选择执行多个代码块之一,类似于Java的`switch`语句但更为强大和灵活。`while`循环允许在条件为真时重复执行代码块,而`do..while`循环则保证至少执行一次。`break`和`continue`可用于控制
获取客户端真实IP
出于安全考虑,近期在处理一个记录用户真实IP的需求。本来以为很简单,后来发现没有本来以为的简单。这里主要备忘下,如果服务器处于端口回流(hairpin NAT),keepalived,nginx之后,如何取得客户端的外网IP。 来自客户端PC的流量路径如上,在这样的拓扑中,在应用服务中取得,客户端P
获取客户端真实IP 获取客户端真实IP 获取客户端真实IP