CPU靠边站！使用cuDF在GPU加速Pandas

import pandas as pd
import numpy as np
import cudf

pandas_df = pd.DataFrame({'a': np.random.randint(0, 100000000, size=100000000),
                          'b': np.random.randint(0, 100000000, size=100000000)})

cudf_df = cudf.DataFrame.from_pandas(pandas_df)

在我们的第一个测试中，让我计算一下 Pandas VS cuDF数据中a变量的平均值需要多长时间。 %timeit 命令允许我们在Jupyter计算Python命令的速度。

6ZbEJna.jpg!web

https://docs.python.org/3.6/library/timeit.html

# Timing Pandas
# Output: 82.2 ms per loop
%timeit pandas_df.a.mean()

# Timing cuDF
# Output: 5.12 ms per loop
%timeit cudf_df.a.mean()

平均运行时间显示在代码注释中。我们得到了将近 16倍 的加速！

现在，做一些更复杂的事情，比如做一个大合并。将Dataframe本身合并到数据 Dataframe 的b列上。

这里的合并是一个非常大的操作，因为Pandas将不得不寻找并匹配公共值，对于一个有1亿行的数据集来说，这是一个非常耗时的操作！GPU加速将使这变得容易，因为我们有更多的并行进程可以一起工作。

代码：

# Timing Pandas
# Output: 39.2 s per loop
%timeit pandas_df.merge(pandas_df, on='b')

# Timing cuDF
# Output: 2.76 s per loop
%timeit cudf_df.merge(cudf_df, on='b')

即使使用i7-8700k CPU， Pandas 完成合并平均也 需要39.2秒 。而 cuDF在GPU上只花了2.76秒。 14倍的加速！

快去试试吧！

—End—

量化投资与机器学习微信公众号，是业内垂直于 Quant 、 MFE 、 CST、AI 等专业的主 流量化自媒体 。公众号拥有来自 公募、私募、券商、银行、海外 等众多圈内 18W+ 关注者。每日发布行业前沿研究成果和最新量化资讯。

你点的每个“在看”，都是对我们最大的鼓励

♥ 5种机器学习算法在预测股价的应用（代码+数据）

♥ Two Sigma用新闻来预测股价走势，带你吊打Kaggle

♥ 2万字干货：利用深度学习最新前沿预测股价走势

♥ 机器学习在量化金融领域的误用！

♥ 基于RNN和LSTM的股市预测方法

♥ 如何鉴别那些用深度学习预测股价的花哨模型？

♥ 优化强化学习Q-learning算法进行股市

♥ WorldQuant 101 Alpha、国泰君安 191 Alpha

♥ 基于回声状态网络预测股票价格（附代码）

♥ 计量经济学应用投资失败的7个原因

♥ 配对交易千千万，强化学习最NB！（文档+代码）

♥ 关于高盛在Github开源背后的真相！

♥ 新一代量化带货王诞生！Oh My God！

♥ 独家！关于定量/交易求职分享（附真实试题）

♥ Quant们的身份危机！

♥ AQR最新研究 | 机器能“学习”金融吗？

3、71803倍！超强Pandas循环提速攻略

Recommend

git远程操作相关命令(remote 、push、fetch 、pull)

JavaProbe: 一款Java应用运行时信息收集工具

Purism’s Librem 5 phone starts shipping—a fully open GNU/Linux phone | Ars Techn...

小鹏汽车斥资3亿元成立创投基金

外媒：新iPhone销售势头强劲苹果将调高供应链订单

麦当劳推人造肉汉堡 “人造肉第一股”空头损失惨重

A Detailed Explanation of Abstraction in Software Development

爱奇艺：百度高级副总裁沈抖加入公司董事会

NASA公布照片：印度失联“月船2号”硬着陆(图)

Libra协会总干事：天秤币根本不能替代现有货币

About Joyk