午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

Pandas自定義shift與DataFrame求差集

 小小明代碼實體 2021-11-30

大家好,我是小小明。今天分享兩個小技巧:

Pandas的高級shift偏移

有很多玩量化的朋友經(jīng)常碰到類似這樣的問題:

image-20210719013514514

其中有位量化大佬居然在半年后的今天又問了我一遍怎么實現(xiàn)這樣的效果,他居然忘了我之前給他寫過實現(xiàn)。為了避免有人再碰到類似的問題,特別寫下此文。

我們知道Pandas默認的API是不支持這樣的操作的,這個只能自己想辦法實現(xiàn)。下面我借助數(shù)值索引實現(xiàn)這樣的功能,并封裝起來。

最終我們封裝的方法如下:

import numpy as np
import pandas as pd

def adv_shift(s, n, na_value=pd.NA):
    t = np.arange(s.shape[0])-n
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)

然后生成測試數(shù)據(jù)完成這個需求:

df = pd.DataFrame({"a": [200, 300, 500, 800, 600], "b": [1, 1, 1, 2, 1]})
df['c'] = df.a-adv_shift(df.a, df.b, 0)
df
abc
02001200
13001100
25001200
38002500
46001-200

可以看到結果完全滿足要求。

如果你希望直接給DataFrame對象增加高級偏移adv_shift方法,則可以這樣寫:

def adv_shift(self, field, n, na_value=pd.NA):
    t = np.arange(self.shape[0])-self[n]
    s = self[field]
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)

pd.DataFrame.adv_shift = adv_shift

調(diào)用方式:

df['c'] = df.a-df.adv_shift("a", "b", 0)
df
abc
02001200
13001100
25001200
38002500
46001-200

最終結果與上述一致。

Datafream對象求差集

下面我們再看看如何求解Datafream對象的交集、并集和差集:

import pandas as pd

df1 = pd.DataFrame([[1, 11], [2, 22], [3, 33]],
                   columns=['a', 'b'])
df2 = pd.DataFrame([[0, 0], [1, 11], [2, 22], [4, 44]], columns=['a', 'b'])
display(df1)
display(df2)

image-20210719014818463

交集和并集一般的實現(xiàn)都是使用merge方法。

取交集:

df1.merge(df2)

去并集:

df1.merge(df2, how='outer')

關于取差集,我采用的是去重法。思路是,將df1與df2拼接,然后將重復的都去掉不保留,為了將df2全部去掉,將df2拼接兩次,這樣所有df2的數(shù)據(jù)都會產(chǎn)生重新而被刪除,df1存在于與df2一致的數(shù)據(jù)也會被刪除。

代碼為:

pd.concat([df1, df2, df2]).drop_duplicates(keep=False)

測試結果:

image-20210719020032890

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多