python – pandas dataframe：如何计算二进制列中1行的数量？

Python 2019-04-22

我有以下pandas DataFrame：

import pandas as pd
import numpy as np

df = pd.DataFrame({"first_column": [0,1,0]})

>>> df
    first_column
0              0
1              0
2              0
3              1
4              1
5              1
6              0
7              0
8              1
9              1
10             0
11             0
12             0
13             0
14             1
15             1
16             1
17             1
18             1
19             0
20             0

first_column是0和1的二进制列.存在连续的“簇”,它们总是成对出现至少两个.

我的目标是创建一个列“计算”每组的行数：

>>> df
    first_column    counts
0              0        0
1              0        0
2              0        0
3              1        3
4              1        3
5              1        3
6              0        0
7              0        0
8              1        2
9              1        2
10             0        0
11             0        0
12             0        0
13             0        0
14             1        5
15             1        5
16             1        5
17             1        5
18             1        5
19             0        0
20             0        0

这听起来像df.loc()的工作,例如df.loc [df.first_column == 1] ……某事

我只是不确定如何考虑每个“群集”,以及如何用“行数”标记每个独特的群集.

怎么会这样做？

解决方法

这是NumPy的 cumsum和 @L_301_1@的一种方法 –

def cumsum_bincount(a):  
    # Append 0 & look for a [0,1] pattern. Form a binned array based off 1s groups
    ids = a*(np.diff(np.r_[0,a])==1).cumsum()

    # Get the bincount,index into the count with ids and finally mask out 0s
    return a*np.bincount(ids)[ids]

样品运行 –

In [88]: df['counts'] = cumsum_bincount(df.first_column.values)

In [89]: df
Out[89]: 
    first_column  counts
0              0       0
1              0       0
2              0       0
3              1       3
4              1       3
5              1       3
6              0       0
7              0       0
8              1       2
9              1       2
10             0       0
11             0       0
12             0       0
13             0       0
14             1       5
15             1       5
16             1       5
17             1       5
18             1       5
19             0       0
20             0       0

将前6个元素设置为1,然后测试 –

In [101]: df.first_column.values[:5] = 1

In [102]: df['counts'] = cumsum_bincount(df.first_column.values)

In [103]: df
Out[103]: 
    first_column  counts
0              1       6
1              1       6
2              1       6
3              1       6
4              1       6
5              1       6
6              0       0
7              0       0
8              1       2
9              1       2
10             0       0
11             0       0
12             0       0
13             0       0
14             1       5
15             1       5
16             1       5
17             1       5
18             1       5
19             0       0
20             0       0

爬虫实战：探索XPath爬虫技巧之热榜新闻

在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选择XML文档中特...

谁说后端不能画出美丽的动图？让我来给大家拜个年！

祝福大家龙年快乐！愿你们的生活像龙一样充满力量和勇气，愿你们在新的一年里，追逐梦想，勇往直前，不...

爬虫实战：从网页到本地，如何轻松实现小说离线阅读

今天在爬虫实战中，除了正常爬取网页数据外，我们还添加了一个下载功能，主要任务是爬取小说并将其下载...

爬虫实战+数据分析：全国消费支出分析及未来预测

完美收官，本文是爬虫实战的最后一章了，所以尽管本文着重呈现爬虫实战，但其中有一大部分内容专注于数...

Java开发者的Python进修指南：JSON利器之官方json库、demjson和orjson的实用指南

JSON是一种流行的数据传输格式，Python中有多种处理JSON的方式。官方的json库是最常用的，它提供了简单...

Java开发者的Python快速进修指南：掌握T检验

独立样本T检验适用于比较两组独立样本的均值差异，而配对T检验则适用于比较同一组样本在不同条件下的均...

python – pandas dataframe：如何计算二进制列中1行的数量？

解决方法

相关文章