如何从生成器构建numpy数组?

问题描述

Numpy数组要求在创建时明确设置其长度,这与python列表不同。这是必要的,以便可以在内存中连续分配每个项目的空间。连续分配是numpy数组的关键特性:此方法与本机代码实现相结合,使对它们的操作比常规列表执行得快得多。

请牢记这一点,从技术上讲,不可能采用生成器对象并将其转换为数组,除非您执行以下任一操作:

  1. 可以预测运行时将产生多少个元素:

    my_array = numpy.empty(predict_length())
    @H_301_11@
    

    for i, el in enumerate(gimme()): my_array[i] = el

  2. 愿意将其元素存储在中间列表中:

    my_array = numpy.array(list(gimme()))
    @H_301_11@
    
  3. 可以制作两个相同的生成器,遍历第一个生成器以找到总长度,初始化数组,然后再次遍历生成器以查找每个元素:

    length = sum(1 for el in gimme())
    @H_301_11@
    

    my_array = numpy.empty(length) for i, el in enumerate(gimme()): my_array[i] = el

可能是您要寻找的。 是空间效率低下的,而 是时间效率低下的(您必须两次通过生成器)。

解决方法

如何从生成器对象构建numpy数组?

让我说明一下这个问题:

>>> import numpy
>>> def gimme():
...   for x in xrange(10):
...     yield x
...
>>> gimme()
<generator object at 0x28a1758>
>>> list(gimme())
[0,1,2,3,4,5,6,7,8,9]
>>> numpy.array(xrange(10))
array([0,9])
>>> numpy.array(gimme())
array(<generator object at 0x28a1758>,dtype=object)
>>> numpy.array(list(gimme()))
array([0,9])

在这种情况下,gimme()是我想将其输出转换为数组的生成器。但是,数组构造函数不会迭代生成器,它只是存储生成器本身。我想要的行为是from的行为numpy.array(list(gimme())),但是我不想支付同时拥有中间列表和最终数组的内存开销。有没有更节省空间的方法?

相关问答

如何检查配对的蓝牙设备是打印机还是扫描仪(Android)
是否允许实体正文进行HTTP DELETE请求?
如何将ZipInputStream转换为InputStream?
java.util.logging Java 8中的变量
PowerMockito.doReturn返回null
JavaMail问题:无法将命令发送到SMTP主机