关于大关于熊猫的五个问题所有问题

最近经常用pandas进行一些数据分析感觉功能确实很强大,上手也还比较方便但是无意见发现了一个关于DataFrame和Series赋值的性能问题。

从网上摘取一些数据一条一条的放入DataFrame中当数據量较大时,感觉运行特别慢原来还以为是DataFrame运算时比较耗时,但是用二维list数组读取数据然后一次性放入DataFrame中却会快很多。写了一个简单嘚测试程序进行对比

可以看出DataFrame一行一行的填充数据是非常耗时的(与添加行的列数关系不大),最好是list或dict等标准容器填充数据后一次性導入到DataFrame中去

参考资料

 

随机推荐