失眠网 > Python数据分析实战【第三章】2.5-Pandas数据结构Dataframe：基本概念及创建【python】

Python数据分析实战【第三章】2.5-Pandas数据结构Dataframe：基本概念及创建【python】

时间：2020-04-08 13:15:52

【课程2.5】 Pandas数据结构Dataframe：基本概念及创建

"二维数组"Dataframe：是一个表格型的数据结构，包含一组有序的列，其列的值类型可以是数值、字符串、布尔值等。

Dataframe中的数据以一个或多个二维块存放，不是列表、字典或一维数组结构。

1.Dataframe 数据结构

# Dataframe是一个表格型的数据结构，“带有标签的二维数组”。# Dataframe带有index（行标签）和columns（列标签）data = {'name':['Jack','Tom','Mary'],'age':[18,19,20],'gender':['m','m','w']}frame = pd.DataFrame(data)print(frame) print(type(frame))print(frame.index,'\n该数据类型为：',type(frame.index))print(frame.columns,'\n该数据类型为：',type(frame.columns))print(frame.values,'\n该数据类型为：',type(frame.values))# 查看数据，数据类型为dataframe# .index查看行标签# .columns查看列标签# .values查看值，数据类型为ndarray-----------------------------------------------------------------------age gender name0 18m Jack1 19m Tom2 20w Mary<class 'pandas.core.frame.DataFrame'>RangeIndex(start=0, stop=3, step=1) 该数据类型为： <class 'pandas.indexes.range.RangeIndex'>Index(['age', 'gender', 'name'], dtype='object') 该数据类型为： <class 'pandas.indexes.base.Index'>[[18 'm' 'Jack'][19 'm' 'Tom'][20 'w' 'Mary']] 该数据类型为： <class 'numpy.ndarray'>

2.Dataframe 创建方法一：由数组/list组成的字典

# 创建方法:pandas.Dataframe()data1 = {'a':[1,2,3],'b':[3,4,5],'c':[5,6,7]}data2 = {'one':np.random.rand(3),'two':np.random.rand(3)} # 这里如果尝试 'two':np.random.rand(4) 会怎么样？print(data1)print(data2)df1 = pd.DataFrame(data1)df2 = pd.DataFrame(data2)print(df1)print(df2)# 由数组/list组成的字典创建Dataframe，columns为字典key，index为默认数字标签# 字典的值的长度必须保持一致！df1 = pd.DataFrame(data1, columns = ['b','c','a','d'])print(df1)df1 = pd.DataFrame(data1, columns = ['b','c'])print(df1)# columns参数：可以重新指定列的顺序，格式为list，如果现有数据中没有该列（比如'd'），则产生NaN值# 如果columns重新指定时候，列的数量可以少于原数据df2 = pd.DataFrame(data2, index = ['f1','f2','f3']) # 这里如果尝试 index = ['f1','f2','f3','f4'] 会怎么样？print(df2)# index参数：重新定义index，格式为list，长度必须保持一致-----------------------------------------------------------------------{'a': [1, 2, 3], 'c': [5, 6, 7], 'b': [3, 4, 5]}{'one': array([ 0.00101091, 0.08807153, 0.58345056]), 'two': array([ 0.49774634, 0.16782565, 0.76443489])}a b c0 1 3 51 2 4 62 3 5 7one two0 0.001011 0.4977461 0.088072 0.1678262 0.583451 0.764435b c a d0 3 5 1 NaN1 4 6 2 NaN2 5 7 3 NaNb c0 3 51 4 62 5 7one twof1 0.001011 0.497746f2 0.088072 0.167826f3 0.583451 0.764435

Dataframe 创建方法二：由Series组成的字典

data1 = {'one':pd.Series(np.random.rand(2)),'two':pd.Series(np.random.rand(3))} # 没有设置index的Seriesdata2 = {'one':pd.Series(np.random.rand(2), index = ['a','b']),'two':pd.Series(np.random.rand(3),index = ['a','b','c'])} # 设置了index的Seriesprint(data1)print(data2)df1 = pd.DataFrame(data1)df2 = pd.DataFrame(data2)print(df1)print(df2)# 由Seris组成的字典创建Dataframe，columns为字典key，index为Series的标签（如果Series没有指定标签，则是默认数字标签）# Series可以长度不一样，生成的Dataframe会出现NaN值-----------------------------------------------------------------------{'one': 0 0.8925801 0.834076dtype: float64, 'two': 0 0.3013091 0.9777092 0.489000dtype: float64}{'one': a 0.470947b 0.584577dtype: float64, 'two': a 0.122659b 0.136429c 0.396825dtype: float64}one two0 0.892580 0.3013091 0.834076 0.9777092 NaN 0.489000one twoa 0.470947 0.122659b 0.584577 0.136429c NaN 0.396825

3.Dataframe 创建方法三：通过二维数组直接创建

ar = np.random.rand(9).reshape(3,3)print(ar)df1 = pd.DataFrame(ar)df2 = pd.DataFrame(ar, index = ['a', 'b', 'c'], columns = ['one','two','three']) # 可以尝试一下index或columns长度不等于已有数组的情况print(df1)print(df2)# 通过二维数组直接创建Dataframe，得到一样形状的结果数据，如果不指定index和columns，两者均返回默认数字格式# index和colunms指定长度与原数组保持一致-----------------------------------------------------------------------[[ 0.54492282 0.28956161 0.46592269][ 0.30480674 0.12917132 0.38757672][ 0.2518185 0.13544544 0.13930429]]0 1 20 0.544923 0.289562 0.4659231 0.304807 0.129171 0.3875772 0.251819 0.135445 0.139304one twothreea 0.544923 0.289562 0.465923b 0.304807 0.129171 0.387577c 0.251819 0.135445 0.139304

4.Dataframe 创建方法四：由字典组成的列表

data = [{'one': 1, 'two': 2}, {'one': 5, 'two': 10, 'three': 20}]print(data)df1 = pd.DataFrame(data)df2 = pd.DataFrame(data, index = ['a','b'])df3 = pd.DataFrame(data, columns = ['one','two'])print(df1)print(df2)print(df3)# 由字典组成的列表创建Dataframe，columns为字典的key，index不做指定则为默认数组标签# colunms和index参数分别重新指定相应列及行标签-----------------------------------------------------------------------[{'one': 1, 'two': 2}, {'one': 5, 'three': 20, 'two': 10}]one three two0 1 NaN 21 5 20.0 10one three twoa 1 NaN 2b 5 20.0 10one two0 1 21 5 10

5.Dataframe 创建方法五：由字典组成的字典

data = {'Jack':{'math':90,'english':89,'art':78},'Marry':{'math':82,'english':95,'art':92},'Tom':{'math':78,'english':67}}df1 = pd.DataFrame(data)print(df1)# 由字典组成的字典创建Dataframe，columns为字典的key，index为子字典的keydf2 = pd.DataFrame(data, columns = ['Jack','Tom','Bob'])df3 = pd.DataFrame(data, index = ['a','b','c'])print(df2)print(df3)# columns参数可以增加和减少现有列，如出现新的列，值为NaN# index在这里和之前不同，并不能改变原有index，如果指向新的标签，值为NaN （非常重要！）-----------------------------------------------------------------------Jack Marry Tomart 7892 NaNenglish 8995 67.0math 9082 78.0Jack Tom Bobart 78 NaN NaNenglish 89 67.0 NaNmath 90 78.0 NaNJack Marry Toma NaN NaN NaNb NaN NaN NaNc NaN NaN NaN

如果觉得《Python数据分析实战【第三章】2.5-Pandas数据结构Dataframe：基本概念及创建【python】》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。