df在python數據處理中指pandas的dataframe對象,常被命名為df因它是“dataframe”縮寫且通用。dataframe是二維表格型數據結構,具行標簽和列標簽,每列可存不同數據類型。常見操作包括:1.查看前幾行用df.head();2.查看形狀用df.shape;3.獲取列名用df.columns;4.查看數據類型用df.dtypes;5.篩選列用df[‘列名’];6.篩選行用df.loc[索引];7.添加新列直接賦值;8.刪除列用df.drop()。注意df為可變對象,修改時常需拷貝以保留原數據,使用df.info()可快速查看數據信息。
在python的數據處理中,df 通常是指 pandas 庫中的 DataFrame 對象。很多使用 pandas 的人習慣把變量命名為 df,比如:
import pandas as pd df = pd.read_csv('data.csv')
這其實就是把一個 DataFrame 賦值給變量 df。雖然也可以起別的名字,但 df 是最常見、最通用的寫法。
什么是DataFrame?
DataFrame 是 pandas 中最重要的數據結構之一,可以理解為一個二維表格型數據容器,有點像 excel 表格或者數據庫中的一張表。它有行標簽和列標簽,每一列可以是不同的數據類型(比如整數、字符串、浮點數等)。
舉個例子,你可以用下面的方式創建一個簡單的 DataFrame:
立即學習“Python免費學習筆記(深入)”;
data = { '姓名': ['張三', '李四', '王五'], '年齡': [25, 30, 28], '城市': ['北京', '上海', '廣州'] } df = pd.DataFrame(data)
這樣你就得到了一個包含姓名、年齡和城市的表格數據。
為什么大家都叫它 df?
- df 是 “DataFrame” 的縮寫,簡潔又直觀;
- 在教學、博客、論壇中,大家普遍都這么用,已經形成了一種約定俗成的習慣;
- 數據分析腳本中經常會有多個 DataFrame,用 df1, df2 這樣區分也很方便。
不過要注意的是,在實際項目或復雜代碼中,建議使用更有意義的變量名,比如 sales_data、user_info 等,這樣別人看你的代碼更容易理解。
常見的 df 操作有哪些?
以下是一些你經常會看到的 df 操作方式:
- 查看前幾行數據:df.head()
- 查看數據形狀:df.shape
- 查看列名:df.columns
- 查看數據類型:df.dtypes
- 篩選某列數據:df[‘年齡’]
- 篩選某行數據:df.loc[0]
- 添加新列:df[‘新列名’] = 新數據
- 刪除列:df.drop(‘列名’, axis=1, inplace=True)
這些操作構成了數據分析的基礎,熟悉它們之后你會發現用 df 處理數據非常高效。
小細節別忽略
- df 默認是可變對象,也就是說很多操作會直接修改原數據,比如 inplace=True 參數。
- 如果你不希望原始數據被改動,記得先做拷貝:df_copy = df.copy()
- 使用 df.info() 可以快速查看是否有缺失值、各列的數據類型等信息。
基本上就這些了。雖然 df 只是一個變量名,但它背后承載的是整個 pandas 的核心能力。只要掌握了常用操作,日常的數據清洗、分析、可視化都能輕松應對。