數(shù)據(jù)科學(xué)家易犯的十大編碼錯(cuò)誤，你中招了嗎？

發(fā)布時(shí)間：2025-04-29 點(diǎn)擊：32

數(shù)據(jù)科學(xué)家比軟件工程師擅長統(tǒng)計(jì)，又比統(tǒng)計(jì)學(xué)家擅長軟件工程。聽起來牛逼轟轟，事實(shí)卻是，許多數(shù)據(jù)科學(xué)家有統(tǒng)計(jì)學(xué)背景，卻沒有什么軟件工程方面的經(jīng)驗(yàn)，因此在編碼時(shí)容易犯一些簡單的錯(cuò)誤。作為一名高級數(shù)據(jù)科學(xué)家，本文作者總結(jié)了他在工作中常見數(shù)據(jù)科學(xué)家犯的十大錯(cuò)誤。
我是一名高級數(shù)據(jù)科學(xué)家，在 stackoverflow 的 python 編碼中排前 1%，而且還與眾多(初級)數(shù)據(jù)科學(xué)家一起工作。下文列出了我常見到的 10 個(gè)錯(cuò)誤。
1. 沒有共享代碼中引用的數(shù)據(jù)
數(shù)據(jù)科學(xué)需要代碼和數(shù)據(jù)。所以為了讓其他人能夠復(fù)現(xiàn)自己做出來的結(jié)果，你需要提供代碼中涉及的數(shù)據(jù)。這看起來很簡單，但許多人會忘記共享代碼中需要的數(shù)據(jù)。
import?pandas?as?pd?df1?=?pd.read_csv('file-i-dont-have.csv')?#?fails?do_stuff(df)?解決方案：用 d6tpipe 共享代碼中的數(shù)據(jù)文件，或者將數(shù)據(jù)文件上傳到 s3/網(wǎng)頁/google 云等，還可以將數(shù)據(jù)文件保存到數(shù)據(jù)庫中，以便收件人檢索文件(但不要將數(shù)據(jù)添加到 git 中，這一點(diǎn)后面的內(nèi)容會講到)。
2. 硬編碼其他人無法訪問的路徑
和錯(cuò)誤 1 類似，如果硬編碼其他人無法訪問的路徑，他們就沒法運(yùn)行你的代碼，而且在很多地方都必須要手動修改路徑。booo!
import?pandas?as?pd?df?=?pd.read_csv('/path/i-dont/have/data.csv')?#?fails?do_stuff(df)?#?or??impor?os?os.chdir('c:\\users\\yourname\\desktop\\python')?#?fails?解決方案：使用相對路徑、全局路徑配置變量或 d6tpipe，這樣其他人就可以輕易訪問你的數(shù)據(jù)了。
3. 將數(shù)據(jù)和代碼混在一起
既然數(shù)據(jù)科學(xué)代碼需要數(shù)據(jù)，為什么不將代碼和數(shù)據(jù)存儲在同一個(gè)目錄中呢?但你運(yùn)行代碼時(shí)，這個(gè)目錄中還會存儲圖像、報(bào)告以及其他垃圾文件。亂成一團(tuán)!
├──?data.csv?├──?ingest.py?├──?other-data.csv?├──?output.png?├──?report.html?└──?run.py?解決方案：對目錄進(jìn)行分類，比如數(shù)據(jù)、報(bào)告、代碼等。參閱 cookiecutter data science 或 d6tflow 項(xiàng)目模板，并用問題 1 中提到的工具存儲以及共享數(shù)據(jù)。
cookiecutter data science：https://drivendata.github.io/cookiecutter-data-science/#directory-structured6tflow 項(xiàng)目模板：https://github.com/d6t/d6tflow-template4. 用 git 提交數(shù)據(jù)
大多數(shù)人現(xiàn)在都會版本控制他們的代碼(如果你沒有這么做那就是另一個(gè)問題了!)。在共享數(shù)據(jù)時(shí)，可能很容易將數(shù)據(jù)文件添加到版本控制中。對一些小文件來說這沒什么問題。但 git 無法優(yōu)化數(shù)據(jù)，尤其是對大型文件而言。
git?add?data.csv?解決方案：使用問題 1 中提到的工具來存儲和共享數(shù)據(jù)。如果你真的需要對數(shù)據(jù)進(jìn)行版本控制，請參閱 d6tpipe、dvc 和 git large file storage。
dvc：https://dvc.org/git large file storage：https://git-lfs.github.com/5. 寫函數(shù)而不是 dag
數(shù)據(jù)已經(jīng)討論得夠多了，接下來我們談?wù)剬?shí)際的代碼。你在學(xué)編程時(shí)，首先學(xué)的就是函數(shù)，數(shù)據(jù)科學(xué)代碼主要由一系列線性運(yùn)行的函數(shù)組成。這會引發(fā)一些問題，詳情請參閱「4 reasons why your machine learning code is probably bad。」
地址：
https://towardsdatascience.com/4-reasons-why-your-machine-learning-code-is-probably-bad-c291752e4953
def?process_data(data,?parameter):?????data?=?do_stuff(data)?????data.to_pickle('data.pkl')?data?=?pd.read_csv('data.csv')?process_data(data)?df_train?=?pd.read_pickle(df_train)?model?=?sklearn.svm.svc()?model.fit(df_train.iloc[:,:-1],?df_train['y'])?解決方案：與其用線性鏈接函數(shù)，不如寫一組有依賴關(guān)系的任務(wù)。可以用 d6tflow 或者 airflow。
6. 寫 for 循環(huán)
和函數(shù)一樣，for 循環(huán)也是你在學(xué)代碼時(shí)最先學(xué)的。這種語句易于理解，但運(yùn)行很慢且過于冗長，這種情況通常表示你不知道用什么替代向量化。
x?=?range(10)?avg?=?sum(x)/len(x);?std?=?math.sqrt(sum((i-avg)**2?for?i?in?x)/len(x));?zscore?=?[(i-avg)/std?for?x]?#?should?be:?scipy.stats.zscore(x)?#?or?groupavg?=?[]?for?i?in?df['g'].unique():?????dfdfg?=?df[df[g']==i]?????groupavg.append(dfg['g'].mean())?#?should?be:?df.groupby('g').mean()?解決方案：numpy、scipy 和 pandas 都有向量化函數(shù)，它們可以處理大部分你覺得需要用 for 循環(huán)解決的問題。
7. 沒有寫單元測試
隨著數(shù)據(jù)、參數(shù)或者用戶輸入的改變，你的代碼可能會中斷，而你有時(shí)候可能沒注意到這一點(diǎn)。這就會導(dǎo)致錯(cuò)誤的輸出，如果有人根據(jù)你的輸出做決策的話，那么錯(cuò)誤的數(shù)據(jù)就會導(dǎo)致錯(cuò)誤的決策!
解決方案：用 assert 語句檢查數(shù)據(jù)質(zhì)量。pandas 也有相同的測試，d6tstack 可以檢查數(shù)據(jù)的獲取，d6tjoin 可以檢查數(shù)據(jù)的連接。檢查數(shù)據(jù)的示例代碼如下：
d6tstack：https://github.com/d6t/d6tstackd6tjoin：https://github.com/d6t/d6tjoin/blob/master/examples-prejoin.ipynbassert?df['id'].unique().shape[0]?==?len(ids)?#?have?data?for?all?ids??assert?df.isna().sum()<0.9?#?catch?missing?values?我明白你急著做分析。于是你把代碼拼湊起來得到結(jié)果，把結(jié)果交給你的客戶或者老板。一周之后他們找到你，問你「你能改掉 xyz 嗎?」或「你能更新一下結(jié)果嗎?」。然后你和自己的代碼大眼瞪小眼，既不記得你為什么要這么做，也不記得你做過什么。現(xiàn)在想象一下其他人運(yùn)行這段代碼時(shí)的心情。
def?some_complicated_function(data):?????datadata?=?data[data['column']!='wrong']?????datadata?=?data.groupby('date').apply(lambda?x:?complicated_stuff(x))?????datadata?=?data[data['value']<0.9]?9. 把數(shù)據(jù)存成 csv 或 pickle
說回?cái)?shù)據(jù)，畢竟我們討論的是數(shù)據(jù)科學(xué)。就像函數(shù)和 for 循環(huán)一樣，csv 和 pickle 文件也很常用，但它們其實(shí)并沒有那么好。csv 不包含模式(schema)，所以每個(gè)人都必須重新解析數(shù)字和日期。pickle 可以解決這一點(diǎn)，但只能用在 python 中，而且不能壓縮。這兩種格式都不適合存儲大型數(shù)據(jù)集。
def?process_data(data,?parameter):?????data?=?do_stuff(data)?????data.to_pickle('data.pkl')?data?=?pd.read_csv('data.csv')?process_data(data)?df_train?=?pd.read_pickle(df_train)?解決方案：用 parquet 或者其他帶有數(shù)據(jù)模式的二進(jìn)制數(shù)據(jù)格式，最好還能壓縮數(shù)據(jù)。d6tflow 可以自動將數(shù)據(jù)輸出存儲為 parquet，這樣你就不用解決這個(gè)問題了。
parquet：https://github.com/dask/fastparquet
10. 使用 jupyter notebook
這個(gè)結(jié)論還有一些爭議——jupyter notebook 就像 csv 一樣常用。很多人都會用到它們。但這并不能讓它們變得更好。jupyter notebook 助長了上面提到的許多不好的軟件工程習(xí)慣，特別是：
你會把所有文件存在一個(gè)目錄中;你寫的代碼是自上而下運(yùn)行的，而不是 dag;你不會模塊化你的代碼;代碼難以調(diào)試;代碼和輸出會混合在一個(gè)文件中;不能很好地進(jìn)行版本控制。jupyter notebook 很容易上手，但規(guī)模太小。
解決方案：用 pycharm 和/或 spyder。

網(wǎng)頁用戶體驗(yàn)中的可用性
網(wǎng)站文章內(nèi)容是否需要加圖片
香港服務(wù)器是高防服務(wù)器嗎?區(qū)別在哪里
美國服務(wù)器托管服務(wù)的關(guān)鍵優(yōu)勢以及選擇的要點(diǎn)
監(jiān)控排查網(wǎng)站加載速度慢的原因及解決方法
什么樣的外鏈可以提高網(wǎng)站的排名？
淄博建站：做網(wǎng)站重要的是要和企業(yè)發(fā)展相統(tǒng)一！
店鋪上新，如何提高自然流量？

上一篇：如何提升界面品質(zhì)感——界面中的結(jié)構(gòu)

下一篇：網(wǎng)站seo優(yōu)化中有哪些誤區(qū)需要避免呢？

japanese少妇高潮潮喷 -精品国产AV一区二区三区-麻豆av一区二区三区久久-国产精品无码专区

數(shù)據(jù)科學(xué)家易犯的十大編碼錯(cuò)誤，你中招了嗎？