作者:王駿瑋 David Ishayahu
數據科學是一門從資料中提取知識的學科。它結合了統計學、電腦科學和領域專業知識, 目標是把原始數據變成可以做決策的依據。
聽起來很學術,但其實你每天都在接觸數據科學的成果:搜尋引擎排序、串流平台的推薦、 天氣預報的準確度提升,背後都是數據科學在運作。
在我們的研究室裡,數據科學不是目的,是工具。真正重要的是用它回答具體的問題: 這家公司的碳排數字可信嗎?這份 ESG 報告有多少實質內容?這個社區計畫到底有沒有效果?
很多人把數據科學、人工智慧、機器學習混在一起講。它們有交集,但關注的層次不同。
從資料中找出有用的知識。涵蓋整個流程:收集、清洗、分析、建模、溝通結果。
數據科學的一個子工具。讓電腦從資料中自己學出規律,不需要人類寫死規則。
更大的概念,目標是讓機器展現「智慧」行為。機器學習是目前實現 AI 最主流的方法。
換句話說:AI 是最廣的概念,機器學習是實現 AI 的主流技術,數據科學則是把這些技術用在真實問題上的完整流程。
生成式 AI 出現後,數據科學的工作方式有了實質的轉變。有些環節變快了,有些環節反而更難了。
以前特徵工程靠人手工設計,現在深度學習能自己從原始數據學出特徵。資料清洗也有 AI 工具輔助,效率翻了好幾倍。
有了 LLM,寫 SQL、寫分析腳本快了很多。但真正難的沒變:問對問題、設計實驗、解讀因果關係。工具變強了,對人的要求反而更高。
以前主要處理表格數據。有了 NLP 和 Vision 模型,ESG 報告書的文字、衛星影像、感測器訊號都變成可分析的資料來源。
傳統數據科學做描述和預測。生成式 AI 加了新維度:自動產出碳盤查報告初稿、模擬不同情境的排放路徑。
模型越強越黑箱。在碳排、ESG 這種需要可審計的場景,「為什麼模型這樣判斷」比「準確率多少」更關鍵。
每個數據科學專案大致會經過這五個階段。實務上它們不是線性的,經常需要來回迭代。
從商業或研究場景出發,把模糊的需求翻譯成可量化、可驗證的假設。好的問題定義,決定了後面所有步驟的方向。
從公開資料庫、API、感測器、文件中取得原始資料。真實世界的資料永遠是髒的,清洗和標準化往往佔整個專案 60% 以上的時間。
用統計方法和視覺化工具,先摸清資料的分佈、異常值、相關性。在建模之前,直覺和數字要先對得上。
選擇合適的演算法(迴歸、分類、NLP、時間序列),訓練模型並用交叉驗證評估效能。失敗的實驗和成功的一樣有價值。
把驗證過的模型包裝成 API 或嵌入產品。上線後持續監控模型效能,資料分佈一旦漂移就需要重新校準。
分析與建模的主力語言
假設檢定、貝氏推論、因果推論
監督式、非監督式、深度學習
ETL 管線、雲端架構、MLOps
同樣的方法論,應用在四個不同的場域。每個場域的資料特性、法規環境、利害關係人都不一樣, 這也是為什麼領域知識和技術能力同等重要。
用迴歸模型估算企業 Scope 3 排放量,用 NLP 自動解析碳盤查報告,建構可追溯的計算鏈。
用大型語言模型比對 ESG 報告與 IFRS S2 要求的落差,自動計算揭露品質分數。
量化社區發展計畫的實際影響,用統計方法分離干預效果與自然趨勢。
分析穿戴裝置的生理訊號,建構環境暴露與健康指標之間的預測模型。
同一套方法論,觀測四個看不見的系統:環境碳排、企業永續、社會影響、人體狀態。
看四個觀測維度 →