數據科學在 ESG 和碳排放領域有什麼應用？

數據科學可用於碳排放量估算與交叉驗證、ESG 報告書的 NLP 自動分析、氣候風險評分建模、以及社會影響力的量化評估。

Data Science

什麼是數據科學？

Q: 什麼是數據科學？

數據科學是一門從資料中提取知識的學科，結合統計學、電腦科學和領域專業知識，把原始數據變成可以做決策的依據。

Q: 數據科學跟 AI 有什麼不同？

AI 是最廣的概念，目標是讓機器展現智慧行為。機器學習是實現 AI 的主流技術。數據科學則是把這些技術用在真實問題上的完整流程，涵蓋資料收集、清洗、分析、建模到溝通結果。

Q: AI 如何改變數據科學的工作流程？

AI 自動化了特徵工程和資料清洗，讓非結構化資料（文字、影像）變得可分析，並從描述預測擴展到生成式應用。但同時對可解釋性的要求也更高了。

作者：王駿瑋 David Ishayahu

數據科學是一門從資料中提取知識的學科。它結合了統計學、電腦科學和領域專業知識，目標是把原始數據變成可以做決策的依據。

聽起來很學術，但其實你每天都在接觸數據科學的成果：搜尋引擎排序、串流平台的推薦、天氣預報的準確度提升，背後都是數據科學在運作。

在我們的研究室裡，數據科學不是目的，是工具。真正重要的是用它回答具體的問題：這家公司的碳排數字可信嗎？這份 ESG 報告有多少實質內容？這個社區計畫到底有沒有效果？

Not the Same Thing

數據科學跟 AI 有什麼不同？

很多人把數據科學、人工智慧、機器學習混在一起講。它們有交集，但關注的層次不同。

數據科學 Data Science

從資料中找出有用的知識。涵蓋整個流程：收集、清洗、分析、建模、溝通結果。

機器學習 Machine Learning

數據科學的一個子工具。讓電腦從資料中自己學出規律，不需要人類寫死規則。

人工智慧 AI

更大的概念，目標是讓機器展現「智慧」行為。機器學習是目前實現 AI 最主流的方法。

換句話說：AI 是最廣的概念，機器學習是實現 AI 的主流技術，數據科學則是把這些技術用在真實問題上的完整流程。

AI Era

AI 如何改變數據科學的工作流程？

生成式 AI 出現後，數據科學的工作方式有了實質的轉變。有些環節變快了，有些環節反而更難了。

自動化了最苦的活

以前特徵工程靠人手工設計，現在深度學習能自己從原始數據學出特徵。資料清洗也有 AI 工具輔助，效率翻了好幾倍。

門檻降低，天花板拉高

有了 LLM，寫 SQL、寫分析腳本快了很多。但真正難的沒變：問對問題、設計實驗、解讀因果關係。工具變強了，對人的要求反而更高。

非結構化資料變得可用

以前主要處理表格數據。有了 NLP 和 Vision 模型，ESG 報告書的文字、衛星影像、感測器訊號都變成可分析的資料來源。

從「分析過去」到「生成未來」

傳統數據科學做描述和預測。生成式 AI 加了新維度：自動產出碳盤查報告初稿、模擬不同情境的排放路徑。

可解釋性變得更重要

模型越強越黑箱。在碳排、ESG 這種需要可審計的場景，「為什麼模型這樣判斷」比「準確率多少」更關鍵。

Pipeline

數據科學的工作流程

每個數據科學專案大致會經過這五個階段。實務上它們不是線性的，經常需要來回迭代。

定義問題

從商業或研究場景出發，把模糊的需求翻譯成可量化、可驗證的假設。好的問題定義，決定了後面所有步驟的方向。

資料採集與清洗

從公開資料庫、API、感測器、文件中取得原始資料。真實世界的資料永遠是髒的，清洗和標準化往往佔整個專案 60% 以上的時間。

探索性分析

用統計方法和視覺化工具，先摸清資料的分佈、異常值、相關性。在建模之前，直覺和數字要先對得上。

建模與實驗

選擇合適的演算法（迴歸、分類、NLP、時間序列），訓練模型並用交叉驗證評估效能。失敗的實驗和成功的一樣有價值。

部署與監控

把驗證過的模型包裝成 API 或嵌入產品。上線後持續監控模型效能，資料分佈一旦漂移就需要重新校準。

Core Skills

核心技術能力

Python / R

分析與建模的主力語言

統計學

假設檢定、貝氏推論、因果推論

機器學習

監督式、非監督式、深度學習

資料工程

ETL 管線、雲端架構、MLOps

How We Apply It

我們怎麼用數據科學？

同樣的方法論，應用在四個不同的場域。每個場域的資料特性、法規環境、利害關係人都不一樣，這也是為什麼領域知識和技術能力同等重要。

環境碳排

CertiCarb

用迴歸模型估算企業 Scope 3 排放量，用 NLP 自動解析碳盤查報告，建構可追溯的計算鏈。

永續資訊

TISEE

用大型語言模型比對 ESG 報告與 IFRS S2 要求的落差，自動計算揭露品質分數。

社會影響

HOPETURN

量化社區發展計畫的實際影響，用統計方法分離干預效果與自然趨勢。

人體數據

ZRIMATA

分析穿戴裝置的生理訊號，建構環境暴露與健康指標之間的預測模型。

想深入了解？

研究室持續發表研究成果、開放資料集、記錄實驗過程。這些內容都可以在管理後台中查閱與管理。

認識研究室 →

數據科學用在哪裡？

同一套方法論，觀測四個看不見的系統：環境碳排、企業永續、社會影響、人體狀態。

看四個觀測維度 →