JW Data ScienceJW 數據科學研究室
Data Science

什麼是數據科學?

作者:王駿瑋 David Ishayahu

數據科學是一門從資料中提取知識的學科。它結合了統計學、電腦科學和領域專業知識, 目標是把原始數據變成可以做決策的依據。

聽起來很學術,但其實你每天都在接觸數據科學的成果:搜尋引擎排序、串流平台的推薦、 天氣預報的準確度提升,背後都是數據科學在運作。

在我們的研究室裡,數據科學不是目的,是工具。真正重要的是用它回答具體的問題: 這家公司的碳排數字可信嗎?這份 ESG 報告有多少實質內容?這個社區計畫到底有沒有效果?

Not the Same Thing

數據科學跟 AI 有什麼不同?

很多人把數據科學、人工智慧、機器學習混在一起講。它們有交集,但關注的層次不同。

數據科學 Data Science

從資料中找出有用的知識。涵蓋整個流程:收集、清洗、分析、建模、溝通結果。

機器學習 Machine Learning

數據科學的一個子工具。讓電腦從資料中自己學出規律,不需要人類寫死規則。

人工智慧 AI

更大的概念,目標是讓機器展現「智慧」行為。機器學習是目前實現 AI 最主流的方法。

換句話說:AI 是最廣的概念,機器學習是實現 AI 的主流技術,數據科學則是把這些技術用在真實問題上的完整流程。

AI Era

AI 如何改變數據科學的工作流程?

生成式 AI 出現後,數據科學的工作方式有了實質的轉變。有些環節變快了,有些環節反而更難了。

自動化了最苦的活

以前特徵工程靠人手工設計,現在深度學習能自己從原始數據學出特徵。資料清洗也有 AI 工具輔助,效率翻了好幾倍。

門檻降低,天花板拉高

有了 LLM,寫 SQL、寫分析腳本快了很多。但真正難的沒變:問對問題、設計實驗、解讀因果關係。工具變強了,對人的要求反而更高。

非結構化資料變得可用

以前主要處理表格數據。有了 NLP 和 Vision 模型,ESG 報告書的文字、衛星影像、感測器訊號都變成可分析的資料來源。

從「分析過去」到「生成未來」

傳統數據科學做描述和預測。生成式 AI 加了新維度:自動產出碳盤查報告初稿、模擬不同情境的排放路徑。

可解釋性變得更重要

模型越強越黑箱。在碳排、ESG 這種需要可審計的場景,「為什麼模型這樣判斷」比「準確率多少」更關鍵。

Pipeline

數據科學的工作流程

每個數據科學專案大致會經過這五個階段。實務上它們不是線性的,經常需要來回迭代。

01

定義問題

從商業或研究場景出發,把模糊的需求翻譯成可量化、可驗證的假設。好的問題定義,決定了後面所有步驟的方向。

02

資料採集與清洗

從公開資料庫、API、感測器、文件中取得原始資料。真實世界的資料永遠是髒的,清洗和標準化往往佔整個專案 60% 以上的時間。

03

探索性分析

用統計方法和視覺化工具,先摸清資料的分佈、異常值、相關性。在建模之前,直覺和數字要先對得上。

04

建模與實驗

選擇合適的演算法(迴歸、分類、NLP、時間序列),訓練模型並用交叉驗證評估效能。失敗的實驗和成功的一樣有價值。

05

部署與監控

把驗證過的模型包裝成 API 或嵌入產品。上線後持續監控模型效能,資料分佈一旦漂移就需要重新校準。

Core Skills

核心技術能力

Python / R

分析與建模的主力語言

統計學

假設檢定、貝氏推論、因果推論

機器學習

監督式、非監督式、深度學習

資料工程

ETL 管線、雲端架構、MLOps

How We Apply It

我們怎麼用數據科學?

同樣的方法論,應用在四個不同的場域。每個場域的資料特性、法規環境、利害關係人都不一樣, 這也是為什麼領域知識和技術能力同等重要。

環境碳排

CertiCarb

用迴歸模型估算企業 Scope 3 排放量,用 NLP 自動解析碳盤查報告,建構可追溯的計算鏈。

永續資訊

TISEE

用大型語言模型比對 ESG 報告與 IFRS S2 要求的落差,自動計算揭露品質分數。

社會影響

HOPETURN

量化社區發展計畫的實際影響,用統計方法分離干預效果與自然趨勢。

人體數據

ZRIMATA

分析穿戴裝置的生理訊號,建構環境暴露與健康指標之間的預測模型。

想深入了解?

研究室持續發表研究成果、開放資料集、記錄實驗過程。 這些內容都可以在管理後台中查閱與管理。

認識研究室 →

數據科學用在哪裡?

同一套方法論,觀測四個看不見的系統:環境碳排、企業永續、社會影響、人體狀態。

看四個觀測維度 →