在現代社會中,無論是教育領域的學生學習成效,還是職場中的員工績效與專案成果,評量都是一個不可或缺的環節。它不僅是衡量表現、發現問題、提供回饋的關鍵手段,更是推動個體成長與組織發展的策略工具。然而,當我們談論「評量方式有幾種」時,答案遠非一個簡單的數字,而是一個基於不同目的、標準和實施方法的複雜體系。
本文將深入探討各種評量方式,從其基本分類到具體應用,幫助您全面理解評量的多元性與策略性。
一、按評量目的劃分:形成性評量與總結性評量
這是評量最基本也最重要的分類方式,直接決定了評量活動的焦點和結果的用途。
1. 形成性評量 (Formative Assessment)
形成性評量旨在於學習或工作過程的「形成」階段提供持續性的回饋。其核心目的是監控學習進度、診斷困難、及時調整教學或工作策略,以促進改進和發展。它通常是低利害關係的(low-stakes),結果不直接用於最終成績或績效評定,而是作為優化的參考。
- 目的: 監測進度、提供回饋、診斷問題、引導學習/工作方向、促進改進。
- 特點: 持續性、即時性、診斷性、非最終性、重過程輕結果。
- 常見方式:
- 課堂提問與討論: 老師隨時提問,了解學生理解程度。
- 小組活動與合作學習: 觀察團隊協作與個體貢獻。
- 隨堂測驗或小考: 快速檢測近期學習內容的掌握情況。
- 作業草稿或初步方案審閱: 提供修改意見,引導完善。
- 同儕互評: 學生或同事之間互相提供建設性意見。
- 自我評量與反思日誌: 促使個體檢視自身表現與學習策略。
- 即時反饋工具: 如投票、線上問卷等,快速收集意見。
- 績效輔導會談: 經理與員工定期溝通,提供指導。
- 應用場景: 教育中的單元測驗、學生專案中期報告、企業培訓中的階段性評估、軟體開發中的衝刺回顧會議等。
2. 總結性評量 (Summative Assessment)
總結性評量通常在學習或工作活動的「總結」階段進行,目的是對已完成的學習成果、專案結果或個人績效進行最終的判斷和評價。它通常是高利害關係的(high-stakes),其結果用於決定等級、資格認證、晉升、獎勵或責任歸屬。
- 目的: 衡量最終成果、評定等級、判斷是否達到標準、進行選拔或認證、作出管理決策。
- 特點: 終結性、全面性、標準化、高利害關係、重結果輕過程。
- 常見方式:
- 期中/期末考試: 評估學生在一段時間內的知識掌握情況。
- 畢業論文或專題研究報告: 衡量學術能力與研究成果。
- 資格認證考試: 如醫師執照、律師資格、專業技能證照等。
- 員工年度績效考核: 評估員工全年工作表現,決定獎金、晉升等。
- 專案結案評估: 判斷專案是否成功達成目標。
- 產品上市後市場反應評估: 衡量產品的市場表現。
- 應用場景: 教育中的升學考試、企業的年終績效評估、政府機構的政策效果評估等。
形成性與總結性的關係: 兩者相輔相成。形成性評量為過程提供指導,而總結性評量則為最終成果提供驗證。一個有效的評量系統,應當同時包含這兩種方式,以實現全面且有意義的評估。
二、按評量標準劃分:常模參照評量與標準參照評量
這兩種評量方式的區別在於其結果比較的基準不同。
1. 常模參照評量 (Norm-Referenced Assessment)
常模參照評量是將受評者個人的表現與一個預先建立的「常模群體」的表現進行比較。它的目的通常是區分個體,並將其排定順序或分級。
- 目的: 比較個體與群體的相對位置、進行選拔、排名或分級。
- 特點: 強調個體間差異、有常模群體作為比較基準、結果通常呈正態分佈。
- 常見方式:
- 智力測驗 (IQ Test): 根據同齡人的平均表現來判斷個人的智力水平。
- 標準化學業成就測驗 (SAT, GRE, TOEFL): 衡量學生在全國或全球同齡人中的相對學術能力或語言水平。
- 某些入學或招聘考試: 錄取前N名或分數最高的百分比。
- 優點: 能有效區分個體差異,便於選拔。
- 缺點: 無法直接反映個體是否掌握了特定知識或技能,只知其相對位置。
2. 標準參照評量 (Criterion-Referenced Assessment)
標準參照評量是將受評者個人的表現與一個預先設定的、明確的「絕對標準」或「學習目標」進行比較。它不關心個體在群體中的相對位置,只關心其是否達到了預設的標準。
- 目的: 判斷個體是否達到特定的學習目標、掌握了特定技能或知識。
- 特點: 參考絕對標準、注重個體是否達標、不強調個體間的比較。
- 常見方式:
- 駕駛執照考試: 判斷考生是否達到安全駕駛的最低標準,而非比誰開得更好。
- 專業技能認證: 如CPA會計師證照、IT專業認證,衡量是否掌握了特定領域的知識和技能。
- 大學課程的及格標準: 學生分數達到60分即為及格,不考慮其他同學考了多少分。
- 專案驗收標準: 判斷專案成果是否滿足預定的質量和功能要求。
- 優點: 能清晰反映個體是否掌握了特定內容,有助於設定明確的學習目標。
- 缺點: 標準設定的合理性至關重要,且難以有效區分高層次表現的微小差異。
三、按評量性質劃分:量化評量與質性評量
評量結果的呈現形式和分析方法也可以分為兩種基本類型。
1. 量化評量 (Quantitative Assessment)
量化評量透過數字、統計數據和客觀指標來衡量表現。它的結果通常是具體可計算的,便於比較和統計分析。
- 目的: 提供客觀、可比較的數據,進行統計分析、趨勢預測。
- 特點: 客觀性、數字化、標準化、可量化、結果相對容易比較。
- 常見方式:
- 多選題、是非題、填空題: 客觀題型,答案唯一,易於計分。
- 數字化評分量表 (Rating Scales): 例如1-5分的滿意度評分、績效考核中的數值評分。
- 統計數據分析: 如銷售額、產量、錯誤率、學習時間等。
- 計數法: 統計特定行為發生的次數。
- 優點: 結果客觀,便於統計分析、比較和管理。
- 缺點: 可能忽略行為背後的原因、過程或深層次的情感與動機。
2. 質性評量 (Qualitative Assessment)
質性評量透過描述、解釋和理解來探究行為、觀點、經驗和過程的深層意義。它的結果通常是文字描述性的,強調上下文和個體獨特性。
- 目的: 深入理解現象、探究原因、發掘個體獨特性、提供豐富的描述性回饋。
- 特點: 主觀性、描述性、情境化、重深度理解、難以量化比較。
- 常見方式:
- 開放式問卷或訪談: 收集受訪者詳細的看法和感受。
- 觀察記錄法: 系統性地觀察行為、互動過程,並進行詳盡描述。
- 檔案袋評量 (Portfolio Assessment): 收集個體一段時間內的學習作品、反思和成長記錄。
- 個案研究: 對特定個案進行深入、全面的分析。
- 焦點團體討論 (Focus Group): 收集一群人對特定主題的集體觀點和互動。
- 敘事評量: 以故事或描述性文字來呈現評量結果。
- 優點: 能提供豐富的背景信息和深層次的理解,有助於發現問題的根本原因。
- 缺點: 難以進行大規模比較,主觀性較強,對評量者的專業素養要求高。
四、按實施方式與工具劃分:傳統評量與多元/替代性評量
隨著教育理念和職場需求的發展,評量方式也從相對單一的傳統模式走向更加豐富多樣的多元模式。
1. 傳統評量 (Traditional Assessment)
傳統評量通常指那些以紙筆測驗為主的、標準化程度較高的評量方式,主要側重於考察知識記憶和理解。
- 特點: 標準化、客觀性強、易於大規模實施和計分。
- 常見方式:
- 選擇題 (Multiple Choice Questions): 從選項中選出正確答案。
- 是非題 (True/False Questions): 判斷陳述的真偽。
- 配對題 (Matching Questions): 將兩組相關項目進行配對。
- 填空題 (Fill-in-the-Blank Questions): 填寫缺失的詞語或資訊。
- 簡答題 (Short Answer Questions): 用簡短文字回答問題。
- 優點: 效率高,信度(reliability)和效度(validity)較易控制,成本相對較低。
- 缺點: 難以評估高層次思考能力、創造力、解決問題能力和實際操作技能。
2. 多元或替代性評量 (Alternative/Authentic Assessment)
多元評量或稱替代性評量、真實性評量,旨在克服傳統評量的局限性,強調在真實情境中評估學習者的實際應用能力、解決問題能力、創新能力和協作能力。它更關注學習過程和複雜技能的發展。
- 特點: 情境化、真實性、過程導向、強調應用與高層次思維。
- 常見方式:
檔案袋評量 (Portfolio Assessment)
收集學習者在一段時間內的作品(如寫作、美術作品、專案報告、實驗記錄等),並附上反思和成長記錄。它展現了學習過程、努力程度和進步。
表現性評量 (Performance-Based Assessment)
要求學習者在實際情境中執行特定任務,如口頭報告、實驗操作、角色扮演、模擬演練、藝術表演等。評量其完成任務的過程和最終產品。
專案式評量 (Project-Based Assessment)
要求學習者或團隊完成一個複雜、長期且具有實際意義的專案,從規劃、執行到成果展示。它整合了多學科知識和多項技能。
觀察法 (Observation)
透過系統性地觀察學習者在自然情境中的行為表現,記錄其在課堂討論、團隊合作、實驗操作、體育活動等方面的能力。
同儕評量 (Peer Assessment)
學生或同事之間互相評估對方的工作或表現。這有助於培養批判性思維、溝通能力和客觀評價他人的能力。
自我評量 (Self-Assessment)
學習者或員工根據既定標準,對自己的學習過程、成果或工作表現進行評估和反思。這有助於培養自我導向學習和自我反省能力。
口頭報告與演示 (Oral Presentations/Demonstrations)
評估學習者的溝通能力、邏輯思維、內容組織和表達技巧。
模擬評量 (Simulation)
在一個模擬的環境中,讓學習者解決實際問題,例如飛行員在模擬機中訓練、醫生在模擬手術中練習。
- 優點: 更全面、真實地反映能力,促進高層次思維和實用技能發展。
- 缺點: 耗時耗力,計分複雜,主觀性較強,對評量者培訓要求高,信度和效度控制較難。
五、綜合考量:如何選擇最佳評量方式?
面對如此多樣的評量方式,選擇最適合的策略需要綜合考慮多重因素:
- 評量目的: 您是想促進學習/改進(形成性),還是想做最終判斷(總結性)?
- 評量對象: 是評量個體還是團隊?是評量知識還是技能?對象的年齡、背景、經驗水平如何?
- 評量內容: 評量的是記憶性知識、理解力、應用能力、分析能力、創造力還是其他複雜技能?
- 資源限制: 時間、人力、物力、財力等可用資源是否充足?
- 信度與效度: 評量結果是否穩定可靠(信度)?是否能有效測量其想測量的內容(效度)?
- 公平性與透明度: 評量過程和標準是否對所有參與者公平且公開透明?
- 回饋價值: 評量結果能否為受評者提供有意義、可操作的回饋?
通常情況下,單一的評量方式難以提供全面的圖景。最佳實踐往往是整合運用多種評量方式,形成一個多元化的評量系統。例如,在教育中,可以結合課堂小測(形成性)、專案作業(多元性)和期末考試(總結性),以全面評估學生的學習成效。
常見問題解答 (FAQ)
Q1:如何選擇最適合的評量方式?
A1: 選擇評量方式應首先明確評量「目的」。是為了促進學習(形成性)還是判斷成果(總結性)?其次,考慮「評量對象」和「內容」,例如是評估知識還是技能。最後,還要兼顧「資源限制」和「信度效度」,確保評量結果的可靠性和有效性。
Q2:為何說形成性評量與總結性評量同等重要?
A2: 形成性評量提供及時回饋,引導和促進學習/工作過程的改進;而總結性評量則對最終成果進行判斷和驗證。形成性評量是「為學習而評量」,幫助個體成長,而總結性評量是「學習的評量」,衡量達標程度。兩者缺一不可,共同構成完整的評量循環。
Q3:評量結果的信度和效度是什麼意思?
A3: 信度 (Reliability) 指評量結果的穩定性和一致性,即在相同條件下,多次評量能得到相似結果的程度。效度 (Validity) 指評量是否有效地測量了它本應測量的內容,即評量結果的準確性或真實性。一個好的評量工具必須同時具備高信度和高效度。
Q4:如何將多種評量方式有效結合使用?
A4: 有效結合多種評量方式的關鍵在於「策略性規劃」。可以將形成性與總結性評量搭配,如日常課堂參與度、小組討論(形成性)結合期末報告或考試(總結性)。同時,結合量化與質性方法,例如在績效考核中,既有量化的銷售額指標,也有質性的經理觀察和360度回饋,以獲得更全面的洞察。
Q5:為何多元評量方式在現代教育中越來越受重視?
A5: 現代教育強調培養學生的綜合能力,包括解決問題、批判性思維、創新和協作等。傳統評量方式往往難以有效衡量這些高層次能力。多元評量(如檔案袋、專案式、表現性評量)能提供更真實、更情境化的評估機會,鼓勵學生在實際操作中展示所學,從而更全面地反映其真實能力和學習成效。
總而言之,評量方式的選擇和運用是一門藝術,也是一門科學。理解其多樣性,並根據具體情境靈活組合,才能發揮評量的最大價值,真正實現「以評促學」、「以評促改」、「以評促發展」的目標。

