實踐項目 返回列表

核心素養的認知診斷測評體系建構

2020/4/26 10:31:25

核心素養是全球教育界關注的焦點問題,也是當下(xià)教育改革的風向标。然而,如何合理測評學科核心素養成爲教育改革和發展的重要議題,學科核心素養的測評需加關注各種新型評價形式[1]。認知診斷測評作爲一(yī)種新的教育測評範式,旨在将嚴格的心理測量标準與形成性評估的目标相(xiàng)結合[2]。通(tōng)過知識鏈間的關系獲取更恰當的學習路(lù)徑和學習進階,更好地指導教學實踐。本研究采用認知診斷測評理論,試圖爲核心素養的測評提供新的視角和方法。


一(yī)

認知診斷用于核心素養測評的可行性分析

1 核心素養的本質特征決定了它的可測性

可測性是素養測評的前提,素養的本質決定了素養的可測性,如素養是知識、技(jì)能(néng)、态度的超越和統整,是一(yī)整套可以被觀察、教授、習得和測量的行爲[3]。素養是完成某一(yī)情境工(gōng)作任務所必需的一(yī)系列行爲模式,這些行爲與績效表現密切相(xiàng)關[4]。核心素養具有可測量性,可加以評價,核心素養的表現水(shuǐ)平可經過推測得知,呈現出一(yī)個連續體的狀态,代表構成要素的高(gāo)低(dī)水(shuǐ)平[5]。可見,核心素養是在繼承“三維目标”的基礎上(shàng)發展出來的、更具有統整性的概念,它不能(néng)脫離知識而存在,是通(tōng)過知識積累、技(jì)能(néng)發展、态度養成而形成的綜合行爲能(néng)力。如歐盟核心素養框架就(jiù)是将行爲導向的核心素養分解成知識、技(jì)能(néng)和态度三個方面來進行評價的[6]。這種可分解性,對核心素養的認知診斷測評起著(zhe)至關重要的作用。


2 核心素養與認知診斷技(jì)術都具有内隐性

核心素養具有綜合性、内隐性、情境性和适應性等特點,難以直接觀察,必須将核心素養依附于具體行爲,通(tōng)過觀察外顯的行爲表現來間接了解内隐的核心素養狀況。如歐盟國家核心素養評價的一(yī)種思路(lù)是将核心素養轉換爲可觀察的外顯行爲,對核心素養開展評價[7]。認知診斷測評作爲新型的測評手段,是高(gāo)級潛變量模型,主要解決通(tōng)過傳統測評無法測量的内部能(néng)力問題。利用認知診斷測評技(jì)術來測量學生(shēng)的核心素養,可以較好地将核心素養内隐的特征外顯化,讓核心素養的測評從模糊狀态轉爲清晰,爲了解核心素養的内部特征及其結構化特點提供新視角。


3 認知診斷測評使素養測評更加可操作

認知診斷需要将核心素養所代表的行爲能(néng)力分析成認知屬性,進而通(tōng)過現代心理學和測量學的手段對核心素養的内部結構、認知規律及其在細粒度上(shàng)的表現做出全面的診斷和評價。認知診斷測評不僅注重學生(shēng)個性化的評價,而且關注群體的學習路(lù)徑和學習進階等整體狀态。因此,核心素養的認知診斷測評成爲了評價學生(shēng)學業成就(jiù)、考量課标教材合理性、指導教學有效有序開展的依據。此外,認知診斷測評讓核心素養的計算(suàn)機自(zì)适應測評也成爲可能(néng),如美國計算(suàn)機自(zì)适應測驗已經以不同形式存在于州立K-12教育測評中[8]。核心素養的認知診斷測評更加具體,師生(shēng)對核心素養的理解更加深刻,使得有針對性地培養學生(shēng)核心素養有了可操作的依據。


核心素養測評的認知診斷體系建構

1 理論假設與基礎論證

核心素養的屬性層次界定是核心素養認知診斷測評的基石,它直接影響認知診斷測評的質量。屬性層次既要符合學科邏輯思維,又(yòu)要遵循學生(shēng)認知規律——這就(jiù)要求屬性層次建構者在學科理解的基礎上(shàng),充分了解學生(shēng)的認知規律,既要有豐富的學科經驗,又(yòu)要有大量的學生(shēng)知識。Leighton等[9]認爲,目前認知診斷屬性在達到(dào)評估和診斷目的方面存在困難。爲解決這一(yī)困難,國際上(shàng)較爲成熟的辦法是聯合學科專家、心理測評專家和一(yī)線教師,來開發認知診斷屬性層次。此外,還可以采用心理研究的方法來構建适合認知診斷的屬性層次,如口語報告法、眼動研究技(jì)術等。屬性的細粒度直接影響結果的解析深度,由于測評目的不同,其屬性的劃分也存在差異。但從數據的複雜性角度來考慮,一(yī)般屬性個數以6~9個爲宜。若某一(yī)核心素養的屬性有6個,那麽可能(néng)的屬性類型有以下(xià)5種[10],如圖1所示。

未标題-1.jpg

圖1  屬性層次關系的基本類型


2 認知診斷測評編制

在認知診斷測評編制中,Q矩陣起到(dào)了結構化統領的作用。Q矩陣理論将被試不可觀察的認知狀态轉化爲在項目上(shàng)可觀察的作答模式,以此來分析和推測被試的認知狀态[11]。以圖1中的C類分支型爲例,用1表示考查該屬性,0表示不考察。這樣,一(yī)道試題總計可能(néng)的考查模式應有26個。本研究在圖1中C類屬性層次關系的限制下(xià),計算(suàn)出理想測量模式,如表1所示。


表1  C類分支型的理想測量模式屬性考查分布

未标題-2.jpg


在表1的理想測量模式中,排除學生(shēng)做題過程中的猜測與忽視情況,可以推導出屬性掌握模式及其對應的理想反應模式,如表2所示。


表2  C類分支型屬性的掌握模式及其對應的理想反應模式

未标題-3.jpg


在表2中,屬性掌握模式(100100)表明學生(shēng)隻掌握了第一(yī)個和第四個屬性——在這種掌握模式下(xià),排除猜測和忽視情況,學生(shēng)隻能(néng)夠做對T1、T4、T12、T15測試題。


3 認知診斷模型選擇與應用

認知診斷測評依據不同的測評條件(jiàn)開發出了多(duō)種模型。以RSM爲例,該模型爲了将測量得到(dào)的多(duō)維度數據降到(dào)二維空間進行分類,構建了一(yī)組序偶(θ,ζ),規則空間是以(θ,ζ)爲參數的分類笛卡爾乘積二維空間。其中,θ表示項目反應理論中計算(suàn)出的被試的能(néng)力值,ζ表示警戒指标,即能(néng)力爲θ的被試實際反應模式偏離理想反應模式的程度[12]因此,可以依據理想反應模式計算(suàn)出标準的規則點(純規則點)(θRi,ζRi)和實際反應模式(θXi,ζXi)。定義ζ的值如公式(1)所示。其中,P(θ)=[P1(θ), P2(θ),…,Pi(θ)](i=1 ,2, 3, …, n),Pi(θ)指能(néng)力爲θ的被試在第i個項目上(shàng)作答正确的概率。

未标題-4.jpg

公式(1)


雙參數評估中P(θ)的計算(suàn)如公式(2)所示,其中ai, bi指第i個項目的區分度和難度,D一(yī)般取常值1.7。T(θ)指正确回答項目概率的均值向量,其計算(suàn)如公式(3)所示,其中t1(θ)的計算(suàn)如公式(4)所示。

6.png

依據以上(shàng)規則空間模型,計算(suàn)出純規則點(θRi,ζRi)和實際反應模式(θXi,ζXi),一(yī)般采用馬氏距離判别法或貝葉斯方法,按照(zhào)純規則點将被試分到(dào)不同的理想反應模式中,即可達到(dào)對被試進行分類診斷的目的[14]


4 結果分析與診斷報告

認知診斷測評了解學生(shēng)在多(duō)維、細粒度的潛在認知屬性上(shàng)的差異,充分體現了學生(shēng)診斷性、個性化的形成性評估特點;同時,也可以通(tōng)過知識鏈間的關系獲取更恰當的學習路(lù)徑和學習進階,關注統整性的終結性評估。認知診斷測評模型的本質,就(jiù)是通(tōng)過心理測量學手段,按照(zhào)實際反應模式和理想反應模式匹配的最大概率,将被試劃歸到(dào)不同的理想掌握模式中,進而依據被試在理想掌握模式所處的狀态對被試進行有針對性的屬性掌握策略與方法的補救。除此之外,認知診斷測評還可以獲得學生(shēng)核心素養的學習進階。學習進階作爲學生(shēng)學習某一(yī)領域知識的認知過程和發展順序,涉及對發展學生(shēng)相(xiàng)關認知活動的描述,對整個教育教學有奠基作用,也可爲國家課程标準的修訂、教材的編寫、教學順序的安排以及學生(shēng)學習效果的測評提供基礎性的理論支持。


核心素養的認知診斷測評的案例分析

認知診斷中屬性建構是整個測評的基礎。本研究以數感爲例進行案例分析,将數感分爲9個認知屬性[15]——A1:理解整數的基本含義;A2:理解分數和小(xiǎo)數的基本含義;A3:數字的多(duō)元化表示;A4:理解整數的相(xiàng)對和絕對大小(xiǎo);A5:理解分數的相(xiàng)對和絕對大小(xiǎo);A6:整數運算(suàn);A7:分數、小(xiǎo)數的簡單運算(suàn);A8:分數、小(xiǎo)數的複雜運算(suàn);A9:整數的應用。數感的認知診斷屬性模型如圖2所示。按照(zhào)理想測量模式對屬性考查的要求形成了測評工(gōng)具,其部分測試樣題如表3所示。

未标題-7.jpg

圖2  數感的認知診斷屬性模型


表3  數感認知診斷測試樣題(部分)

未标題-8.jpg


本研究依據規則空間模型建立的序偶[(θ,ζ)]規則,計算(suàn)出純規則點(θXi,ζXi);依據被試測量的實際數據,計算(suàn)出實際反應模式對應的序偶(θXi,ζXi);使用馬氏距離衡量學生(shēng)實際反應模式的點與理想反應模式的純規則點之間的距離,其主要的能(néng)力值θ和對應的掌握模式如表4所示[16]


表4  數感的認知診斷分類結果

未标題-9.jpg


表4顯示,三年(nián)級學生(shēng)主要掌握了A1、A2、A3、A4和A6屬性,并且這些掌握模式對應的能(néng)力值相(xiàng)對較低(dī)。四年(nián)級學生(shēng)進一(yī)步掌握了A5和A9屬性,并且對應的能(néng)力值也有所增加。五年(nián)級學生(shēng)幾乎掌握了所有的屬性,并且在θ=5.48、θ=3.62等高(gāo)能(néng)力的掌握模式上(shàng)占據較大的比例。針對不同水(shuǐ)平的學生(shēng),可以制定個性化的補救方案,如對于隻掌握A1和A2的學生(shēng),補救途徑可以是A3→A4→A5→A6→A9→A7→A8或A4→A6→A9→A3→A5→A7→A8。在第一(yī)種補救方法中,學生(shēng)首先了解數字的大小(xiǎo),然後掌握整數的運算(suàn)和應用,最後掌握分數和小(xiǎo)數的運算(suàn);而在第二種補救方法中,學生(shēng)首先提高(gāo)對整數的數感,然後提高(gāo)對分數和小(xiǎo)數的數感。


啓示與讨論

1 啓示

(1)認知診斷測評使核心素養的測評從理念性的描述轉化爲實踐性的操作

到(dào)目前爲止,學習測評的觀念發生(shēng)了兩次重要改變:第一(yī)次是由“對學習的評價”到(dào)“爲了學習的評價”;第二次是從“爲了學習的評價”到(dào)“評價是學習的一(yī)種方式”[17]。評價理念的變化,要求核心素養的評價要突出學生(shēng)本身在學習中的主體地位和作用,能(néng)夠制定個性化的評價方案和策略。然而,現有核心素養的評價标準僅停留在對認知水(shuǐ)平的描述階段,是一(yī)種表現性的标準,這種标準是學生(shēng)被劃入相(xiàng)應類别所需的特定表現(包括知識、技(jì)能(néng)和能(néng)力等)的最低(dī)水(shuǐ)平描述[18],其評價的結果主觀性太強,故難以提出可操作的培養措施和補救措施。核心素養的認知診斷測評将評價的目标整合到(dào)測評體系中,依據學生(shēng)行爲能(néng)力表現推測學生(shēng)素養水(shuǐ)平,可實現通(tōng)過外在表現推測内隐特征的目的。這種評價将學生(shēng)的素養水(shuǐ)平按照(zhào)不同的理想掌握模式進行細分,并給每種掌握模式制定了個性化的補救方案。可見,認知診斷測評技(jì)術可将籠統的核心素養評價更加清晰化,爲核心素養評價并通(tōng)過評價促進核心素養的培育起到(dào)了重要作用。


(2)核心素養的認知診斷測評兼具形成性評估和終結性評估的特點

核心素養是一(yī)個人在某個方面的關鍵能(néng)力和重要品質,具有高(gāo)度的抽象性和綜合性,因此其評價需要關注整合性,不宜碎片化。但是,由于核心素養的内隐性和綜合性特征,在如何評價、培養學生(shēng)的核心素養方面存在很大困難,因此核心素養的評價還需要進行形成性評估。如PIAS中核心素養的評價既能(néng)夠通(tōng)過作答反映學生(shēng)在思維品質上(shàng)的差異,也可關注學生(shēng)的個性化發展和創造性表現,有利于對學生(shēng)進行個性化診斷[19]。核心素養的認知診斷測評可以得到(dào)每一(yī)個學生(shēng)的診斷報告,發現學生(shēng)在學習中存在的問題,以及在全體學生(shēng)中所處的水(shuǐ)平,從而有針對性地提出補救的方案和路(lù)徑。在終結性評估方面,通(tōng)過測評可以得到(dào)核心素養的學習進階,進一(yī)步爲培養核心素養提供合理的路(lù)徑和策略。學習進階是修訂課程标準、編寫教材、進行教學與學習評價的重要基礎,爲整個教育教學的發展提供了有效支持。認知診斷精細的過程性、個性化測評特點,爲核心素養的測評提供了抓手;認知診斷對整個認知規律和學習進階的把握,則爲核心素養的測評指明了發展方向。


(3)認知診斷測評爲核心素養的計算(suàn)機自(zì)适應測評奠定了基礎

學習測評發展的趨勢是走向計算(suàn)機自(zì)動化。“互聯網+”時代的到(dào)來,給信息、通(tōng)訊和技(jì)術(ICT)在學習測評中的應用提供了巨大的發展空間。美國的ICT測評技(jì)術已經開啓了從“明确考試的範式”到(dào)“嵌入式評價範式”的轉變。在“明确考試的範式”中,測評強調精準測查學生(shēng)的學業表現;在“嵌入式評價範式”中,測評強調有針對性的及時反饋[20]。可見,學習測評技(jì)術的自(zì)适應性具有傳統測評所缺乏的衆多(duō)優點,核心素養測評走向計算(suàn)機自(zì)适應化是測評發展的必然趨勢。目前,PISA和NAP-SL測試都已全部使用計算(suàn)機自(zì)适應測評進行學業測評。而認知診斷理論作爲計算(suàn)機自(zì)适應測評的重要理論,爲計算(suàn)機自(zì)适應測評起到(dào)了基礎性的支撐作用。核心素養的認知診斷測評,也爲核心素養的計算(suàn)機自(zì)适應測評提供了前提條件(jiàn)。現有的學習測評分析工(gōng)具可通(tōng)過學生(shēng)的在線學習和測評,将結果以可視化的形式呈現給學生(shēng),幫助學生(shēng)分析學習過程中存在的問題,促進反思,調整學習策略[21]。未來核心素養測評可以通(tōng)過數字化工(gōng)具和大數據、雲計算(suàn)等技(jì)術,将心理測量模型和具體的學科核心素養無縫嵌入到(dào)學生(shēng)的學習和測評過程中,對學生(shēng)的學習過程進行動态監測,以促進學生(shēng)更好地學習[22]


2 讨論

無論是個性化的學生(shēng)特征分析、綜合性的學習進階制定,還是計算(suàn)機自(zì)适應測評的理論準備,核心素養的認知診斷測評都具有明顯的優勢。與此同時,核心素養的認知診斷測評也存在有待改進的空間:①認知診斷測評理論強調的是對核心素養的具體化。由于核心素養的抽象性和内隐性,“個體所具備的核心素養及其水(shuǐ)平,必須借助于他們在具體任務中的實際表現加以推測”[23]。但核心素養的具體化并不意味著(zhe)測評隻關注局部而不考慮整體,更不可将評價碎片化,應該在具體與抽象之間保持“精妙的平衡”[24]。②認知診斷的測評基本上(shàng)都是以0或1的二元狀态評分,這使得測評試題的編制有較大的局限。核心素養的測評關注課程學習的“真實性學業成就(jiù)”,而真實性學業成就(jiù)不隻是習得事(shì)實性的學科知識和概念,而是能(néng)夠運用這些知識或概念解決複雜的現實性問題[25],因此核心素養需要有一(yī)定情境化、整合性和開放(fàng)性的評價任務——當然,随著(zhe)認知診斷測評的多(duō)級評分模式的成熟,這一(yī)問題可能(néng)會得到(dào)較好的解決。此外,認知診斷測評對技(jì)術的要求較高(gāo),故在測評的廣泛普及方面會受較多(duō)的限制,這就(jiù)需要專業人員開發具有普适性的核心素養的認知診斷測試平台,爲更多(duō)人員參與測評提供技(jì)術服務。