測(cè)驗(yàn)效度概念的新發(fā)展doc - 北京語(yǔ)言大學(xué)教育測(cè)量研究所_第1頁(yè)
已閱讀1頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1測(cè)驗(yàn)效度概念的新發(fā)展測(cè)驗(yàn)效度概念的新發(fā)展謝小慶(北京語(yǔ)言大學(xué))摘要:摘要:在1985年《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)》(第5版)出版之前,效度研究的核心概念是“效標(biāo)(criterion)”。效度研究被視為一種用“效標(biāo)”對(duì)測(cè)驗(yàn)的效度進(jìn)行證明(verify)的過程,效度研究被視為一種對(duì)測(cè)驗(yàn)分?jǐn)?shù)做出有效(valid)解釋的過程。在1985年以后,效度研究的核心概念是“證據(jù)(evidence)”。效度研究被視為一種通過積累證據(jù)對(duì)測(cè)驗(yàn)的效度進(jìn)行支持(su

2、ppt)的過程,效度研究被視為一種對(duì)測(cè)驗(yàn)分?jǐn)?shù)做出合理(reasonable)解釋的過程。關(guān)于效度的這種理解,突出地體現(xiàn)在1999年出版的《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)》(第6版)中。美國(guó)教育協(xié)會(huì)和美國(guó)國(guó)家教育測(cè)量學(xué)會(huì)共同組織編寫的《教育測(cè)量》在業(yè)內(nèi)被稱為是“測(cè)量領(lǐng)域的《圣經(jīng)》”。在2006年《教育測(cè)量》(第4版)出版以后,效度研究的核心概念變?yōu)椤袄碛桑╳arrant)”。效度研究被視為一種通過構(gòu)造“理由系統(tǒng)”和“理由網(wǎng)絡(luò)”對(duì)效度所進(jìn)行的“論證(a

3、rgument)”,效度研究被視為一種對(duì)測(cè)驗(yàn)分?jǐn)?shù)做出可接受的(plausible)解釋的過程。本文結(jié)合作者在考試實(shí)踐中的一些體會(huì),介紹了效度概念的新發(fā)展。關(guān)鍵詞:測(cè)驗(yàn)考試效度考試是一把尺子,被用來(lái)測(cè)量應(yīng)考者的能力。這把尺子本身可能存在質(zhì)量問題。只有達(dá)到質(zhì)量標(biāo)準(zhǔn)的考試才能被應(yīng)用。效度是刻畫考試質(zhì)量的最重要指標(biāo),它反映了考試在多大程度上實(shí)現(xiàn)了考試目的。在美國(guó)教育研究協(xié)會(huì)(AmericanEducationalResearchAssociat

4、ion,AERA)、美國(guó)心理學(xué)會(huì)(AmericanPsychologicalAssociation,APA)和美國(guó)國(guó)家教育測(cè)量學(xué)會(huì)(NationalCouncilonMeasurementinEducation,NCME)共同制定的《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(StardsfEducationalPsychologicalTesting)》[1][2]和美國(guó)教育協(xié)會(huì)(AmericanCouncilonEducation)和美國(guó)國(guó)家教育測(cè)量學(xué)會(huì)共

5、同組織編寫的、被人們稱為“教育測(cè)量領(lǐng)域的《圣經(jīng)》”的《教育測(cè)量(EducationalMeasurement)》[3][4]中,首先討論的都是考試的效度問題。一、一、效度概念的歷史演變效度概念的歷史演變考試是一把尺子。這把尺子的準(zhǔn)確性,需要靠另一把尺子來(lái)檢驗(yàn)。這“另一把尺子”,就是“效標(biāo)(criterion)”,或“標(biāo)準(zhǔn)”。在招生名額有限的情況下,當(dāng)我們準(zhǔn)備將一項(xiàng)測(cè)驗(yàn)(如手指速度測(cè)驗(yàn)或注意力測(cè)驗(yàn))作為“打字員培訓(xùn)班”的招生考試時(shí),我們可

6、以對(duì)這項(xiàng)測(cè)驗(yàn)的有效性進(jìn)行檢驗(yàn)。我們可以計(jì)算經(jīng)過一個(gè)月培訓(xùn)后的學(xué)員的打字速度與測(cè)驗(yàn)分?jǐn)?shù)之間的相關(guān)。如果存在顯著的相關(guān),我們可以說這項(xiàng)測(cè)驗(yàn)是有效的。這時(shí),經(jīng)過一個(gè)月培訓(xùn)后的打字速度就是“效標(biāo)”。早期的效度研究是圍繞“效標(biāo)”展開的。例如,作為美國(guó)高考的《學(xué)術(shù)評(píng)3效度”和“內(nèi)容效度”,但我的考試具有“構(gòu)念效度”。“構(gòu)念效度”成了一個(gè)“筐”,所有無(wú)法得到效度證明的考試都可以往里面裝。據(jù)說,“語(yǔ)文能力”是一個(gè)“構(gòu)念”,這個(gè)“構(gòu)念”可以用考試來(lái)界定,

7、這些界定“構(gòu)念”的考試具有“構(gòu)念效度”。關(guān)于“構(gòu)念效度”虛弱的邏輯基礎(chǔ)和循環(huán)論證,討論的文章已經(jīng)很多,不再贅述。正是由于認(rèn)識(shí)到原有效度概念框架的脆弱,心理測(cè)量學(xué)家們開始嘗試構(gòu)造新的效度研究范式(Paradigm)。這種努力,體現(xiàn)在1985出版的《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(第5版)》[1]中,在1989年出版(1993年修訂)的《教育測(cè)量(第3版)》[4]和1999年出版的《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(第6版)》[2]中,得到比較完整地闡述。在新的研究

8、范式中,不再將效度劃分為效標(biāo)關(guān)聯(lián)效度、內(nèi)容效度和構(gòu)念效度?!皹?gòu)念”被用來(lái)定義效度概念?!皹?gòu)念”被定義為:“測(cè)驗(yàn)所要測(cè)量的概念或特性(theconcepttheacteristicthatatestisdesignedtomeasure)”。(AERA,1999,第173頁(yè))。所謂效度,就是測(cè)驗(yàn)對(duì)構(gòu)念進(jìn)行測(cè)量的有效程度。從此,“構(gòu)念效度(constructvalidity)”這一短語(yǔ)對(duì)于效度來(lái)講已經(jīng)成為多余(redundant)”。(AE

9、RA,1999,第174頁(yè))。隨著“構(gòu)念效度”退出歷史舞臺(tái),“構(gòu)念”走到了舞臺(tái)的中心。在新的研究范式中,“證據(jù)(evidence)”取代效標(biāo)成為效度研究的核心概念。效度研究被視為一種通過積累“證據(jù)”對(duì)測(cè)驗(yàn)的效度提供支持(suppt)的過程,效度研究被視為一種對(duì)測(cè)驗(yàn)分?jǐn)?shù)做出合理(reasonable)解釋的過程。在《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(第6版)》中,提出了支持考試效度的5個(gè)方面的證據(jù):基于內(nèi)容的證據(jù)(evidencebasedoncont

10、ent);基于反應(yīng)過程的證據(jù)(evidencebasedonresponseprocesses);基于內(nèi)部結(jié)構(gòu)的證據(jù)(evidencebasedoninternalstructure);基于與其他變量之間關(guān)系的證據(jù)(evidencebasedonrelationstoothervariables);基于測(cè)驗(yàn)結(jié)果的證據(jù)(evidencebasedonconsequencesoftesting)。[2][9]這時(shí),效度研究的邏輯是,雖然我不

11、能“證明”我的考試是有效的,但我可以用盡可能多的“證據(jù)”去支持我的考試。盡管我不能確認(rèn)某項(xiàng)考試一定有效,但我可以從互相競(jìng)爭(zhēng)的考試中選擇得到更多證據(jù)支持的考試,我可以根據(jù)效度研究結(jié)果做出合理的選擇。在2006年出版的《教育測(cè)量(第4版)》中,將這種效度研究范式稱為基于構(gòu)念效度研究之上的“一元化效度模型(constructvalidationasthebasisfaunifiedmodelofvalidity)”。(Brennan,2006

12、,第21頁(yè))在考試實(shí)踐中,這種效度研究范式繼續(xù)受到挑戰(zhàn),繼續(xù)遭到質(zhì)疑。人們發(fā)現(xiàn),僅僅靠作為證據(jù)的“事實(shí)(fact)”或“可觀察行為(observablebehavi)”并不足以對(duì)測(cè)驗(yàn)效度提供足夠的支持。只有當(dāng)“證據(jù)”與一些預(yù)設(shè)的“假設(shè)”結(jié)合在一起時(shí),才能對(duì)測(cè)驗(yàn)提供支持。在考試領(lǐng)域中的一個(gè)重要的效度研究案例是美國(guó)教育測(cè)驗(yàn)服務(wù)中心(ETS)關(guān)于客觀性選擇題和主觀性作文題的比較研究。選擇題能否被用于考查寫作能力?上世紀(jì)50年代初,在美國(guó)語(yǔ)文教

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論