【亞洲SAT考試分析】標準化考試的信度與效度該何去何從

2015-02-03

效度(Validity)

效度(Validity)，即有效性，反映已有證據可以在多大程度上支持根據測驗分數所作出的推論，是衡量考試質量的重要的標志之一。編制一個考試，首先需要回答的問題是：“這個考試測試什么?”例如，一個數學能力考試測的是“數學能力”，考試分數就被視為是對考生數學能力的測量。而考生真實能力是否如實地反映在成績上，就是這場考試的“效度”。將標準化考試運用于人才選拔的邏輯依據主要是“效度資料”，即可以用事實說明：在這項考試中考高分的人平均能力高于考低分的人，以考試選拔的學生比隨即選拔的學生平均能力更強，考高分的人將來在大學的表現高于低分的人。甚至，考高分的人未來的職業發展水平好于低分的人。SAT(Scholastic Assessment Test)是一場能力測試，目前沒有確定的大綱范圍，對記憶力的要求不高，更多的著眼于潛力，用來普及高等教育，對于所有背景的學生提供了在大學是否能夠取得成功的公平而有效的預測。目前，SAT已經成為對大學準備情況的高度可靠并且有效的衡量標準，被應用于美國基本所有四年制大學和學院，包括非強制性測驗機構的入學申請過程中。每年有將近300萬學生通過170多個國家的將近7,000個考試中心參加SAT考試。SAT考察內容反映了高中課堂上所教授的閱讀、數學和寫作課程。不僅如此，SAT還衡量學生運用知識的能力，對大學和事業上的成功至關重要。SAT的歷史數據說明，SAT的高分與高中階段的學習類型和嚴謹性相關。比如，2012年College & Career Readiness的報告顯示，在美國有43%的高中畢業生具有充足的學術儲備，而這些學術儲備與學生大學階段成功與否高度相關。此項結論基于SAT成績的數據統計，SAT基準分數為1550分，符合此標準的考生大學一年級GPA及一年后的留存率都更高。此外，數據還證明，那些完成核心課程學習并參加榮譽或大學先修課程(AP)的學生在SAT考試中表現更佳。

信度(Reliability)

信度(reliability)是反映測驗結果受到隨機誤差影響程度的指標，是評價測驗質量的基本指標。高信度是高效度的前提?？荚囎鳛橐话殉咦?，應該具有穩定性和可靠性。如果同一個學生，今天考試得到一個成績，明天考試得到另外一個成績，這把尺子就是不可靠的。當然，像是中國的高考，考察一撥學生在一次考試中的排名，也具有人才選拔的作用。但是，因為高考題目的難度并不穩定，不同年份的高考對于同一個考生而言成績可能并不一樣。而對于SAT這樣一年多次的考試，考試信度非常重要，力求不同月份的考試能同樣測量同學們的能力。所以在理論上，每一次SAT考試的每一個題目都是經過精心測量的，力求總體的一致性，并不存在所謂“一月考題通常都比較難”之類的猜想?？忌赡軙谀炒慰荚囍小案杏X”“閱讀比較難，語法比較簡單”之類。出現這種“感覺”，要么是學生自己的感覺標準問題，要么是本次考題在難度之間有了不均衡的平衡，換言之，感覺閱讀特別難，作為平衡，其他某一項應該會低于常見標準?？傊?，總的難度應該是一致的。而ETS如何**難度的一致呢?從形式上，這是“多一個部分(section)的實驗題目”存在的原因，這個不計入成績的部分，給測算題目難度提供了大量的事實依據。

當然，客觀選擇題目的評分一向都比問答和作文之類的主觀題目更穩定。寫作測試是評價學生綜合語言能力的有效工具，但在作文評分中，評分員容易出現“趨中評分”，即打“中間分”的現象。為了避免此類現象，ETS在題目設計、評分員選擇和統計模型對評分員進行評估等方面都做了很多努力，力求**成績的穩定性和可靠性。SAT的作文采用6分制標準，數據統計表明作文分制標準越大，反而不好清晰界定，人為干擾因素越強。SAT作文每個分制之間界定明確清晰，那怕是兩個老師給出統一分數的概率都很高。此外，ETS對于評分員的選擇、培訓和監管上，都做到了世界一流水平。一位SAT作文的評分員，只能來自美國本土各州，經過選拔和培訓，完成網上閱卷，工作地點遍布美國。評分員網上所審閱的作文，隱匿了應試者的個人信息，原則上，并不存在“壓低亞太區考生作文成績”說法。那么，考生(尤其是2013年下半年的考生)為什么會感覺自己的作文被壓低了成績了呢?出現此種問題的原因有二：1，ETS遇到了越來越多的“八股式”作文，對于這種作文的評分標準已經出現在例行的評分員培訓中，對于這種作文的評分標準趨于統一，渾水摸魚越來越困難;2，考生在兩次SAT考試中用了類似的例子、結構、文筆，兩次成績有差別，主要因為對于文章中心思想的論證(development)有差別。一個例子，碰巧非常契合論證主題，得分就高;同一個例子，換一篇作文，就不一定論證有力，得分自然有差別。在這一點上，還請考生多多審題，平時多積累素材，不要準備“一個例子通天下”。

2014亞洲區SAT

ETS作為測試學的忠實實踐者，秉承科學測試和公平測試原則，SAT題目的設計、測試、評估都極其嚴謹科學，其試題開發周期之長、成本之高超乎大多數人想象，幾乎做到了現有條件下的極致。但是，試題的組織上，尤其題目重復方面，在近些年卻出現了一些問題，有損考試的信度和效度。通常而言，ETS試題的重復使用按照考試本身的初衷和設計來看并無大礙，對College Board而言也是理性的選擇。在法理上，College Board擁有對SAT試題的版權與使用權，在沒有得到它授權時，其他機構，包括個人都不應該擅自搜集、使用或者傳播其題目。當然，他們也有責任**試題的重復使用控制在一定范圍內?？墒牵?014年5月的SAT考試，北美考區和國際考區的題目竟然一致：比如Critical Reading部分中的文章主題一致，Writing部分中的篇章改進題的主題也一致。另外，有證據表明2014年的AP化學北美和中國大陸使用的是同一套試題，我們都知道中國大陸與北美存在12個小時左右的時差。在5月5日考完AP化學的第二天，有考生在移動設備中的一款應用軟件中寫道：“剛考完搜了下看到昨天發的簡答部分回憶簡直驚呆了”，然后學生又寫道“不過我們走的是實力派路線的”。我們可以把這種現狀理解為試題循環使用的極端情況，即循環周期極短以至于同時使用。這在之前難以想象。以往的試題循環往往是國際考區循環使用一年甚至幾年前的某一套北美考區題目。如果某些考生或考試培訓機構試圖希望從中找到“捷徑”無異于危險的賭博，有誰愿意把可能影響自己命運的重要考試寄托在小概率事件上呢?但當在同一時間或者相當短的時間內釋放的考試題目存在一致的可能性很大時，事情就會發生根本性的變化。

作為經驗豐富的考試官方機構，理應考慮競爭性考試的試題循環一定是非常敏感的問題，并且在互聯網科技發達的今天，試題循環所帶來的考試不公的潛在風險將被無限放大。一旦這個微弱的可能性被驗證過一次，就會被再次關注甚至激起狂熱，考試的公平與機會均等的原則就會遭到破壞。我們可以理解，嚴謹的ETS對試題開發流程的關注，更多的精力和成本將被放到新SAT試題開放上，而現行SAT試題的開發力度將被降低，試題重復使用的可能性增加。我們不得不遺憾地說，如果試題循環使用的周期得不到有效的管理和調整，所有的考試相關利益者都是潛在的受害者：考生在考前不是認真備考而是傾向于上網搜索答案“線索”時，何以踐行delivering opportunity的偉大理念?有關考生分數統計的信度和效度又將如何體現?美國大學的招生官們——相關考試分數的使用者，又該如何有效評估這樣的分數，以及如何建立學生之間、不同場次的考試之間分數的權衡標準?對于考試培訓機構而言，行業的使命、價值觀和規范將受到挑戰，行業中誠實的企業和誠實的人的努力將被稀釋。是繼續堅守還是隨波逐流?所有這一切，都對考試的公平，個人的誠信，以及努力獲得收獲等基本理念的挑戰。這些影響遠遠超越了考試本身。在理想與現實、“應然”與“實然”的天平之間，我們的考生將站在何處?這將極大的影響我們未來社會的價值取向，值得我們深刻反省與思考。

收藏0 贊0

分享到：

相關課程