大規模心理測評的發展現狀與趨勢

最新 06-30

婁驥（北京師範大學心理學院）盧莎（北京輔仁淑凡軟體科技有限公司）

摘要：傳統的測評方式由於量表的整體性、測評時間過長、測評理論的局限性等因素會影響測評的精確性和效率，已在大規模心理測評中逐步淘汰。研發精確、高效的測評工具已成為大規模心理測評的當務之急，通過以維度為單位組成測評問卷、應用IRT理論篩選高質量的測評題目、採用CAT的測評方法等途徑對測評工具進行更新，即可在很大程度上提高測評效率。

關鍵詞：大規模心理測評；傳統測評的局限；高質量題目；測評方法

一、大規模心理測評適應現代測評的發展需求

隨著心理學在國內的發展，心理學的兩大分支：心理諮詢和心理測評在國內得到了比較廣泛的發展和應用。心理測評的應用主要體現在大規模心理測評和輔助心理諮詢的過程中。大規模心理測評是由數千人、萬人進行的心理測評，主要應用在心理健康管理和人才管理兩個領域，例如，心理健康管理領域的學校心理普查、企業和醫院的心理體檢等方面；人才管理領域的人才選撥、人才晉陞、特定人群的素質測評（如：學生的學業綜合測評、領導幹部素質測評）等方面。

1.全方位、多特質的心理測評

根據麥克利蘭的素質冰山模型（1973），個體的心理素質包括可觀察的「冰山以上部分」，也就是外顯的知識和技能，以及深藏內隱的「冰山以下部分」，也就是個體的動機、個性特點、自我概念和社會角色等。冰山以上的部分可通過技能測評等方式進行了解，而冰山以下的部分則需要藉助心理測評工具才能夠在短時間內被人了解，而此部分的內容遠遠要比冰上以上外顯行為包含的內容更廣。在現實的大規模心理測評時，就往往涉及到關於個體整體心理狀態的全面測評，包含範圍：心理健康管理一般包括基本心理健康狀況篩查、個性態度、社會歸屬性、職業活力、壓力應對方式等多個方面；人才管理一般包括個體基本的心理健康狀況、崗位勝任能力、職業價值觀、個性態度、職業興趣等方面。而這些方面又可細化為更加具體的維度，例如，每個人從事某個職業的動機是不同的：追求成就、社會地位、管理支配、經濟報酬、智力挖掘、人際關係、穩定等。可見，在大規模心理測評中往往要對人的很多特質進行全方位的綜合測評。

2.心理測評的精確性

對上千人、萬人進行大規模心理測評時，施測者沒有二次機會了解受測者，因此需要測評能夠更加精確的估計出受測者的特質，同時要能夠很好的識別無效作答、隨意作答、虛假作答等情況的受測者，以保證不會影響整體的測評結果。另外，在整個施測過程中的誤差要減小，受測者的疲勞狀態、測評程序的不穩定性等情況都會造成一定的測量誤差，此時我們就很難評估受測者之間的個體差異。可見，大規模心理測評的精確性是至關重要的問題，需要研究者在開發高質量的施測題目、篩選有針對性的維度、嚴格控制整體的施測流程等方面加以考慮和控制。

面對大規模的施測樣本，需要降低測評系統題目的曝光率，也就是說呈現給每個受測者的題目是不同的，一方面避免了受測者傳播題目的作弊行為，另一方面保護測評系統的可持續使用。

3.心理測評的施測過程方便快捷

大規模心理測評中成千上萬的受測者往往來自全國各地，有時很難集中施測，因此藉助計算機互聯網的方式進行施測是大規模心理測評的有利條件，不會受到地域、施測時間等方面的限制。

另外，針對兒童的測評課藉助計算機的方式實現文字、語音、圖畫、錄像等多種方式的結合，生動趣味性的測評方式更能吸引兒童的注意力；並且，統一的說明語、演示流程、施測流程等方面能夠很好的消除主試對兒童測評結果的影響，最大化的減小測評誤差，提高測評的精確性。

二、大規模心理測評的現狀

目前關於大規模心理測評的需求有很多，但是其理論基礎、實現方式等方面有諸多的局限性阻礙了大規模測評的發展和應用。主要體現在以下幾個方面：

1.心理測評的效率低、資源浪費

在進行大規模心理測評時往往要對受測者施測多套經典量表，以全面的評估個體的心理發展狀況。但此種情況存在諸多的局限：

在使用多套量表施測的情況下，受測者必須完成每個量表的所有題目之後才可對結果進行一一比較和解釋，題目的曝光率很高，而且不同量表的評價標準不一，量表之間不能比較；

多套量表施測則意味著題量大、作答時間長，受測者往往會因此出現不良情緒，影響作答效率。寬窄網的研究人員曾對三萬人的施測過程進行研究，結果發現，大約在測評進行20分鐘時，15%的受測者會出現疲勞、煩躁等不良情緒，測評進行30分鐘時，24%的受測者會出現不良情緒，從而出現隨意作答、不作答等情況，造成測評的效率低。

另外，多套量表施測有時會有部分維度重複，甚至是不需要施測的維度，就會造成測評資源的重複和浪費，而且還會影響後期的數據錄入和清理，又會有大量的時間、人工成本的浪費。

2.經典測量理論的局限

經典量表按照固定的順序施測全部題目、綜合所有的題目得出常模和評價，其理論基礎為經典測量理論（CTT）。其假設包括：個體的心理特徵具有穩定不變性，每個個體做測評時的誤差都是隨機的，測評分數就是個人的穩定的心理特徵和測評誤差之和，因此測量的目的在於減少測量誤差，而能夠較為準確的得出個體的心理特徵值。在此理論的基礎上建立了信度、效度、難度、區分度等指標用來評價測評量表的質量。

但CTT理論有其局限性：受測者的能力是通過單純得分的累加得出的，而沒有考慮題目難度、區分度等因素；測量誤差不精確，因為每個人的測評誤差大小不一，其測量的精確性有待提高；測量統計指標的制定依賴抽樣的變動，抽樣偏差、抽樣樣本大小等因素均會影響測評的指標；受測者的能力與難度指標含義不同，無法相互解釋；量表以固定的題目和順序呈現，計分方式等不統一，因此非同一份量表的受測者無法比較。CTT理論的種種局限性導致測評量表的精確性、測評效率很容易受到影響。

三、大規模心理測評的發展方向

1.以維度為單位重組測評工具

大規模心理測評要求全方位的評估受測者的心理特質，需要研發更具有針對性、精確性的測評工具。

打破測評以量表為單位的觀念，編製以維度為單位的測評工具。以維度的方式進行組卷，需要對維度進行不同層次的劃分。不同層次的維度之間保持獨立性，相同層次的維度可保持一定的相關性，例如：社會支持和職業活力屬於兩個獨立的層次，兩者之間需要有很好的獨立性；而抑鬱和焦慮是心理健康方面的兩個相同層次的維度，應具有較低程度的相關。每個不同層次的維度均是測量個體的單一心理特質，這樣就可以根據受測者的特點和需求有針對性的篩選測評維度，不會導致出現多餘的測評維度。

2.引進先進的測評理論和方法

CTT理論作為測量的經典理論，已經暴露出諸多的局限，需要我們引進新的測量理論來進行更加精確的測量。

（1）項目反應理論（IRT）

IRT是針對CTT理論的不足而發展起來的測量理論，目的在於以更加精確的方法檢測題目的質量，並且以最小的測量誤差編製量表。

IRT理論針對單個題目進行數據分析，而不是針對每位受測者，因此每個題目均需要有大量的數據做支撐；每個題目經過數據分析均會有對應的項目反應特徵曲線，反映出此題目的區分度、難度、猜測係數等檢測題目質量的指標，題目編製者即可根據這些指標來判斷此題目的質量。例如，某題目應用IRT理論中的雙參數模型計算得出的項目反應曲線如圖1所示，此題目的區分度a為1.804，b為0.568，均在接受範圍。

圖1 某題目的項目特徵曲線圖

另外，IRT可做到既對每個題目單獨進行分析，也會對整套問卷進行整體分析（測量信度、模型擬合度等）。並且，IRT理論對整套量表的評價分析要全面、準確的多，郭慶科等（2005）的研究發現其信度指標比CTT的信度指標更加準確合理。

（2）計算機自適應測評（CAT）

CAT測驗是在IRT理論的基礎上進行的計算機化施測過程，目的在於根據受測者的能力水平反覆在測評題庫中抽選與受測者能力接近的題目，最終對其進行精確的估計，真正實現對受測者的「量體裁衣」。

CAT測驗建立在大量的測評題庫、用IRT理論進行題目分析的基礎之上。一方面，要求在每個維度上有大量題目組成的題庫；另一方面，此題庫中包含等級呈正態分布的題目，並且每個等級下的題目均要求具有等值性。滿足此兩個條件後就可以進行具體施測了，系統會根據受測者對某個題目的反應初步估計出其能力，然後挑選更難/容易的題目給受測者，反覆循環此過程，達到測量誤差最小或者固定題目數的時候自動停止測評，此時受測者的能力即為正確作答的最難題目所對應的能力。此種方式能夠動態的逐步精確受測者的能力。例如：兒童智力成分測評系統的設計框架圖示及施測過程如下：

圖2 兒童智力成分測評系統CAT流程簡圖

結合圖2可知此系統的整體施測過程包含以下幾步：第一步，兒童登陸測評系統，填寫個人的基本信息，開始測評；第二步，系統會根據兒童的年齡、性別等信息，在大量的題庫中抽取出初始題目，要求兒童作答；第三步，根據兒童對題目的作答情況，評估兒童的能力水平；第四步，根據上一題對兒童能力的評估情況抽選更接近兒童潛在能力水平的題目；第五步，重複三四步的過程，一直到達到終止條件，即可得出測評結果，結束測評。此時，兒童所能作答的最難題目即可反映齣兒童的潛在能力水平。

IRT和CAT的應用可以達到以下目的：a.可以使題目質量更好，每個題目均經過詳細的檢測和分析，包含的信息量較多；b.根據受測者的能力自動在題庫中選擇相應等級的題目，用較少的（部分）題目即可精確的評定受測者的能力；c.不同的受測者測評時使用不同等級、不同信息量的題目，這樣受測者只可看到自己作答的測評，無法猜測別人的測評題目，題庫中題目的曝光率較低，可以有效的保護測評系統的重複使用性；d.CAT測驗需使用計算機才能進行，比紙質測評更加節省人力和物力；另外，如果與網路相結合，即可克服了心理測評的地域局限性、時間性等因素，實施起來也會更加方便快捷。

3.提高題目質量

當測評題目編製後，需要對測評題目進行系統的分析，以確定此題目具有較高的質量。分析過程包括如下幾步：

（1）通過專家判斷、典型被試判斷等方式確定在題目的內容上能夠反映出所要測評的心理特質的內涵；分析題目的選項是否分布均勻，以確保不會出現許多受測者選擇同一個選項或某一個選項不會有人選擇的現象；另外，需要確定題目的表述清晰、語義單一無歧義等。

（2）題目載荷較高，具有單維性。以維度為單位進行心理測評，需要不同的維度之間具有較低的相關，確保此維度測量的單一特質，而不是其他相關較高的心理特質；在單維性的基礎上挑選題目載荷較高，也就是對維度總分貢獻率較高的題目。

（3）使用IRT理論對維度的每一個題目進行分析，挑選質量較高的題目。根據每個題的特點，例如：記分等級、選項特點、測驗類型、測評誤差等影響因素選擇對應的分析模型（單參數模型、雙參數模型、三參數模型、其他參數模型），以分析每個題目的信息量（難度、區分度、猜測度、測量誤差）。

（4）量表的理論模型與數據的擬合度好，並且具有較高的信度。以心理特質的理論模型為基礎編製量表、收集數據，因此需要檢驗量表數據與心理特質的理論模型是否擬合，具有較高擬合度時則說明理論模型、量表、數據具有高度的一致性。另外，良好的信度是保證量表可靠性的重要指標。

4.優化測評施測體系

當我們有高質量的施測題目、先進的施測方法時，需要藉助現代化的計算機互聯網幫助我們進行最優化的測評。

（1）計算機化測評。針對CAT測驗的要求，所有題目採用計算機施測的方式，在每個維度上隨機動態的抽取有針對性、相匹配的題目進行施測，用較少的題目進行測評，從而做到快速方便、精確的評估受測者的能力水平。

（2）網路化測評。此測評過程相比較於傳統經典量表紙質或計算機施測更加方便快捷。首先，施測過程不會受受測者地域、時間等方面的限制，更加節省人力物力。其次，網上收集數據的過程不僅方便快捷，而且只有受測者做完測評就可以及時的收集到所需的數據，具有很高的實時性。最後，網上收集數據的過程可以藉助計算機幫助我們記錄更多的受測者信息，數據可批量導出，省去了後期進行數據錄入的工作，並進行一定程度的數據清理工作，為數據分析節省了人力。

四、總結

針對大規模心理測評的特點和需求，傳統經典量表已經難以滿足，面對此考驗，必須研究新的測評理論和應用先進的測評方法。

無論是何種測驗，編製高質量的測驗題目至關重要。運用IRT理論對題目進行質量分析和篩選相比較於CTT理論更加精確和詳細。CAT測驗的實施能夠保證測驗的精確性、高效性。另外，以維度為單位進行測評重組的方式能夠一定程度的克服傳統經典量表維度重複、題量大、評價標準不一導致不同量表沒有可比性的問題。最後，結合計算機互聯網的方式進行測評是現在大規模測評的有效支持。

參考文獻

[1]郭慶科.情感能力測驗的編製與項目反應理論的應用[D].北京師範大學,2003.

[2]朱寧寧,張厚粲.CTT與IRT方法對人格測驗結果處理的比較研究[J].心理學探險.2003,23(3):48-51.

[3]謝敏,劉娟.提高大規模教育測評效果的途徑之一：簡化測評工具[J].心理技術與應用.2014,2:28-31.

[4]漆書青,戴海琦,丁樹良.現代教育與心理測量學原理[M].高等教育出版社.

[6]郭慶科,陳英敏,孟慶茂.自陳量表式測驗應用IRT的可行性[J].心理學報.2005,37(2):275-279.

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 輔仁淑凡心理 的精彩文章:

TAG:輔仁淑凡心理 |

您可能感興趣

※儲能發展現狀與趨勢分析
※儲能技術與產業現狀及發展趨勢
※艦載戰鬥機現狀與發展趨勢
※傳媒技術發展與趨勢大總結
※國內新型抗體藥物研發現狀和發展趨勢
※中國直銷化妝品產業發展現狀與趨勢
※以新發展理念推動高質量發展
※木製傢具市場規模現狀木製傢具發展趨勢分析
※邊緣計算的發展趨勢
※行為驅動測試歷史發展與現狀
※增強現實產業鏈分析和未來發展趨勢預測
※多媒體技術研究：類腦計算的研究進展與發展趨勢
※小程序的現狀和未來發展
※新的實驗發現了影響自然形狀發展的因素
※科大訊飛執行總裁胡郁：自然語言處理的發展現狀及趨勢
※新技術新成果不斷湧現感測器產業發展態勢良好
※共享經濟的發展趨勢
※中國經濟高質量發展離不開綠色發展理念
※慢性病的發展規律
※感測器的發展趨勢是什麼？