基礎心理學

心理 10-25

第五章心理測量學知識（複習概要）

#重點考試最後幾個大題必出！！！#

§ 第一節概述 §

第一單元測量與測量量表

一、什麼是測量：就是依據一定的法則用數字對事物加以確定。

▲測量的元素包括：①事物；②數字；③法則。

*所謂事物：①測量的對象。②就是引起我們興趣的事物的屬性或特徵。③是心理現象的外顯行為。

*所謂數字具有自然數的：①區分性；②等級性；③等距性；④可加性。

*所謂法則：①測量所依據的規則和方法。②心理測量較難設計清晰而良好的法則。

二、測量要素

▲任何測量都應該具備的要素是：①參照點；②單位。

（一）參照點：參照點就是確定事物的量時，計算的起點。有兩種：①絕對零點；②相對零點。參照絕對零點可加減乘除，參照相對零點只能加減（心理測量採用相對零點）。

（二）單位：好的單位必須具備兩個條件：①確定的意義；②相同的價值。心理現象既沒有確定的意義，也沒有相同的價值。心理測驗的結果是有誤差的，要用區間來解釋，而不是用點來解釋。

三、測量量表：

在一個定有單位和參照點的連續體上把事物的屬性表現出來。

▲斯蒂文斯根據量表的精確程度，分為：①命名量表→②順序量表→③等距量表→④等比量表。

（一）命名量表：是測量水平最低的量表形式，只是用數字來代表事物或把事務歸類。用1代表男，用2代表女等。

（二）順序量表：比命名量表水平高，數字不僅指明類別，同時指明類別的大小或屬性程度。我們通常將學生的考試結果按名次排隊，這些名次屬於順序變數。在順序量表中，變數具有等級。

（三）等距量表：比順序量表進一步，有相等的單位，其數值可以相互做加減運算；但沒有絕對零點，因此不能做乘除運算。0℃並不意味著沒有溫度，這種說法對。

（四）等比量表：最高水平量表，有相等單位又有絕對零點，所得的數字可以做加減乘除運算。其數值可以進行加、減、乘、除運算的量表是等比變數。

▲一般說來，心理測量是在順序量表上進行的，主要用於分等級和排序。

第二單元心理測驗的基本概念

一、心理測驗的定義

▲正確的說法是，心理測驗，就是依據心理學理論，使用一定的操作程序，通過觀察人的少數有代表性的行為，對於貫穿在人的全部行為活動中的心理特點做出推論和數量化分析的一種科學手段。

▲①測量對象是人的行為；②選取的是行為樣本；③測量要標準化；④測量要有常模。

▲常模的功用：給測驗分數提供比較的標準，即提供某一標準化的樣組在某一測驗上的平均分數和分數的分布情況。

二、心理測驗的性質：①間接性；②相對性；③客觀性。

▲影響心理測量客觀性的要素是：①測驗刺激的客觀性；②對反應的量化的客觀性；③對測驗結果的推論的客觀性。~~測驗的客觀性~~~~不包括絕對的標準~~~~的客觀性~~。

第三單元心理測驗的分類

一、按測驗的功能分類

1、智力測驗：①比內-西蒙智力測驗；②斯坦福-比內智力量表；③韋克斯勒兒童和成人智力量表。

2、特殊能力測驗：如音樂、繪畫、機械技巧以及文書才能測驗。

3、人格測驗：①明尼蘇達多相人格測驗(MMPI)；②卡特爾16種人格因素問卷(16PF)；③艾森克人格問卷（EPQ）。

二、按測驗材料的性質分類

①文字測驗：優點是測驗方便，如團體測驗；缺點是易受文化程度影響，不同教育背景人使用時，效果低。

②操作測驗（非文字測驗）：如瑞文測驗。優點是不受文化因素限制；缺點是不宜團體實施，時間上不經濟。

▲文字和操作測驗相結合的有：①比內-西蒙智力量表；②韋克斯勒的三套智力量表。

三、按測驗材料的嚴謹程度分類

①客觀測驗；絕大多數心理測驗都是。

②投射測驗：刺激材料沒有明確意義，對被試反應沒有明確規定的心理測驗。

①羅夏測驗。②主題統覺測驗 (TAT) 。③自由聯想測驗。④句子完成測驗。

四、按測驗的方式分類：

①個別測驗；

②團體測驗：始於一戰，陸軍甲種和乙種智力測驗是第一個團體測驗。也可用於個體測驗。

五、按測驗的要求分類：。

（1）最高行為測驗：①儘可能做出最好的回答。②主要與認知過程有關。③如智力測驗、成就測驗。

（2）典型行為測驗：①按通常的習慣方式做出反應。②沒有正確答案。③如各種人格測驗。

第四單元糾正錯誤的測驗觀

一、錯誤的測驗觀

錯誤的測驗觀包括：①測驗萬能論；②測驗無用論；③心理測驗即智力測驗。

二、正確的測驗觀

正確的測驗觀包括：①心理測驗是重要的心理學研究方法之一，是決策的輔助工具；②心理測驗作為研究方法和測量工具尚不完善。

第五單元心理測驗在心理諮詢中的應用

心理門診中運用的心理測驗：①智力測驗；②人格測驗；③心理評定量表。

一、智力測驗

*龔耀先的韋氏智力量表包括：①韋氏成人（WAIS-RC）；②韋氏兒童（C-WISC）；③韋氏幼兒（C-WYCSI）。

*吳天敏的中國比內量表。

*張厚粲的瑞文標準型測驗（SPM）。李丹的聯合型瑞文測驗（CRT）。

二、人格測驗（EPQ、MMPI、16PF）

三、心理評定量表：

①精神病評定量表。躁狂狀態評定量表。抑鬱量表。焦慮量表。恐怖量表。

②此類量表用法及評分簡便，多用於檢查對方某方面心理障礙的存在與否或其程度，並可反映病情的演變。

第六單元心理測驗的發展史

【專欄5-1】中國古代的心理測驗思想

一、科學心理測驗的產生與發展

▲英國生物學家和心理學家高爾頓的主要貢獻有：①提出人的不同氣質特點和智能是按身體特點的不同而遺傳的；②為了研究差異的遺傳性，設計了測量差異的方法；③為心理測驗奠定了統計學基礎，④第一個提出了相關的概念。(首先倡導科學心理測驗的學者) ~~不正確的是~~~~：創立積差相關法~~。

▲美國心理學家卡特爾對促進心理測驗發展做出的巨大貢獻是：①使心理測驗首次出現於心理學文獻中；②認為心理學應立足於實驗和測驗；③認為心理測驗應有統一的標準。

▲比內（A.Binet）編製了世界上第一個正式的心理測驗。

▲20世紀以後，心理測驗在如下幾方面取得了長足發展：①操作測驗；②團體智力測驗；③能力傾向測驗；④人格測驗。

二、現代心理測驗在我國的發展

近些年來，我國心理學家正在致力於心理測驗的本土化研究。

§ 第二節測驗的常模 §

第一單元常模團體

一、常模團體的性質

▲常模團體是由具有某種共同特徵的人所組成的一個群體，或者是該群體的一個樣本。

▲常模團體的選擇一般包括：①確定一般總體；②確定目標總體；③確定樣本。

二、常模團體的條件

①群體構成必須明確界定；②對群體具有代表性（所測群體）；③樣本的大小要適當；④具有新近性（標準化樣組是一定時空的產物）。~~抽樣方法~~~~不是常模團體的條件~~。

▲實際工作中，樣本量大小適當須從如下幾方面考慮：①經濟；②實用；③減少誤差。

▲常模樣本量的大小，一般最低不小於30或 100。全國性常模，樣本量一般要在2000～3000之間。樣本大小適當的關鍵是樣本要有代表性。

三、取樣的方法

1、簡單隨機抽樣：是指從目標人群中隨機選擇有代表性的樣本。

2、系統抽樣（等距抽樣）：①目標總體無序可排；②無等級結構存在。關鍵是計算組距。

3、分組抽樣：①先將群體分組，②再在組內進行隨機取樣的方法。

4、分層抽樣（最常用）：

①先目標總體按某種變數分層。②再從各層中隨機抽取若干受測者。③最後把各層的受測者組合成常模樣本。

四、常模分數與常模

（一）常模

常模：是一種供比較的標準量數，心理測驗時用於比較和解釋測驗結果的參照分數標準。

▲常模按樣本的大小和來源：①全國常模、②區域常模、③特殊常模。

對於某些特殊的群體來說，情況很具體而特殊，我們就需要制定特殊常模。

▲根據具體應用標準和分數特徵：①百分位常模、②標準分常模。

（二）常模分數（導出分數）：

▲常模分數是施測常模樣本後，將被試者的原始分數按一定規則轉換出來的導出分數。

▲導出分數的特性：①與原始分數等值；②具有意義；③等單位；④具有參照點。

第二單元常模的類型（4類）

①發展常模。②百分位常模。③標準分常模。④智商。

一、發展常模（年齡量表）：①發展順序量表。②智力年齡。③年級當量。

在年齡量表中：個人的分數指出了他的行為在按正常途徑發展方面處於什麼樣的發展水平。

（一）發展順序量表（最直觀）：

▲發展順序量表可以告訴人們某兒童的發育與其年齡相比：①超前；②滯後；③正常。

▲葛塞爾發展程序表：最早的一個發展順序量表。

▲按月份顯示兒童的大致發展水平：①運動水平；②適應性；③語言；④社會性。

▲皮亞傑的研究：4周能控制眼睛去追隨一個對象。16周的嬰兒能使頭保持平衡。28周能用手抓握東西。40周能控制軀幹，坐立或爬行。52周能站立和行歨。

▲皮亞傑其中最著名的就是對守恆概念的研究。兒童在不同時期出現不同的守恆概念， 5歲時才會理解質量守恆；6歲時才會掌握重量守恆；7歲時才具有容量守恆概念。

▲年齡量表最基本的假設：所測量的特質隨年齡有系統地改變。

▲年齡量表的基本要素是：①一組可以區分不同年齡組的題目；②一個常模團體；③常模表。

（二）智力年齡（智齡）：

兒童在年齡量表上能代表他的智力水平的年齡分數。

▲比內一西蒙量表中首先使用智力年齡的概念。

▲智齡：①是年齡量表上衡量智力的單位。②是一個分數。③與實際年齡不一定相符。

▲智齡有兩種使用方法：

①在吳天敏修訂的比內一西蒙量表中，每題智齡2個月。某兒童通過了 4歲組的全部題目，5歲組通過3題，6歲組通過2題，7歲組通過1題，其智齡為5歲。（4歲 3題*2月 2題*2月 1題*2月）=5歲；

②不把題目分到各年齡組。而將標準化樣本中每個年齡組的平均原始分數作為年齡常模，把原始分數與年齡常模對比，便得出每個人的智齡。

（三）年級當量（教育成就測驗中最常用）：

▲常模樣本中6年級的算術平均分為35，某兒童測驗中得35分，即該兒童算術年級當量是6年級水平。

二、百分位常模：①百分等級；②百分點；③四分位數；十分位數。

（一）百分等級（運用最廣）：

①一個測驗分數的百分等級是指在常模樣本中低於這個分數的人數百分比。②個體在常模團體中所處的位置，百分等級越低，個體所處的位置就越低。③分數越高，等級越高。

▲55的百分等級表示在常模樣本中有55％的人比這個分數低。王紅在30名同學中物理成績是 80分，排列第五名，則其百分等級為85。（25/30）

（二）百分點（百分位數）：

①是計算處於某一百分比例的人對應的測驗分數是多少。②是一個具體數值。

▲高考的最高分為650，其百分等級為100，最低分為105分，百分等級為1，要錄取20％的學生進入大學，百分等級為80的百分位數540。

▲百分位常模：通過雙向方式編製的原始分數與百分等級的對照表。

*其中雙向方式編製指：原始分數可以計算百分等級，百分等級可以確定原始分數。

（三）四分位數和十分位數：

▲四分位數：將量表分成四等份，相當於百分等級的25％、50％和75％對應的三個百分數分成的四段。

▲十分位數：1％～10％為第一段，91%~100%為第十段。

三、標準分常模：

將原始分數與平均數的距離以標準差為單位表示出來的量表。

▲標準分數：①基本單位是標準差。②可以通過線性轉換和非線性轉換得到。

（一）線性轉換的標準分數

z＝（X—x?）/SD （公式5-1）

▲①z為最典型的線性轉換的標準分數。②SD為樣本標準差。③X為任一原始分數。④x?為樣本平均數。

Z＝A＋Bz （公式5-2）

▲①Z為轉換後的標準分數。②A、B為根據需要指定的常數（加上一個常數A是為了去掉負值，乘以一個常數B是為了使單位變小從而去掉小數點）。③A是平均數常數。④B是標準差常數。

▲常用標準分數對照表：

（二）非線性轉換的標準分數

▲當原始分數不是常態分布時，可以通過非線性轉換使之常態化。

▲常態化過程：原始分數→百分等級→常態分布上對應的標準分數。

▲計算步驟如下：①對每個原始分數值計算累積百分比。②在常態曲線面積表中，求出對應於該百分比的z分數。可以表示為任何平均數和標準差。

四、智商及其意義（IQ）

▲最早的比內-西蒙智力測驗是用「心理年齡MA」來表示受測者智力的高低。若兒童的心理年齡高於其生理年齡，則智力較一般兒童高；若心理年齡低於其生理年齡，則智力較一般兒童低。但在實踐中發現，單純用心理年齡來表示智力高低的方法缺乏不同年齡兒童間的可比性。

▲比內-西蒙智力測驗的發展：心理年齡→比率智商→離差智商。

（一）比率智商：

IQ＝（MA／CA）×100 （公式5-3）

▲①MA為心理年齡。②CA為實足年齡。③為避免小數，故將商數乘以100。

▲由於個體智力增長是一個由快到慢再到停止的過程，即心理年齡與實足年齡不同步增長，所以比率智商並不適合於年齡較大的被試者。

（二）離差智商（韋克斯勒，是一種標準分數）

IQ＝100十15（X－x?）／SD （公式5-4）

▲①100為平均數。②15為標準差。③X為受測者的量表分數。④x?為受測者所在年齡水平的平均量表分數。⑤SD為這一年齡水平受測者的量表分數的標準差。

▲離差智商的優點是：①建立在統計學的基礎之上；②表示的是個體智力在年齡組中所處的位置；③表示的是智力高低的一種理想的指標。

▲從不同測驗獲得的離差智商只有當標準差相同或接近時才可以比較。

【專欄5-2】幾種導出分數間的相互關係

▲84的百分等級相當於：①1.00的z分數；②60的T分數；③115的韋氏離差智商分數；④600的CEEB。

▲2的百分等級相當於：①-2.00的z分數；②30的T分數；③70的韋氏離差智商分數；④300的CEEB。

第三單元常模分數的表示方法

一、轉換表法

▲最簡單而且最基本的表示常模的方法就是轉換表，有時也叫常模表。

▲測驗者利用轉換表可將原始分數轉換為對應的導出分數，從而對測驗的分數做出有意義的解釋。

二、剖面圖法:

將測驗分數的轉換關係用圖形表示出來，很直觀地看出被試者在各個分測驗上的表現及其相對的位置。

§ 第三節測驗的信度 §

第一單元信度的概念

一、信度的定義

在不同時間內用同一測驗（或用另一套相等的測驗）重複測量同一被試者，所得結果的一致程度。

▲信度只受隨機誤差的影響。隨機誤差越大，信度越低。

▲信度不受系統誤差的影響。

二、信度的指標

（一）信度係數與信度指數

▲信度是以信度係數為指標，是一種相關係數。信度係數=信度指數2。

（二）測量標準誤：

▲理論上我們對一個人進行無數次測驗，其平均數就是這個人的真分數，而標準差則為測量誤差大小的指標。

SE＝Sx√1?Rxx （公式5-5）

▲①SE為測量的標準誤，②Sx是所得分數的標準差，③r_xx為測驗的信度係數。

▲測量的標準誤與信度之間是互比消長關係：①信度越低，標準誤越大；②信度越高，標準誤越小。

第二單元信度評估的方法

估計信度的方法一般有：①重測信度；②複本信度；③內部一致性信度；④評分者信度。

一、重測信度（穩定性係數）：

使用同一測驗，在同樣條件下對同一組被試者前後施測兩次測驗，求兩次得分間的相關係數。

▲用重測法估計信度：一般是2～4周較宜，間隔時間最好不超過6個月。

▲重測法估計信度的優點：能提供有關測驗是否隨時間而變化的資料，可作為受測者將來行為表現的依據。

▲重測法估計信度的缺點：易受練習和記憶的影響。

二、複本信度（等值性係數）

以兩個等值但題目不同的測驗（複本）來測量同一群體，然後求得被試者在兩個測驗上得分的相關係數。

①反映的是測驗在內容上的等值性。②同一時間施測才是不同等值測驗之間的關係，不受時間影響。

▲複本信度的優點：能避免重測信度的一些問題：記憶效果、學習效應。

▲複本信度的缺點：①如果測量的行為易受練習的影響，則複本信度只能減少而不能完全消除這種影響；②由於第二個測驗只改變了題目的內容，已經掌握的解題原則可以很容易地遷移到同類問題；③對於許多測驗來說，建立複本是十分困難的。

▲重測複本信度（穩定與等值係數）：①兩個不同的複本間隔一段時間分別進行施測。②是更為嚴格的信度考察方法，廣泛使用。

三、內部一致性信度：①分半信度。②同質性信度。

▲重測信度和複本信度VS 內部一致性信度：①前者考察了測驗跨時間的一致性（穩定性）和跨形式的一致性（等值性）。②後者主要反映了題目之間的關係，表示測驗能夠測量相同內容或特質的程度。

（一）分半信度：

①採用分半法估計所得的信度係數。②只需一種測驗形式，實施一次測驗。

▲分半信度通常是在測驗實施後將測驗按奇、偶數分為等值的兩半，並分別計算每位被試者在兩半測驗上的得分，求出這兩半分數的相關係數。這個相關係數就代表了兩半測驗內容取樣的一致程度。

（二）同質性信度：

同質性信度主要代表測驗內部所有題目間的一致性。

四、評分者信度：用於測量不同評分者之間所產生的誤差。

▲一般要求在成對的受過訓練的評分者之間平均一致性達到0.90以上，才認為評分是客觀的。

▲多個評分者評定多個對象，並以等級法記分時，可採用特定公式去估計評分者信度。

第三單元信度與測驗分數的解釋

一、解釋真實分數與實得分數的相關

*信度係數的正確解釋：①總的方差中有多少比例是由真實分數的方差決定。②rxx=1.00，表示完全沒有測量誤差。③rxx=0，則所有的變異和差別都反映的是測量誤差。④信度係數的分布是從0.00~1.00的正數範圍，代表了從缺乏信度到完全可信的所有狀況。

二、確定信度可以接受的水平

*信度係數水平：(*新編的測驗信度應高於原有的同類測驗或相似測驗。)

三、解釋個人分數的意義：

①估計真實分數的範圍；②了解實得分數再測時可能的變化情形。③通過應用測量標準誤去體現。

*測量標準誤可通過第一次測驗的結果及信度得到：

SE＝Sx√1?Rxx （公式5-6）

▲①SE為測量的標準誤，②Sx是所得分數的標準差，③r_xx為測驗的信度係數。

*真分數的置信區間：①真分數的可能範圍。②一般採用95%的概率水平。

*置信區間為：

X－1.96SE ＜X_T≤X＋1.96SE （公式5-7）

▲「大約有95％的可能性真分數落在所得分數±1.96SE的範圍內，或有5％的可能性落在範圍之外」。

四、比較不同測驗分數的差異：

比較包括兩個人不同分數的差別和同一受測者在兩個測驗上的差別。

*差異分數的標準誤公式為：

SEd=S （公式5-8）

▲①SEd為差異的標準誤，②S代表兩個測驗使用的標準差（要求這個標準差必須相同）。③r_xx、r_yy分別為兩個測驗的信度係數。

▲甲在WAIS-RC中言語智商為102，操作智商為110。已知兩個分數都是以100為平均數，15為標準差的標準分數。若言語測驗和操作測驗的分半信度分別為0.87和 0.88，那麼甲的操作智商不顯著高於言語智商。

①SEd=7.5。②1.96*7.5=14.7。③兩半得分差異高於14.7時，才達到5%顯著水平。④而110-102=8，不顯著。

第四單元影響信度的因素（4種）：

①樣本特徵。②測驗長度。③測驗難度。④時間間隔。

一、樣本特徵

（一）樣本團體異質性的影響：

▲一般而言，若獲得信度的取樣團體較為異質的話，往往會高估測驗的信度。取樣團體較為同質的話，往往會低估測驗的信度。

（二）樣本團體平均能力水平的影響：

▲對不同水平的團體，題目具有不同的難度，每個題目在難度上的微小差異累計起來會影響信度。

▲在斯坦福-比內量表中，不同年齡和不同難度水平的信度從0.83~0.98不等。

▲每個信度係數都要求有對建立信度係數的團體的描述（年齡、性別、文化程度、職業等同質的亞團體）。

二、測驗長度（測題的數量）

▲一般來說，在一個測驗中增加同質的題目，可以使信度提高。

①測驗越長，測驗的測題取樣或內容取樣就越有代表性；②測驗越長，被試者受猜測因素的影響就越小；

③遵循報酬遞減原則，測驗太長，有時反而會引起被試者的疲勞和反感而降低可靠性。

三、測驗難度

▲難度對信度的影響：①只存在於某些測驗中，如：智力測驗、成就測驗、能力傾向測驗等；②不存在難度的測驗：人格測驗、興趣測驗、態度量表等。

▲難度和信度的關係：①沒有簡單的對應關係。②對於不同平均能力水平的團體，題目的難度會影響信度係數。③若測驗對某團體太難或太易，則分數範圍將縮小，從而使信度降低。

四、時間間隔

①只對重測信度和不同時測量時的複本信度（重測複本信度）有影響。②以再測法或複本法求信度，兩次測驗相隔時間越短，其信度係數越大。

[專欄5-3] 信度的特殊問題

一、速度測驗的信度：

▲對於速度測驗，不存在評分者信度，也無法計算同質性信度，而重測信度和複本信度均可按傳統的方法求得，只有分半信度不能按傳統方法估計。

二、分測驗的信度：

▲因為信度與測驗長度有關，分測驗分數幾乎可以肯定不如合成分數可靠。

§ 第四節測驗的效度 §

第一單元效度的概念

一、效度的定義

所測量的與所要測量的心理特點之間符合的程度，即一個心理測驗的準確性。科學測量工具最重要的條件。

▲測驗的效度誤差：①受隨機誤差影響。②受系統誤差的影響

▲可信的測驗未必有效，有效的測驗必定可信。

二、效度的性質：①相對性。②連續性。

▲效度的相對性：在評鑒測驗的效度時，必須考慮測驗的目的與功能。

▲效度的連續性：①評價測驗不說「有效」或「無效」，而用效度較高或效度較低。②效度是針對測驗結果的。

[專欄5-4] 信度和效度的關係

①信度是效度的必要而非充分條件；②效度是受信度制約的（效度不超過它的信度的平方根）。

第二單元效度評估的方法

美國心理學會在1974年《教育與心理測量之標準》將效度分為①內容效度；②構想效度；③效標效度。

一、內容效度

（一）什麼是內容效度（測驗的效度與測驗內容有關）：

測驗題目對有關內容或行為取樣的適用性，即該測驗是否是所欲測量的行為領域的代表性取樣。

▲要編製較高內容效度：①對所測量的心理特性有明確的概念，並划出哪些行為與這種心理特性密切相關。②測驗題目應在界定內容範圍內有代表性。③內容範圍須進行系統分析（將該範圍區分細目，並對每個綱目作適當加權，再根據權數從每個綱目中作隨機取樣，直至得出所需要的題目數）。

（二）內容效度的評估方法：①專家判斷法；②統計分析法；③經驗推測法。

1．專家判斷法（此時內容效度也稱邏輯效度）：

▲請有關專家對測驗題目與原定內容的符合性做出判斷，看測驗的題目是否代表規定的內容。如果專家認為測驗題目恰當地代表了所測內容，則測驗具有內容效度。

▲針對不同專家對同一測驗的判斷的不一致，步驟：①定義好測驗內容的總體範圍；②編製雙向細目表；③制定評定量表來測量測驗的整個效度，由每位評判者在評定量表上做出判斷。~~不正確的是~~~~：進行統計分析~~。

2．統計分析法：除了描述性語言外，內容效度的確定也可採用一些統計分析方法。

①評分者間一致性；②複本相關；③再測法。

3．經驗推測法：通過實踐來檢驗效度，如兒童發展量表。

（三）內容效度的特性

①不是普遍適用的。②有時間上的特定性（適合過去，未必符合現在的代表性測驗）。③不要和表面效度混淆。

▲內容效度VS表面效度：

二、構想效度（構思效度/結構效度）：

（一）什麼是構想效度

①主要涉及的是心理學的理論概念問題；②指測驗能夠測量到理論上的構想或特質的程度；③測驗的結果是否能證實或解釋某一理論的假設、術語或構想，解釋的程度如何。

▲建立構想效度的步驟：①先從某一構想的理論出發，提出關於某一心理特質的假設。②然後設計和編製測驗並進行施測。③最後對測驗結果採用相關法或因素分析法進行分析，驗證與理論假設的符合程度。

（二）構想效度的估計方法

①對測驗本身的分析；②測驗間的相互比較；③效標效度的研究證明；④實驗法和觀察法證實。

1．對測驗本身的分析

▲作為構想效度證據有：①測驗的內容效度；②測驗的內部一致性指標；③分析被試者對題目的反應特點。

2．測驗間的相互比較：①相容效度；②區分效度；③因素分析法。

▲計算兩種測驗之間得分的相關，其中一種測驗是待研究效度的，另一種是已有效度證據的成熟的測驗，但兩者測量的是同一種心理特質，假如相關高，說明新測驗所測量的特質確實是老測驗所反映的特質或行為。這種方法叫相容效度。

▲通過對一組測驗進行因素分析，可以找到影響測驗分數的共同因素，這種因素可能就是我們要測量的心理特質（構想）。這種方法叫因素分析法。

3．效標效度的研究證明：①效標效度。②心理特質的發展變化（如智力，有局限性）。

4．實驗法和觀察法證實：觀察實驗前後分數的差異。

三、效標效度（效標/實證效度）

（一）什麼是效標效度

個體在某種情境下行為表現的有效性程度。分為：①同時效度；②預測效度（大學入學考試）。

▲同時效度VS預測效度：①差異不是來源於時間，而是來自測驗的目的。②前者與用來診斷現狀的測驗有關，後者與預測將來結果的測驗有關。

▲好效標條件：①效標必須能最有效地反映測驗的目標，即效標測量本身必須有效；②效標必須具有較高的信度，穩定可靠，不隨時間等因素而變化；③效標可以客觀地加以測量，可用數據或等級來表示；④效標測量的方法簡單，省時省力，經濟實用。

（二）效標效度的評估方法：①相關法；②區分法；③命中率法。

1．相關法（最常用）

是求測驗分數與效標資料間的相關，這一相關係數稱為效度係數。

▲計算效度係數的方法：

2．區分法：檢驗測驗分數能否有效地區分由效標所定義的團體的一種方法。

▲根據高分組與低分組的重疊量：重疊量越大，說明兩組分數差異越小，即測驗效度越差。

3．命中率法：

當測驗用來做取捨的依據時，用其正確決定的比例作為效度指標的一種方法。

*命中的情況是指：①預測成功而且實際也成功；②預測失敗且實際上也失敗。

計算總命中率（PCT）：

PCT）=命中/（命中失誤）=（B C）/（A B C D）（公式5-9）

計算正命中率（PCP）：

PCP）=測驗與效標皆成功人數/測驗成功人數=B/（A B）（公式5-10）

▲①正命中率高低常隨劃分測驗分數成功與失敗的臨界分數的高低而變化。②臨界分數越高，正命中率越高。③臨界分數越低，正命中率越低。

第三單元效度的功能

①預測誤差。②預測效標分數。③預測效率指標。

一、預測誤差：①決定性係數。②估計的標準誤。

1、決定性係數：①反映效度係數的實際意義。②是效度係數的平方。③表示測驗正確預測或解釋的效標的方差佔總方差的比例。

*如效度是0.80，決定性係數是0.64，則測驗分數正確預測效標的比例是64%，另36%無法做出正確的預測。

2、估計的標準誤（Sest）：

Sest＝S_{y√(1-Rxy^2)}（公式5-11）

▲公式中：①Sest是估計標準誤。②Rxy^2代表效度係數的平方（決定係數）。③S_y為效標成績的標準差。

▲估計標準誤的正確解釋：①當測驗效度非常完美（r_xy²=1.00），估計標準誤是零，測驗分數可完全代替效標。②當測驗效度為零，估計標準誤與效標分數的分布標準差相同（Sest=S_y），即測驗無異於猜測。③則大多數情況下，預測誤差介於兩者之間。

▲真正效標分數的範圍解釋：①落在預測效標分數±1.00 Sest的範圍內，有68%的可能性。②落在預測效標分數±1.96 Sest的範圍內，有95%的可能性。③落在預測效標分數±2.58 Sest的範圍內，有99%的可能性。

二、預測效標分數（Y）：

*如果X與Y兩變數是直線相關，則常通過Y對X的回歸方程：

Y＝a b_xyX （公式5-12）

▲公式中：①Y是預測的效標分數。②X為測驗分數。③a為縱軸的截距（用來糾正平均數的差異）。

④b_xy為斜率（即Y向X回歸的係數）。

三、預測效率指數（E）

▲用K表示無關係數：K值的大小表明預測源分數與效標分數無關的程度。

K=Sest/S_y=1-Rxy^2 （公式5-13）

▲（1-K）可作為預測效率的指數，用E表示：

E=100（1-K）（公式5-14）

①E值的大小表明使用測驗比盲目猜測能減少多少誤差。②如一個測驗的效度係數為0.80，那麼，K＝0.6，E＝40，表明由於該測驗的使用，使得我們在估計被試者的效標分數時減少了40％的誤差。

第四單元影響效度的因素

①測驗本身的因素。②實施中的干擾因素。③樣本團體的性質。④效標的性質。

一、測驗本身的因素：

①測驗材料必須對整個內容具有代表性；②測題設計時應盡量避免容易引起誤差的題型（如是非題）；③測題難度要適中，具有較高的區分度；④測驗長度要恰當，要有一定的測題量。⑤測題的排列按先易後難排列。

二、測驗實施中的干擾因素：

①主試者的影響因素；②測驗情境；③間隔時間；④被試者的影響因素（反應定勢）。⑤其他干擾因素。

三、樣本團體的性質

（一）樣本團體的異質性：

如果其他條件相同：①樣本團體越同質，分數分布範圍越小，測驗效度就越低。②樣本團體越異質，分數分布範圍越小，測驗效度就越高。

*影響樣本團體異質性的情況：①只以選拔的受測者團體參加效度研究，降低了測驗的效度。②選拔標準太高，樣本團體的同質性增加，降低了測驗的效度。

（二）干涉變數：

▲樣本團體的性質包括年齡、性別、教育水平、智力、動機、興趣、職業和任何有關的特徵。由於這些特徵的影響，使得測驗對於不同的團體具有不同的預測能力，故測量學上稱這些特徵為干涉變數。

▲美國心理學家吉賽利提出找出干涉變數的方法：①用回歸方程求得每個人的預測效標分數，將該分數與實際效標分數相比較，獲得差異分數D。如果D的絕對值很大，說明測驗中可能存在干涉變數。②根據樣本團體的組成分析，找出對照組，分別計算效度，從而找出干涉變數。③對於欲測團體，根據某些易見的干涉變數將其區分為預測性高和預測性低的兩個亞團體。預測性高的團體，獲得的測驗效度會有所提高。

四、效標的性質

效標測量本身的可靠性即效標測量的信度。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 比內智力量表 的精彩文章:

基礎心理學

第五章 心理測量學知識（複習概要）

第五章心理測量學知識（複習概要）