参加入职“人格测试”,很遗憾,答案越普通越正确( 九 )

纪录片《书谜》(The Secret Life of Books Season , 2014)剧照 。

 

当门外汉被问题的含义弄得晕头转向时 , 测试人员有时会报以高深莫测的一笑 , 说这些不过是“表面效度” 。 他们认为 , 测试问题便于被试者理解固然是好 , 但是 , 如果有很多人在一段时间里都对问题进行了回答 , 那么问题本身也就变得没有那么重要了 。

换句话说 , 如果100个满意的主管都以相似的方式对一个特定问题给出了回答 , 那么这件事情就有了意义;因此 , 无论问题本身是否有意义 , 它都会产生一个有意义的相关系数 。

 

有人可能会问了:你所说的这些到底是什么意思?这里不是写一篇统计学论文的地方 , 我只想对那些让人印象深刻的测试图表和表格提出一点看法 , 谈谈它们是如何让人们忘记了常识 。

事实上 , 有很大一部分数学运算都是内部的——也就是说 , 它们是测试结果与测试结果之间的比较 , 而不是测试结果与外部证据之间的比较 。 现在 , 这种内部数学在确定测试的“可靠性”方面很有价值 。

例如 , 如果一组人参加了测试中的表格B测试 , 并且数学相关性显示他们的百分位数排名与他们参加同一测试中的表格A测试时一样 , 我们就认为这个测试在测量事物时是可靠的 。

 

然而 , 测试的可靠性很少会告诉我们它的有效性 。 除非它们确实测量了需要测量的特质 , 否则测试结果的一致性再高也是毫无意义 。 这些测试衡量的是社交能力、内向性或神经质倾向 , 还是仅仅衡量了一堆关于灭火或者喜欢阅读书籍这一类问题各项答案的选择次数?

 

要想表明测试有效 , 测试分数必须与被试者的后续行为相关 。 然而 , 当你去检查很多测试的有效性证据时 , 你会发现 , 它们主要展现的是特定测试的平均得分与其他人测试的平均得分有多么接近 。 因而 , 测试分数之间有相关性并不奇怪 。 测试题目的编写者在编写试题时经常互相借鉴

(其中有些试题会在多达10~12个不同的测试中出现)

, 这种相关性在很大程度上证实了测试领域存在的一些乱象 。

 

测试分数与行为的相关性:若干怀疑

 


推荐阅读