普通话测试软件水平测试录音打分软件下载

点击联系发帖人 时间：2014-11-05 22:45

普通话水平测试

山东:2015年01月日照莒县普通话水平测试工作安排通知 (一)
来源:91考试网
作者:www.91exam.org
91考试网提醒您关注：
各中小学、幼儿园及社会有关人员：
根据市语言文字工作委员会办公室的安排,对2014年10月份报名参加普通话水平测试的人员进行测试。本次测试全部实行微机录音，参加测试的人员必须熟悉录音软件的操作使用(录音软件见通知附件)。如因对录音软件的操作失误造成没有录音或者延迟了考试时间没能按时完成测试等问题，后果自负。现将有关事宜通知如下：
一、测试时间：
日(星期六)上午：8：10―11：30。
二、测试地点：
莒县一中办公楼四楼微机教室。
三、注意事项：
1.参加测试的人员，于1月17日上午8:10到莒县一中测试点领取“国家普通话水平测试准考证”并参加测试。
2.按照场次持准考证和身份证提前20分钟进行检录，进入备考室抽取试题，等待入场测试。
3.测试第一场8：30开始。本次测试设1个考场，每场测试40人，每场约15分钟。请参加测试人员对照自己的场次、序号，按要求进行检录、抽取试题，迟到视为自动放弃测试。
4.测试时，首先输入自己的13位的准考证号与姓名，不得出现任何错误，输入后请认真核对。不得携带其他资料入场，否则该次测试成绩作废。
5.其他事宜参见附件1-5
点击下载&&&
附件1：普通话水平测试须知1.被测试人员需持身份证检录入场。2.考试内容为四种题型(参见附件3)。口头作文不得少于3分钟，少于3分钟将降等次处理，不得携带其他资料入场，否则该次测试成绩作废。3.每场测试40人，每场约15分钟，根据统一编排的考试室、场次、序号，提前20分钟到指定地点检录，提前15分钟进入准备室抽签准备，过时视为自动放弃考试。4.被测试人员，进入准备室或考室，请详细阅读测试程序及步骤，根据自己的序号对机入座。序号与微机号不一致者答题无效，不计入成绩。5.进入考试区域请勿大声喧哗。考试完毕，迅速离开考场，不得在楼内逗留。6.如因个人对录音软件的操作失误造成没有录音或者延迟了考试时间没能按时完成测试等问题，后果自负。
附件2：测试程序及步骤1.被测试人员不得在抽取的试题上做任何标记，测试完毕将普通话等级证书连同抽取的试题一并放在微机桌上。2.本次考试全部使用ARWizard软件(可自己下载练习)录音。请使用中等音量读题答题，虽彼此干扰但不影响录音。3.被测试人员根据自己序号对机入座。序号与微机号不一致者答题无效，不计入成绩。4.测试开始，请双击微机桌面上的ARWizard软件的快捷方式，启动ARWizard录音系统。5.录音程序有四个键，分别是文件、录制、停止、回放，按录制键即录音或暂停。6.点录制按钮出现一个“另存为”对话框，输入文件名(即自己的13位的准考证号+姓名，输入后请认真核对，不得出错)。点击保存，即记录测试时间，测试开始。7.测试开始先报姓名、试题编号(例如：我叫×××，我抽到的题目是“国家普通话水平测试题第××套”);然后不读题目要求，直接答题。8.测试完毕，关闭录音程序(点录音软件右上角的×号)，请示微机操作员，操作员同意后即可离开考场。
莒县语言文字工作委员会办公室文件
莒语委办字[2015]2号
600)makesmallpic(this,600,1800);' width="591" height="3" src="file:///C:/DOCUME~1/ADMINI~1/LOCALS~1/Temp/msohtmlclip1/01/clip_image001.gif" v:shapes="_x">&
关于2015年普通话水平测试工作安排的
通&&&&& 知
各中小学、幼儿园及社会有关人员：
根据市语言文字工作委员会办公室的安排,对2014年10月份报名参加普通话水平测试的人员进行测试。本次测试全部实行微机录音，参加测试的人员必须熟悉录音软件的操作使用（录音软件见通知附件）。如因对录音软件的操作失误造成没有录音或者延迟了考试时间没能按时完成测试等问题，后果自负。现将有关事宜通知如下：
一、测试时间：
<span lang="EN-US" style="font-size:16.0font-family:仿宋_GB年1月17日（星期六）上午：8：10―11：30。
二、测试地点：
莒县一中办公楼四楼微机教室。
三、注意事项：
1．参加测试的人员，于1月17日上午8:10到莒县一中测试点领取“国家普通话水平测试准考证”并参加测试。
2．按照场次持准考证和身份证提前20分钟进行检录，进入备考室抽取试题，等待入场测试。
3．测试第一场8：30开始。本次测试设1个考场，每场测试40人，每场约15分钟。请参加测试人员对照自己的场次、序号，按要求进行检录、抽取试题，迟到视为自动放弃测试。
4．测试时，首先输入自己的13位的准考证号与姓名，不得出现任何错误，输入后请认真核对。不得携带其他资料入场，否则该次测试成绩作废。
5．其他事宜参见附件1-5
莒县语言文字工作委员会办公室
<span lang="EN-US" style="font-size:16.0
mso-bidi-font-size:12.0line-height:150%;font-family:仿宋_GB年1月8日
附件1：普通话水平测试须知
附件2：测试程序及步骤
附件3：ARWizard录音软件及操作步骤说明
附件4：国家普通话水平测试试卷（样卷）
附件5：2015年1月普通话水平测试考场安排
普通话水平测试须知
1．被测试人员需持身份证检录入场。
2．考试内容为四种题型（参见附件3）。口头作文不得少于3分钟，少于3分钟将降等次处理，不得携带其他资料入场，否则该次测试成绩作废。
3．每场测试40人，每场约15分钟，根据统一编排的考试室、场次、序号，提前20分钟到指定地点检录，提前15分钟进入准备室抽签准备，过时视为自动放弃考试。
4．被测试人员，进入准备室或考室，请详细阅读测试程序及步骤，根据自己的序号对机入座。序号与微机号不一致者答题无效，不计入成绩。
5．进入考试区域请勿大声喧哗。考试完毕，迅速离开考场，不得在楼内逗留。
6．如因个人对录音软件的操作失误造成没有录音或者延迟了考试时间没能按时完成测试等问题，后果自负。
测试程序及步骤
1．被测试人员不得在抽取的试题上做任何标记，测试完毕将普通话等级证书连同抽取的试题一并放在微机桌上。
2．本次考试全部使用ＡＲＷizard软件（可自己下载练习）录音。请使用中等音量读题答题，虽彼此干扰但不影响录音。
3．被测试人员根据自己序号对机入座。序号与微机号不一致者答题无效，不计入成绩。
4．测试开始，请双击微机桌面上的ＡＲＷizard软件的快捷方式，启动ＡＲＷizard录音系统。
5．录音程序有四个键，分别是文件、录制、停止、回放，按录制键即录音或暂停。
6．点录制按钮出现一个“另存为”对话框，输入文件名（即自己的13位的准考证号+姓名，输入后请认真核对，不得出错）。点击保存，即记录测试时间，测试开始。
7．测试开始先报姓名、试题编号（例如：我叫×××，我抽到的题目是“国家普通话水平测试题第××套”）；然后不读题目要求，直接答题。
8．测试完毕，关闭录音程序（点录音软件右上角的×号），请示微机操作员，操作员同意后即可离开考场。
ARWizard录音软件操作步骤说明
第一步：双击打开微机桌面上的“ARWizard录音软件”。
600)makesmallpic(this,600,1800);' width="40" height="28" src="file:///C:/DOCUME~1/ADMINI~1/LOCALS~1/Temp/msohtmlclip1/01/clip_image002.gif" v:shapes="_x">
双击录音软件安
600)makesmallpic(this,600,1800);' width="76" height="72" src="file:///C:/DOCUME~1/ADMINI~1/LOCALS~1/Temp/msohtmlclip1/01/clip_image004.jpg" v:shapes="_x">&&&&&&&&&&&&&&&&
第二步：单击“录制”按钮（左下角第二个按钮，即中间为黑色圆点的那个），打开“另存为”对话框。（见下图）
600)makesmallpic(this,600,1800);' width="89" height="49" src="file:///C:/DOCUME~1/ADMINI~1/LOCALS~1/Temp/msohtmlclip1/01/clip_image005.gif" v:shapes="_x">600)makesmallpic(this,600,1800);' width="310" height="120" src="file:///C:/DOCUME~1/ADMINI~1/LOCALS~1/Temp/msohtmlclip1/01/clip_image007.jpg" v:shapes="_x">&
第三步：在“另存为”对话框中，在“文件名”后空白条内点击，依次填入“准考证号、姓名、题号”
600)makesmallpic(this,600,1800);' width="134" height="81" src="file:///C:/DOCUME~1/ADMINI~1/LOCALS~1/Temp/msohtmlclip1/01/clip_image008.gif" v:shapes="_x _x _x">600)makesmallpic(this,600,1800);' width="182" height="72" src="file:///C:/DOCUME~1/ADMINI~1/LOCALS~1/Temp/msohtmlclip1/01/clip_image009.gif" v:shapes="_x _x _x">600)makesmallpic(this,600,1800);' width="252" height="146" src="file:///C:/DOCUME~1/ADMINI~1/LOCALS~1/Temp/msohtmlclip1/01/clip_image011.jpg" v:shapes="_x">600)makesmallpic(this,600,1800);' width="252" height="146" src="file:///C:/
网站客服QQ:如何添加新设备？
登录 “百度音乐” 移动客户端，即可添加设备，刷新页面就可以看到新设备。
收取短信不会扣除你的话费，下载歌曲需要你支付相应的无线上网费用
百度音乐客户端听歌，随时随地
感谢您使用手机百度音乐
下载会在几秒内自动开始，如浏览器长时间没有响应，请点击
您还可以通过以下方法下载百度音乐手机版普通话等级考试（水平测试）用普通话朗读作品60篇mp3下载（第1页）_下载中心栏目_普通话学习网
您现在的位置：&&&下载中心栏目&&&普通话朗读作品mp3
下载中心栏目
普通话等级考试（水平测试）用普通话朗读作品60篇mp3下载（第1页）
第1页　上一页　共&&&页　普通话水平测试录音软件操作说明_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
文档贡献者
评价文档：
普通话水平测试录音软件操作说明
把文档贴到Blog、BBS或个人站等：
普通尺寸(450*500pix)
较大尺寸(630*500pix)
大小：520.50KB
登录百度文库，专享文档复制特权，财富值每天免费拿！
你可能喜欢《当代华人教育学报》第三卷．二期
普通话测试的录音评分可行性、信度及经济效率
张　雷、侯杰泰、何伟杰、文剑冰（(香港中文大学教育学院，香港）
王渝光（云南师范大学，昆明，650092）
心理学报．2001 年．第
33 卷．第 2 期
该研究采用心理测量中的概化（generalizability theory）理论，通过两个研究，分析国家语言文字工作委员会的普通话测试中心采用录音评分的可行性，并探讨了其信度、经济效率及心理测量等特性。研究共有 25 名被试及 8 名评分员。结果表明录音评分和现场评分测试的结果是一致的，最少能区分 90% 的能力差异。此外，研究亦指出现行测试的评分者人数及题数已经算足够，但仍可依考生能力特性等，作一些调整以提高测试效率。
概化理论、信度、普通话测试
年代开始推广普通话以来，普通话的广泛应用对我国的经济、文化建设起了很大的保证和促进作用。而
年代中後期在教育、广播电视领域的普通话规范要求，以及“普通话水平测试”制度的实施，则标志著普通话的推广工作进入科学化、规范化、制度化的阶段，同时科研工作者也不断研究，冀求设计一个高水平的普通话测试工具。本研究采用心理测量中的概化（generalizability
theory）理论 [1-5]，以了解在国家语言文字工作委员会的普通话测试中，采用录音评分的可行性，此外从信度及经济效率等方面探讨测验的特性。
1.1　普通话水平测试
普通话水平测试是应用教育测量学与现代语言学研究成果，多学科综合运用的开放性系统工程。它主要是以现代语言学和教育测量学为理论基础，依据语言概率，用实验语音学、音位学作为判断正误的尺度，研制普通话水平测试的标准和评分定级的正误界定，建立普通话水平测试题库，研究测评员一致性的信度，分析和反馈普通话测评信息，指导普通话教学
尽管普通话测试在祖国内地已被广泛推行，最近在香港也定期进行，但是目前对普通话水平测试的研究多数是对於测试的标准、实施和影响因素等方面的分析，对其心理测量学性质如信度的研究却不多。有几个对於信度的研究是以经典测量理论（Classical
Test Theory）为框架进行的
[7-9]，由於经典理论只能得到一个笼统、模糊的测量误差，无法像概化理论一样将不同测量情境引起的误差，从总的测量误差中分离出来，所以本文将试图用概化理论对普通话测试的信度等特性作进一步的分析。
1.2　概化理论
概化理论和经典测量理论一样，也是一套关於信度估计的理论和方法。它是一种新的技术，用方差分析去分解和估计方差成分，并进而考察测量的信度，可应用的范围甚广
[10-13]。经典测量理论将观察分数方差分解成真分数方差和总的误差方差；概化理论则把观察分数方差，分解成由测量目的引起的全域分数方差（universe
score variance）和多个代表来自测验施测情境的误差方差。在概化理论中有几个重要的概念，可观测全域（universe
of admissible observations）指所有可能不同实施测验情境（condition）的全体，其中一系列相同的测验情境称为一个侧面（facet）。同一被试可以在多个不同的测验情境下进行测量，这种情境的结合叫做随机化平行（randomly
parallel）[2]。所有可能的随机化平行组合，构成了可推论全域（universe
of generalization）。推论全域可以包括可观测全域中所包含的所有或部分情境，但是不可能超出它所包含的情境。概化理论认为，观察分数方差可以分成多个部分，分别是由於测量目标造成的（即总的分数方差，类似经典理论中的真分数方差）和那些由於观测情境造成的，并采用方差分析的方法将它们分别计算出来。
1.3　G 及 D 研究
概化理论有两大部分―― G 研究和
D 研究。G 研究要求研究者表述测量的目标是什麽，以及在什麽情境下进行测量，也就是确定测量目标和可观测全域。这些对测量的建构（conceptualization）就是
G 研究设计。在 G
研究设计中，研究者需要指出测量的目标，可观测全域，以及他们之间的关系，然後再收集数据，估计对应於这些情境方差成分的大小。G
研究中的方差估计值，只反映可观测全域中的单个测量目标和单个情境。
测量方法可以看成是从 G 研究中测量概念的一种应用，或者说是用於指导在可观测全域中，如何进行抽样的一种数据收集计划。某个特定的测量方法，通常是从每个测量目标的各个侧面抽取多个情境。G
研究中方差的估计值为有效的测量方法提供了一定的信息，而这就是
D 研究的目的。测量方法的决定与概化全域的确定有关，也就是说，要决定在可观测的全域中，哪一个侧面要抽取多少个情境，这便构成了
D 研究。可见 G 研究设计是针对可观测全域，D
研究设计则对应著测量方法和可推论的概化全域空间。
像在 G 研究分析方差成分一样，在可观测全域中，有对应於一个侧面的单个情境，在概化全域的同一侧面中，也有对应於不同情境下的平均分数方差成分。由中心极限定理可知随著样本容量的增加，平均数分布的方差趋近於分数分布的方差与样本容量的商。同一定理也可运用於方差成分的估计值。因此，在
D 研究中，平均数的方差成分，可以通过将
G 研究中的方差成分估计值除以抽取的情境数求得。D
研究可以包括与
G 研究中所用的不同的新观测。但是在大多数概化理论研究中，G
研究和 D 研究都使用同一组数据。在这种情况下，D
研究被称为 D 研究考虑（角度）（D-study
considerations）[2]。本研究采用的就是该种方法。测量应用的目的一般有两种。一种是量化被试之间的相对差异或测量的常模参照解释，另一种是确定被试的绝对地位或测量的领域参照解释（domain
reference use）。D 研究分别提供了两种类似信度的系数，即概化系数（generalizability
coefficient）和依靠性系数（dependability
coefficient）来评价测量这两种不同应用。
在普通话测试中一个主要的可能误差，就是评分者之间或评分者本身内部（例如：对甲、乙部评分松紧不一）的不一致性。这个差误由於传统普通话测试要求评分者现场评分，实时作出判断而更加难以控制。正因普通话测试现场评分所造成的评分者不一致性，以及耗资大、效率低等问题，故我们计划使用录音带录下考生的作答，然後让评分者对录音带进行评分，研究其可行性。采用录音评分不仅更加经济，而且由於评分者和考生互不见面，能够排除现场评分中可能出现的各种缺点和局限。因为现场评分有许多不可预见的干扰因素，如测验情境的变化和某些突发事件（如考官生病，测试者与评分者之间的正面或负面影响），故录音评分可以朝标准化迈进一步。但能否使用录音取代现场评分，则需要对这两种方法结果的一致性进行分析。
2.1　研究步骤
本研究共有 25 名被试参与测试，8
名评分员分成 4 个小组，每组
2 人。每个评分小组分配
6 至 7 名考生。因为有一个小组的
6 个被试中，只有
5 个由相同的评分者进行了两种模式（现场及录音）的评估，为了保持平衡设计，随机删除其他评审小组多馀的被试，以令所有小组的样本容量相同，都为
5 个。评审以两种模式（现场、录音）进行，4
个小组的现场评估同时展开，亦同步进行录音，同一小组的两个评分员分别对该组的
5 名被试进行评分。测试时使用的是由国家语言文字工作委员会提供的标准测试卷。本研究只集中於诵读词语共
50 道试题，研究中所有被试使用相同的试题。试题作三级评分：0
分表示不对，1 分表示部分正确，2
分表示完全正确。在这份初步的报告中只用前
50 个词语。
2.2　分析方法
本测量的研究对象是：被试（e）嵌套（nested）於分组（p）内，而评分者（r）又嵌套於分组（p）内，且与被试交叉（crossed）。试题（i）和测量模式（m）（即：录音与现场两种）与其他条件是相互交叉，故此本
G 研究是（e ×
r） : p ×
在可观测全域中只有模式侧面是固定的，其他侧面（试题，评分者，分组）和测量目标（被试）都是随机的。这是一种混合设计，因为当中既有嵌套，又有交叉设计，而且有些侧面固定，有些随机。本研究兴趣仅在於现场和录音评估两种测量模式，这两者构成了该侧面的整个空间，故此模式侧面是固定的。
本研究中有 19 个方差成分，其中 σ 2（e
: p）是总的分数方差，其馀的
18 个方差中与模式情境有关的包括：
: p）：是总的分数方差，它代表著由於被试普通话能力差异而造成的变异。在本研究中，它与被试和评分组的交互作用混合在一起无法分离。
σ 2（m）：由於测量模式产生的变异，是其他测验情境相同时，由於测量模式不同而引起的差异。
σ 2（mp）：是测量模式和分组的交互作用的变异。如某些评审组在现场评分时评分较为宽松，但在录音评分时可能要求较严，由此而产生的变异。
σ 2（mi）：测量模式和试题的交互作用。如可能有些试题在现场评估时比录音评估时听得更清楚，或者相反在录音评估中效果更好。
: p）：这是测量模式和测量目标之间的交互作用的变异。例如，有些被试在某种测量模式下比在另一种模式下做得更好（或更差）。这些变异既有绝对误差也有相对误差。在这个混合设计中，这个方差成分与测量目标与评审小组的交互作用及测量目标、测量模式和评审小组三者的交互作用混在一起。这项可以被视为完全由於模式的差异所引起。
: p）：是评分者与测量模式之间的交互作用。如可能有些评分者在现场评分时比根据录音评分是更为宽松。但是由本研究评分者嵌套於评审组中，这项无法分离出来。
: p）：这项是嵌套於评审组中的被试与试题和测量模式的三次交互作用。
: p）：这项是於被试、评审员和测量模式的三次交互作用的变异。
σ 2（pmi）：这是分组效应、测量模式和试题的三次交互作用。
: p）：这是测量模式和试题与嵌套在评审组中的评分者的三次交互作用。
σ 2（erim
: p）：这一项是残差项。
2.3　结果
从表 1 中可以看出，除了不能由以上模型解释的变异残差项外，所有其他测量模式包含的方差成分都很小，可以忽略，但项目情境包含著的方差成分值都比较大。这些结果说明，测量模式对测量的误差影响不大，即分别从现场和录音的评分得到的结果基本上是一样的。
表 1　录音评分的可行性（e × r） : p × i × m 设计：估计的方差成分
侧面（facet）
平方和（SS）
自由度（df）
均方（MS）
方差（σ 2）
注：m = 模式，e = 被试，r = 评分者，i = 试题，p = 分组。
表 1 报告的方差成分，都是对应可观测全域中的单个情境或被试总体（测量目标）中的单个被试。大多关於单个被试的测量结果，都是根据在可观测全域多个情境下的平均数（或总分）而得到的。由中心极限定理，对应於情境的样本平均数方差，是该情境的方差除以其样本的容量，例如，假设单个题目分数的方差为
0.125，则 50 个题目平均分数分布的方差为
0.125/50 = 0.0025。
本研究主要考察的问题是采用录音评分能否取代现场评分？能否采用磁带录音进行评估决定於两种测量模式的结果一致性如何。在概化理论框架中，就是指由测量模式所导致的普通话测试的误差。也就是说，我们必须找出，有多少变异是由被试的普通话能力差异引起的，又有多少变异是由使用不同的测量模式导致的。在信号传输中的信噪比（signal-noise
ratio, SNR）可以用来解决这个问题
[1]。在这个研究中，就是真分数方差（信号）与所有测量模式有关的方差的和（噪音）两者的比值。
值得注意的是测量模式有关的噪音都只对应於某个特定的测量方法。也就是说测量中使用
50 个还是 100 个试题，或者
2 个还是 4 个评分者，都会影响噪音的大小。因此，信噪比是随著测量身体情况不同而有所改变（measurement
specific）。此外信噪比的值可以从
0 到无穷，为了更容易理解，将公式略作改变，可以得到类似信度系数的百分比，以显示“信号”未在“噪音”中损失的比率。例如：SNR
= 0.80 表示著当采用新的测量模式时，有
80% 普通话能力的真实差异能够保留，另外
20% 不能复制带到新的模式中。表
2 分别是常模参照测验和标准参照测验的噪音和修正的
表 2　与测量模式有关的“噪音”和修正的信噪比
&评分者人数
表 2 的结果与表
1 类似，同样支持采用录音评分。常用但略微有些保守的规则认为，标准参照测验中信噪比达到
0.80，常模参照测验中信噪比达到
0.90 就可算满意了。从表
2 可以看出，抽取
2 名评分者和 125 道试题就可以达到这一标准。实际上从表中还可以看出
2 名评分者和 50 道试题就已经可以得到令人颇为满意的结果了。
人们会问录音评分是否能得到和现场评分一样的结果？也就是两者结果的一致性如何。显然，两种测量模式结果之间的一致性程度与测量中使用了多少试题和多少评分者有关。如果被试只测一道试题且只有一位评分者，则采用现场和录音评分的结果的不一致性，可能比用
50 道试题和 4 位评分者进行评分结果的不一致性要大得多。因此，录音评分和现场评分是否能得到相同的结果，需要在已知将使用什麽其他测量情境（如试题或评分者数目）下作讨论和评价。这就是下一个研究的目的，以确定在怎样的测量情境下，两种测量模式的结果能够达到甚为一致。
如果决定采用录音作为测验的模式，接下来的问题是要确定一种有效的测量方法。具体地说，就是确定从每个侧面分别要抽取情境的数目和侧面之间的关系。例如：将嵌套设计改成交叉设计能否提高测量的效率，或者能否固定某些侧面以提高可靠性，但同时降低可推广性。
本 G 研究的目的是确定将来可采用有效的录音测试方法。要回答的具体问题是，若要使效率和信度最大，应使用多少评分者和多少试题？由於在第一个
G 研究中测量的目标和评分者都嵌套於评审小组中，相应的独立方差成分也无法估计出来。本研究采用完全交叉设计以估计各个独立的方差，即所有
25 个被试在 50 个试题上的回答录音由相同的
8 位评分者分别评分，即
e（被试）× r（评分者）×
i（试题）的交叉设计。
本设计共有 7 个方差成分，分别解释如下：
σ 2（e）：是被试普通话能力的个体差异。这是概化理论中总的分数方差（universe
score variance），也就是经典测量理论中的真分数方差。测量的主要目的，就是量度这部分方差。测量的质素可以通过它的值，与所有以下方差和（对於标准参照测验）或其中部分和（对於常模参照测验）的比值来表现。
σ 2（i）：试题的效应。有些题目会比另外一些题目更难读。因而试题的取样对於所有被试的评分都会有影响。但是这一效应并不影响被试的相对地位，而只影响他的绝对地位。
σ 2（r）：评分者效应。例如有些评分者比其他人的评分要求更严格（或宽松），所以评分者的取样对於被试的评分有影响。但是他们对於所有被试都会评分较低（或较高），因此这种评分者效应不影响被试的相对地位，而只影响被试的绝对地位。
σ 2（ei）：被试和试题的交互作用。对於不同的被试来说，试题的难度也是不相同的，比如说对於某个（或某类学生，如来自上海）学生来说，较难的试题可能对於其他学生并不难。这种效应既影响被试的相对地位，也会影响被试的绝对地位。
σ 2（er）：评分者和被试的交互作用。不同评分者对於被试普通话能力的评分会有不同。也就是说，某个评分者可能对於某个（或某类）被试评分较严格，但是对於其他被试较宽松。这种效应既影响被试的相对地位，又影响被试的绝对地位。
σ 2（ir）：评分者和试题的交互作用。不同的评分者对於试题难度会有不同的理解。有些评分者对某些特定词汇很注意，但是可能其他的评分者对它们却不很留心。由於所有的评分者要对被试所读的所有项目进行评分，所以这种试题和评分者的交互作用对於被试的成绩也会有影响。
σ 2（eir）：这是被试、试题和评分者的三次交互作用，因为不同被试对不同试题的作答，由不同评分者进行评分所得的结果都不相同。然而，这变异部分与当前研究未能处理的其他系统误差或随机误差相混合，无法分离，故作为残差项。
从表 3 同样可以看出，对应於试题的方差成分的很大，说明抽取多一些题目的重要性。表
4 列出了对应於不同测量情境下对於常模参照测验的概化系数（generalizability
coefficient）和对於标准参照测验的可靠性系数（dependability
coefficient）。例如，从表上可知（效果与图
1 相同），在测验中使用
2 名评分者和 100 道试题，则标准参照测验的信度为
0.84，常模参照测验的信度为
0.90。值得注意是在此时，决策者首先要知道测验的精确度或信度要求有多高，然後再根据表
4（或图 1）决定能达到该精度要求的最经济合理方法。所以问题不仅仅是确定用多少试题和评分者那麽简单。例如，如果测验是用来评估电视或广播播音员，则由於被试的能力非常接近，需要用区分度好高精确度（即高信度）的测验。反之，如果是在一般北京人或是香港人之间进行区分，则用精确度略低的测验也可以。
表 3　交叉（e × r × i）设计的方差成分估计值
Facet 侧面
评分者（r）
表 4　常模参照和标准参照测验的误差及信度估计值
&评分者人数
1　标准参照测验下信度、评分者人数和项目数的关系
此外，因为证书或等级考试（如授予被试通过或达到一定普通话能力的证书）是属於标准参照测验。所以在这种测验下，只考察可靠性系数和绝对误差。
我们进行了两个研究。第一个研究考察录音评分测试的可行性，第二个则进一步考察录音评分测试的心理计量学性质。研究结果表明，录音评分和现场评分测试的结果是一致的，接近
90% 的能力差异能作区分。正如前面所提及，录音评分测试有许多优点，包括考生与评分者无需直接见面，可减低一些主观因素（如：面貌、衣著的影响），使评估更为客观，此外，因为考官可以在较方便的时间及地点（例如：不用亲自到偏远地区）进行评分，故录音评分更为经济。
研究一只著重於两种测验模式的一致性，并没有考虑哪种模式更为客观无偏的问题。日後的研究可以考虑偏差问题；以及比较两种测验模式的效度，且可进一步分析本研究以外的试题类型。
研究二更为重要，因为概化理论研究填补了当前普通话测试信度的空白。正如我们前面所提及，使用概化理论比经典测量理论更好，因为它可以把由测验情境引起的误差从总的误差中分离出来。在这个多侧面的测量中，分数中有多大的部分是代表被试真实的普通话能力，多大部分是由测量的情境造成呢？例如某考生抽获较易的试题，故成绩自然较佳。测量的误差又有多少是由於有部分评分者较宽松而造成的？又有多少是由於某些评分者对某一种类型的被试评分更松或更紧而造成的？测验分数的差异中有多大的部分是由不同测量模式（如现场评分、录音评分和录像评分等）造成的？我们要多用多少个评分员才可达到可接纳的信度？或者要减少多少个评分员仍可保持满意的信度？我们应增加多少试题以减少评分者的人数而仍保持同样的信度？所有这些关於测量信度的问题都是经典测量理论无法解决的。本研究运用概化理论可以回答以上的问题。
因为信度和测验长度之间的关系是非线性的单调递增，所以我们需要确定，在什麽时候增加测验长度对於提高信度的效果不大。相反，测验太长，也会使得被试和评分者感到疲劳，从而影响测验的信度。此外一个心理计量学的重要考虑问题是效度。对於可观测到技能（如说普通话）的测试来说无所谓效度或结构效度。测验成绩本身就是结构效度的表现。在日後研究中，我们可以考察普通话测试的预测效度，而在此之前我们亦需确定并收集具体成绩的外部效标（如工作表现）。总括而言，本研究用概化理论指出录音评分是可行的发展方向，并对大量团体测试，提供一个较经济及科学的解决方法。此外，研究结果指出现行的评审人数（评分者）及题数亦算有效合理，但仍可依考生特性及类别，作一些调整；发展目标不同的考试，可能是一个解决方法。最後本报告也指出日後尚待研究的方向，为普通话水平测试提供一个更科学的评考工具。
获香港研究资助局（RGC）资助项目（No.
4047/98H），还得到国家语言文字工作委员会的协助。
Brennan R L. Elements of Generalizability Theory.
Iowa City, IA: American College Testing, 1983.
Brennan R L. Generalizability theory. Educational Measurement: Issues
and Practice, -34.
Cronbach L J, Glaser G C, Nanda H et al. The dependability of behavioral
measurement: Theory of generalizability for scores and profiles.
New York: Wiley, 1972.
Shavelson R J, Webb N M. Generalizability theory. American Psychologist,
Shavelson R J, Webb N M. Generalizability theory: A primer. Newbury
Park, CA: Sage, 1991.
仲哲明。《普通话水平测试若干问题的讨论》。见：国家语言文字工作委员会、普通话培训测试中心、《语言文字应用》编辑部合编。《普通话水平测试的理论与实践》。北京：商务印书馆，1998。1-17。
王渝光。《普通话水平测试理论探究》。见：戴梅芳、骆小所合编。《普通话水平测试研究》。语文出版社，1997。23-58。
王渝光，陈典红。《普通话水平测试测试员信度探究》。见：戴梅芳、骆小所合编。《普通话水平测试研究》。语文出版社，1997。127-138。
王渝光，陈典红等。《普通话水平测试题库建设的理论与实践》。见：国家语言文字工作委员会、普通话培训测试中心、《语言文字应用》编辑部合编。《普通话水平测试的理论与实践》。北京：商务印书馆，1998。81-90。
Brennan R L, Gao X, Colton D A. Generalizability
analyses of work keys listening and writing tests. Educational
and Psychological Measurement, 7-176.
Chang L. Connotatively consistent and reversed connotatively inconsistent
items are not fully equivalent: A Generalizability study. Educational
and Psychological Measurement, ): 991-997.
Chang L. Dependability of anchoring labels of Likert-type scales. Educational
and Psychological Measurement, 8-815.
Chang L. Models of generalizability theory in analyzing pre-existing
faculty evaluation data. Applied Measurement in Education,}

奇偶密码网