[考試抄襲識別的心理測量學(xué)研究回顧]怎么通過圖片識別產(chǎn)品是否抄襲
發(fā)布時(shí)間:2020-03-03 來源: 日記大全 點(diǎn)擊:
摘要考試抄襲是最難識別的作弊方式。抄襲統(tǒng)計(jì)量(ACS)和人員擬合統(tǒng)計(jì)量(PFS)是識別抄襲的兩類主要統(tǒng)計(jì)方法。ACS是根據(jù)被懷疑抄襲者與被抄襲者實(shí)際得分模式相似的概率來識別抄襲者。PFS 則把一個(gè)觀察的項(xiàng)目得分模式與一定的測量模型相對比,來檢驗(yàn)被試得分模式是否與測量模型預(yù)測的模式相吻合。其中,PFS由于在識別異常得分模式時(shí)存在一些干擾因素,所以對結(jié)果的解釋存在多樣性,應(yīng)用較少。ACS是專門用于識別抄襲的統(tǒng)計(jì)方法,研究表明其識別率更高。目前ACS指標(biāo)在美國的SAT和一些資格認(rèn)證考試中已經(jīng)得到廣泛應(yīng)用。
關(guān)鍵詞考試抄襲,抄襲統(tǒng)計(jì)量,人員擬合統(tǒng)計(jì)量,神經(jīng)網(wǎng)絡(luò)技術(shù)。
分類號B841
測驗(yàn)中有許多干擾因素會影響測驗(yàn)分?jǐn)?shù),使測驗(yàn)結(jié)果偏離真實(shí)。其中一個(gè)因素就是作弊(cheating)。作弊的方法多種多樣,Cizek概括了三大類共59種作弊的方法,其中包括攜帶禁止使用的材料,通過現(xiàn)代通訊工具傳送信息,代考等[1]。抄襲答案(answer copying)是眾多作弊方法中的一種,也是在文獻(xiàn)中經(jīng)常提到的一種作弊方式,它指的是一個(gè)被試(copier)從另一個(gè)被試(source)那里得到全部或部分答案[2]。抄襲答案是最難識別的一種作弊方式[3],被試沒有攜帶任何禁止使用的材料,即使監(jiān)考者看見被試偷看旁邊被試的答案,因?yàn)閮H有視覺證據(jù)缺乏實(shí)物證據(jù),所以不易舉證被試抄襲答案。
用統(tǒng)計(jì)方法來識別考試抄襲可以追溯到20世紀(jì)20年代,近30年來,大量的抄襲統(tǒng)計(jì)量(answer- copying statistics, ACS)被提出來并得到廣泛的研究和應(yīng)用[2~5]。從20世紀(jì)20年代開始美國高等教育考試機(jī)構(gòu)就開始使用統(tǒng)計(jì)方法識別抄襲。ETS曾資助過許多抄襲統(tǒng)計(jì)量的研究,目前ETS已在SAT測驗(yàn)中引入K指數(shù)作為抄襲識別統(tǒng)計(jì)量[1]。此后Wollack將ω統(tǒng)計(jì)量用于MBE(Multistate Bar Exam)和MPRE(Multistate Professional Responsibility Examination)考試中抄襲行為的識別[6]。
在我國考試作弊同樣嚴(yán)重,而控制和檢測作弊和抄襲的方法卻非常單一,本文的目的是介紹主要的抄襲統(tǒng)計(jì)量的原理和性能,促進(jìn)國內(nèi)學(xué)者對這些統(tǒng)計(jì)量的研究和應(yīng)用,從而提高考試的有效性和公平性。
1 抄襲統(tǒng)計(jì)量的基本原理
抄襲統(tǒng)計(jì)量(ACS)的統(tǒng)計(jì)原理是:在沒有抄襲的假設(shè)條件下建立被試反應(yīng)概率的模型,在此基礎(chǔ)上得到被試之間存在相似回答模式的概率,進(jìn)而發(fā)現(xiàn)異常的相似回答模式,存在這一模式的被試就被認(rèn)為是可能的作弊者[7]。
任何兩個(gè)獨(dú)立的被試都存在一些相同的反應(yīng)。選擇相同的正確答案是非常普遍的,尤其是高能力被試,即使對低能力被試,他們也非常有可能正確回答一些比較簡單的項(xiàng)目。相似地,任何兩個(gè)被試都可能做出一致的錯(cuò)誤反應(yīng),每個(gè)項(xiàng)目一般都會有一些錯(cuò)誤選項(xiàng)來吸引能力比較低的被試。尤其是那些比較難的項(xiàng)目,錯(cuò)誤選項(xiàng)要比正確選項(xiàng)更容易被選擇。因此兩個(gè)被試選擇共同的錯(cuò)誤選項(xiàng)也是正常的。雖然在一些項(xiàng)目上做出匹配回答是可以接受的,但某種類型的匹配回答卻是異常的。兩個(gè)能力比較高的被試是不可能選擇相同的低頻錯(cuò)誤選項(xiàng),相似地,低能力被試也不可能正確回答非常難的項(xiàng)目,也就是說,如果低能力被試在較簡單的項(xiàng)目上答錯(cuò),那么他在難項(xiàng)目上就不容易答對。這種匹配回答較少時(shí)并沒有統(tǒng)計(jì)意義,但如果有許多這樣的匹配發(fā)生,就有了統(tǒng)計(jì)學(xué)意義[6]。
ACS就是在以上假定的基礎(chǔ)上提出的。所有的ACS在計(jì)算時(shí)依據(jù)的都是被懷疑抄襲者與被抄襲者實(shí)際得分模式相似的概率。ACS一般被分為兩類[1]。一類是把觀察到的被懷疑抄襲者和被抄者匹配的反應(yīng)模式與一個(gè)已知的理論分布(如標(biāo)準(zhǔn)正態(tài)分布)進(jìn)行對比[8~10]。第二類則是首先要建立參加相同測驗(yàn)的被試(examinees)與被抄襲者(source)作出匹配反應(yīng)模式的分布(經(jīng)驗(yàn)分布或者經(jīng)驗(yàn)分布的近似估計(jì)),然后把觀察到的被懷疑抄襲者和被抄襲者作出相同反應(yīng)模式的概率與之進(jìn)行對比(轉(zhuǎn)引自[2]),將理論上出現(xiàn)概率小的匹配模式確定為可能的作弊模式。
2 主要的抄襲統(tǒng)計(jì)量及其性能
所有的抄襲統(tǒng)計(jì)量[2,8,9,11]都是以被懷疑抄襲者和被抄襲者匹配的反應(yīng)數(shù)目為基礎(chǔ)。但這些統(tǒng)計(jì)量也存在一些差異。ESA、K、 、 和S1等統(tǒng)計(jì)量是以匹配錯(cuò)誤回答數(shù)來定義并建立抽樣分布的[2,12,13]。而Bm,g2,ω和S2等統(tǒng)計(jì)量則即考慮匹配的錯(cuò)誤回答數(shù),也要考慮匹配的正確回答數(shù)[9,10,13]。
2.1 以匹配錯(cuò)誤回答數(shù)目為基礎(chǔ)的抄襲統(tǒng)計(jì)量
研究者認(rèn)為如果兩個(gè)被試一致正確回答的數(shù)目很大,可以有兩種解釋:一是這對被試的能力都很高,二是一個(gè)低能力的被試從一個(gè)高能力的被試那里抄襲答案[14]。因?yàn)椴豢赡芡茰y出那種解釋是正確的,所以一些抄襲統(tǒng)計(jì)量主要集中在對匹配錯(cuò)誤回答的識別。
早期的研究者如Bird(轉(zhuǎn)引自文獻(xiàn)[15])所提出的抄襲統(tǒng)計(jì)量多數(shù)基于經(jīng)驗(yàn)方法,統(tǒng)計(jì)量的概率分布難以確定,參數(shù)估計(jì)不準(zhǔn)確,識別率不高,因此都沒有得到廣泛應(yīng)用。針對早期統(tǒng)計(jì)量的不足,Holland提出了K指數(shù)(轉(zhuǎn)引自文獻(xiàn)[2]),Sotaridina和Meijer對其不足進(jìn)行改進(jìn)提出了 、 和S1、S2指數(shù)[2,13]。這些統(tǒng)計(jì)量都表示由于偶然因素導(dǎo)致的匹配回答的概率。其中除S2之外都是以匹配錯(cuò)誤反應(yīng)為基礎(chǔ)來識別抄襲答案的統(tǒng)計(jì)量。這些統(tǒng)計(jì)量的區(qū)別主要在于變量M(各被試與被抄者的匹配的錯(cuò)誤回答的數(shù)目)的虛無分布和參數(shù)估計(jì)方法的不同。
2.1.1 K系列指數(shù)
在識別抄襲者時(shí),我們把其中一個(gè)被試叫做抄襲者copier(c),指的是被懷疑抄襲答案的被試。另一個(gè)被試叫做被抄者source(s)。c被懷疑從s那抄襲答案。則K指數(shù)可表示為
2.5神經(jīng)網(wǎng)絡(luò)技術(shù)
神經(jīng)網(wǎng)絡(luò)(NN)是近年來發(fā)展起來的一種以計(jì)算機(jī)為平臺的技術(shù),它是一些數(shù)學(xué)模型的集合,這些模型模仿生物神經(jīng)系統(tǒng)的一些特性,使其具有適應(yīng)性生物學(xué)習(xí)的功能[18]。該方法運(yùn)用神經(jīng)網(wǎng)絡(luò)把問題分類,把各種輸入模式分配到不同的類別中。這個(gè)分類任務(wù)包括兩步。第一步是用一系列要研究的反應(yīng)模式的典型樣本作為訓(xùn)練(training)樣本來訓(xùn)練神經(jīng)網(wǎng)絡(luò),去識別感興趣的反應(yīng)模式。第二步是應(yīng)用,就是用訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)去識別相似的反應(yīng)情況,包括觀察到的和沒觀察到的。在這個(gè)任務(wù)中,對于一個(gè)成功的神經(jīng)網(wǎng)絡(luò),它能把從少數(shù)典型樣本得到的信息推廣到在訓(xùn)練期間沒有用到的相似的反應(yīng)模式中去。當(dāng)一個(gè)作弊者的項(xiàng)目得分模式與被用來訓(xùn)練這個(gè)網(wǎng)絡(luò)的得分模式有相似的特性時(shí),它就被識別為抄襲者[18]。
2.6 人員擬合統(tǒng)計(jì)量
人員擬合統(tǒng)計(jì)量(person-fit statistics, PFS)是識別抄襲答案的另一類統(tǒng)計(jì)方法,此類統(tǒng)計(jì)量的原理是:把一個(gè)觀察的項(xiàng)目得分模式與一個(gè)測驗(yàn)?zāi)P蜅l件下的得分模式進(jìn)行對比[16],來檢驗(yàn)被試得分是否與測量模型相擬合。如果不擬合就表示存在抄襲。
Levine和Robin,Hulin等指出PFS能用于識別抄襲答案,而且應(yīng)該非常靈敏(轉(zhuǎn)引自文獻(xiàn)[15,16])。因?yàn)槿绻粋(gè)低能力的被試從一個(gè)高能力被試那里抄襲幾個(gè)比較難的項(xiàng)目,PFS的值就會變大甚至超出正常情況。Madsen比較合理的使用了這些統(tǒng)計(jì)量,他用Rash的人員擬合統(tǒng)計(jì)量來識別假被試的潛在的異常反應(yīng)模式,這些假被試盡力“裝壞”,以至于不能產(chǎn)生非常高的分?jǐn)?shù)(轉(zhuǎn)引自文獻(xiàn)[16])。雖然他的研究結(jié)果非常不具有說服力,但他提出了這種應(yīng)用的潛在可能性。Sotaridona、MeijerVan和van der Linden和Sotaridona研究了用PFS識別由于抄襲答案(或者作弊)造成的不擬合得分[2][13][18]。
相對于ACS,關(guān)于PFS統(tǒng)計(jì)量的研究和應(yīng)用較少,Cizek認(rèn)為其統(tǒng)計(jì)檢驗(yàn)力比較低[7]。造成這一現(xiàn)象的原因是:PFS主要用于識別各種異常行為[19],如:作弊,猜測、預(yù)先知道答案、默認(rèn)反應(yīng)風(fēng)格,社會期望性反應(yīng)等,識別出來的異常行為不僅僅局限于抄襲答案。也就是說如果被試的得分模式與項(xiàng)目反應(yīng)理論的模式不擬合,我們也不能斷定被試間存在抄襲的行為,因?yàn)槠渌漠惓P袨橐材軐?dǎo)致不擬合。而ACS主要是針對抄襲答案這種作弊的方式提出的一種統(tǒng)計(jì)識別方法,因此更有針對性。
3 關(guān)于各抄襲統(tǒng)計(jì)量性能的實(shí)驗(yàn)研究
在ACS的發(fā)展過程中,新的統(tǒng)計(jì)量不斷提出,新統(tǒng)計(jì)量的提出者一般要對其識別率和錯(cuò)誤率進(jìn)行檢驗(yàn),并與其他統(tǒng)計(jì)量進(jìn)行對比。國外的相關(guān)研究可分兩類,一類是模擬研究,一類是真實(shí)數(shù)據(jù)研究。模擬研究一般是用Monte Carlo等程序生成被試數(shù)據(jù),再從中選擇一定比例的被試(如5%),將其對部分題目的回答修改為與其他被試(即被抄襲者s)相同,這些被試就是抄襲者(c)。真實(shí)數(shù)據(jù)則是選擇某個(gè)真實(shí)測驗(yàn)中的數(shù)據(jù),將一部分被試的部分題目改為與其他被試相同,分別作為抄襲者(c)和被抄襲者(s)。這兩類研究都是人為地生成抄襲者,目前還沒有見到對真實(shí)抄襲者的研究。
以下我們重點(diǎn)介紹關(guān)于近期提出的ACS統(tǒng)計(jì)量的有影響的幾個(gè)模擬研究和真實(shí)數(shù)據(jù)研究。
3.1模擬研究
4 總結(jié)與展望
4.1 各抄襲統(tǒng)計(jì)量性能的綜合比較
自抄襲研究的統(tǒng)計(jì)方法產(chǎn)生以來,被提出的抄襲統(tǒng)計(jì)量有20多種,每一個(gè)統(tǒng)計(jì)量的提出都以改進(jìn)識別率為目的,并把I型錯(cuò)誤率控制在理論值之下。研究者對這些統(tǒng)計(jì)量的性能進(jìn)行了反復(fù)對比。
ω是研究最多的統(tǒng)計(jì)量,它能很好地控制I型錯(cuò)誤率。在大樣本和小樣本條件下識別率都高于其它統(tǒng)計(jì)量。Sotaridona和Meijer指出如果稱名反應(yīng)模型的項(xiàng)目參數(shù)能被可靠的估計(jì),ω可能是識別抄襲答案的最好選擇,因?yàn)樗鼘λ心芰λ降某u者和小樣本條件的下的抄襲者都靈敏[2]。但估計(jì)IRT模型的項(xiàng)目參數(shù)時(shí)需要大量的樣本,這與小樣本條件下ω統(tǒng)計(jì)量可以很好的識別抄襲者相矛盾。因此,Wollack和Cohen研究了小樣本(100)對ω統(tǒng)計(jì)量的影響,研究表明即使不能精確的估計(jì)稱名反應(yīng)模型的項(xiàng)目參數(shù),也不會顯著降低ω統(tǒng)計(jì)量的性能[20]。但在項(xiàng)目反應(yīng)理論的假設(shè)條件被違背時(shí)ω統(tǒng)計(jì)量是否具有穩(wěn)健性目前還缺乏研究。
指數(shù)與其它的K指數(shù)相比由于改進(jìn)了對參數(shù)P的估計(jì),識別率得到改進(jìn),但仍不如ω有效,但研究表明隨著被試的增加 的識別率不斷增加,所以當(dāng)樣本量足夠大(大于2000)時(shí)可以考慮使用 指數(shù)。
S2指數(shù)除了包含匹配的錯(cuò)誤分?jǐn)?shù)之外還包含匹配的正確分?jǐn)?shù)的信息,在識別率上明顯好于S1,而且由于使用泊松分布來近似估計(jì)M的分布,在一定程度上又改進(jìn)了K系列指數(shù)的識別率。但S1和S2不能用在小樣本情形。另外,與其它指數(shù)相比S1和S2的計(jì)算相對簡單,所以在應(yīng)用中也是較好的選擇。
轉(zhuǎn)化二項(xiàng)式基礎(chǔ)上的統(tǒng)計(jì)檢驗(yàn)和Kappa抄襲統(tǒng)計(jì)量,雖然反應(yīng)過程建立模型的方式不同,但都只用到從c和s反應(yīng)模式得到的信息,且不受被試總體的影響,識別率很高。因此它們也屬于有發(fā)展前途的統(tǒng)計(jì)量,值得推薦。另外神經(jīng)網(wǎng)絡(luò)技術(shù)也是一種非常有潛力的方法。
4.2 現(xiàn)有抄襲統(tǒng)計(jì)量的不足之處
有關(guān)抄襲統(tǒng)計(jì)量的研究取得了很大進(jìn)步,在一些重要考試中還得到了大規(guī)模應(yīng)用。但該領(lǐng)域的研究目前還存在很多局限。主要體現(xiàn)為:
4.2.1 任何一個(gè)抄襲統(tǒng)計(jì)量不是在所有的條件下都有效
沒有一個(gè)統(tǒng)計(jì)量在所有的實(shí)驗(yàn)條件下都能準(zhǔn)確的識別抄襲者。在題量少,樣本量小,α錯(cuò)誤低,抄襲量小時(shí),即使性能好的統(tǒng)計(jì)量如ω等的識別率也很低。還有一些統(tǒng)計(jì)量如g2等只在極端的實(shí)驗(yàn)條件下才有效。
4.2.2 研究結(jié)論不系統(tǒng),不能概括所有研究條件
轉(zhuǎn)換二項(xiàng)式為基礎(chǔ)的統(tǒng)計(jì)檢驗(yàn)、Kappa抄襲統(tǒng)計(jì)量和神經(jīng)網(wǎng)絡(luò)技術(shù)是新近提出的性能較好的統(tǒng)計(jì)量,在一定程度上克服了原有統(tǒng)計(jì)量的缺點(diǎn),但對這些統(tǒng)計(jì)量還缺乏全面系統(tǒng)的研究,已有研究設(shè)計(jì)的條件單一,且缺少與其它統(tǒng)計(jì)量的對比研究。
4.2.3 依賴于對被試的現(xiàn)場觀察
大部分抄襲統(tǒng)計(jì)量需要預(yù)先通過觀察確定被懷疑抄襲者和被懷疑被抄襲者,當(dāng)不知道這些信息時(shí)就無法進(jìn)行識別。PFS和神經(jīng)網(wǎng)絡(luò)技術(shù)克服了上述缺點(diǎn)。PFS把被試的得分模式與一定的測驗(yàn)?zāi)P瓦M(jìn)行對比,當(dāng)與測驗(yàn)?zāi)P筒粩M合時(shí)就識別為作弊者,神經(jīng)網(wǎng)絡(luò)技術(shù)把被試的反應(yīng)與訓(xùn)練階段輸入的作弊模式進(jìn)行對比,當(dāng)輸入的模式中存在與被試的作弊行為相符合的模式就可認(rèn)為發(fā)生了作弊。但PFS和神經(jīng)網(wǎng)絡(luò)技術(shù)也存在問題,PFS識別出的異常行為不一定是作弊,也可能包含其它的異常行為,神經(jīng)網(wǎng)絡(luò)技術(shù)也受到輸入模式的限制,當(dāng)被試的作弊行為和輸入模式不符合時(shí)識別率就會下降。且大長測驗(yàn)中輸入所有的得分向量幾乎不可能,使該方法受到很大限制。
另外,雖然抄襲統(tǒng)計(jì)量是非常有價(jià)值的抄襲識別工具,但它和其它的統(tǒng)計(jì)方法一樣都是以概率論為基礎(chǔ),都會導(dǎo)致統(tǒng)計(jì)推論錯(cuò)誤。被試間的異常匹配可能是由于偶然因素造成的,也可能是由于抄襲導(dǎo)致的。因此要最終確定是否作弊,還要依靠行為觀察資料。
4.2.4 缺少真實(shí)數(shù)據(jù)的研究
現(xiàn)有研究中多以模擬研究為主,模擬研究所設(shè)定的條件都較為理想,與實(shí)際情況有相當(dāng)大的差別。即使有的研究者考慮了半真實(shí)數(shù)據(jù)研究,但研究中的作弊者也是人為生成的,其結(jié)論也難以推廣到真實(shí)情景。由于真實(shí)情景中情況更為復(fù)雜,因此現(xiàn)有的統(tǒng)計(jì)量是否有效還有待驗(yàn)證。
4.2.5 模型假設(shè)存在不完備之處
以上討論的抄襲統(tǒng)計(jì)量都或多或少地存在模型假設(shè)不完善的問題。如模型的虛無假設(shè)為c沒有抄襲s的答案,備擇假設(shè)為c抄襲s的答案。但以匹配錯(cuò)誤回答為基礎(chǔ)的統(tǒng)計(jì)量沒有考慮到因猜測因素而導(dǎo)致被試答案匹配的概率。以匹配正確和錯(cuò)誤回答為基礎(chǔ)的統(tǒng)計(jì)量則沒有考慮因被試知道題目答案而導(dǎo)致答案匹配的概率。另外,多數(shù)抄襲統(tǒng)計(jì)量在計(jì)算時(shí)并沒有利用全部匹配信息。
4.3 將來的研究趨勢
4.3.1開發(fā)出能對抄襲這種異常得分模式進(jìn)行識別的專用PFS
PFS在識別抄襲時(shí),由于存在除抄襲之外其它的一些異常得分模式,導(dǎo)致其識別率比較低。而最近提出的PFS如單維性假設(shè)為基礎(chǔ)的統(tǒng)計(jì)量(Lzm和UB),或者是以曲線圖形法(Kemel平滑曲線)和以回歸分析法為基礎(chǔ)的個(gè)人擬合函數(shù)(PRF)都被用來識別具體的偏差行為。若較難項(xiàng)目組的擬合統(tǒng)計(jì)值(即Lzm值)低于容易項(xiàng)目組,或項(xiàng)目得分的Kemel平滑曲線呈倒U型,就可以認(rèn)為這種異常行為模式是抄襲。但是這些統(tǒng)計(jì)量只能識別極特殊的抄襲行為,對抄襲行為普遍有效的PFS統(tǒng)計(jì)量還有待探索。
4.3.2 多級記分測驗(yàn)的抄襲行為有待研究
現(xiàn)有的抄襲統(tǒng)計(jì)量都是在題目為0,1記分的基礎(chǔ)上提出的,因此都是只適用于識別2級記分測驗(yàn)中的抄襲行為。對多級記分測驗(yàn)則缺乏研究。隨著考試題型的多樣化,對多級記分測驗(yàn)中抄襲統(tǒng)計(jì)量的研究就顯得越來越重要。
4.3.3 充分利用答題信息,改進(jìn)假設(shè)模型
一個(gè)好的抄襲統(tǒng)計(jì)量應(yīng)該充分利用被試的抄襲信息,包含相同正確答案和相同錯(cuò)誤答案,及相同遺漏答案信息。這就需要對統(tǒng)計(jì)量的假設(shè)模型進(jìn)行完善。另外就是要尋找更合適的近似分布,使數(shù)據(jù)和模型擬合,并對參數(shù)進(jìn)行準(zhǔn)確的估計(jì)。
4.3.4加強(qiáng)現(xiàn)場研究
各統(tǒng)計(jì)量的有效性最終要通過現(xiàn)場研究來驗(yàn)證,而現(xiàn)有的研究似乎都停留在實(shí)驗(yàn)室研究階段。因此有必要與考試管理機(jī)構(gòu)合作,運(yùn)用真實(shí)測驗(yàn)數(shù)據(jù)得到更有說服力的證據(jù),同時(shí)推動其在實(shí)踐中的應(yīng)用。
4.3.5神經(jīng)網(wǎng)絡(luò)技術(shù)研究
神經(jīng)網(wǎng)絡(luò)技術(shù)的最大問題是在訓(xùn)練階段要輸入所有可能的作弊模式,否則有些作弊行為就不能識別,由于要輸入的模式量巨大,在長測驗(yàn)中幾乎無法實(shí)施。對這一局限的改進(jìn)方法是使輸入模式的更有概括性,同時(shí)提高模式識別的智能化水平。神經(jīng)網(wǎng)絡(luò)技術(shù)帶有人工智能的性質(zhì),可以說代表了本領(lǐng)域一種新的發(fā)展趨向。
參考文獻(xiàn)
1 Cizek G J. Cheating on tests: how to do it, detect it, and prevent it. Mahwah, NJ: Lawrence Erlbaum Associates, Inc, 1999
2 Sotaridona L S, Meijer R R. Statistical properties of K-index for detecting answer copying. Journal of Educational Measurement, 2002, 39: 115~132
3 Thompson K N. A procedure for identifying the possibility of student answer copying on multiple-choice examinations. Marketing Education Review, 1994, 4: 6~13
4 Sotaridona L S. Cheating detecting using the S2 copying index. The Philippine Statistician, 2003, 52: 59~67
5 Wollack J A. Comparison of answer copying indices with real data. Measurement in Education, 2003, 40: 189~205
6 Wollack J A. Detecting answer copying on high-stakes tests. The Bar Examiner, 2004, 73, 35~45
7 Cizek G J. An overview of issues concerning cheating on large-scale tests. A annual meeting of the national council on measurement in education, 2001
8 Wollack J A. A Nominal Response Model approach for detecting answer copying. Applied Psychological measurement, 1997, 21: 307~320
9 Frary R B. Detection of answer copying on multiple-choice tests and interpretation of g2 statistics. Educational Statistics, 1977, 2: 235~256
10 Bay L G. Detection of cheating on multiple-choice examinations. Annual meeting of the American Educational Research Association, 1995
11 Sotaridona L S, van der Linden W J. A statistical test for detecting answer copying on multiple-choice tests. Journal of Educational Measurement, 2004, 41: 361~377
12 Bellezza F S, Bellezza S F, Detection of cheating on multiple-choice tests by using error-similarity analysis. Teaching of Psychology, 1989, 16: 151~155
13 Sotaridona L S, Meijer R R. Two new statistics to detect answer copying. Journal of Educational Measurement, 2003, 40: 53~69
14 Jacob B A, Levitt S D. An investigation of the Prevalence and predictors of teacher cheating, 2001
15 Frary R B. Statistical detection of multiple-choice answer copying: review and commentary. Applied Measurement In Education, 1993, 6(2): 153~165
16 Meijer R R, Sijtsma K. Methodology review: evaluating person fit. Applied Psychology Measurement, 2001, 25: 107~135
17 Sotaridona L S, van der Linden W J, Meijer R R. Detecting answer copying using the Kappa Statistic. Applied Psychological Measurement, 2003, 30: 412~43
18 Sotaridona L S. Screening of cheating on high-stakes tests using neural network. 2003
19 Meijer R R. Diagnosing item score patterns on a test using item response theory-based person-fit statistics. Psychological Methods, 2003, (8): 72~87
20 Sotaridona L S, van der Linden W J. Detecting answer copying when the regular response process follows a known response model. Journal of Educational and Behavioral Statistics, 2006, 31: 283~304
21 Nelson L R. Using selected indices to monitor cheating on multiple-choice exams. Journal of Educational Research and Measurement, 2006, 4
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”
相關(guān)熱詞搜索:測量學(xué) 識別 抄襲 考試抄襲識別的心理測量學(xué)研究回顧 心理測量學(xué)期末考試 心理測量學(xué)期末考試題
熱點(diǎn)文章閱讀