發(fā)布時間:2022-11-11 10:52:46
序言:寫作是分享個人見解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了1篇的高校四級成績數(shù)據(jù)的重采樣方法研究樣本,期待這些樣本能夠為您提供豐富的參考和啟發(fā),請盡情閱讀。
0引言
大學(xué)英語等級考試一直以來都是高校學(xué)生參與度最高的全國性考試,其考試成績不僅反映了學(xué)生的英語學(xué)習(xí)能力,其證書也是高校畢業(yè)生求職應(yīng)聘中所必備的。評估高校各專業(yè)整體英語應(yīng)試水平,對于高校管理層在專業(yè)層面上提出相關(guān)英語教學(xué)改革措施極為重要。Bootstrap與Jackknife是抽樣調(diào)查中常用的重采樣方法,Jackknife是由Quenouille[1,2](1949/1956)作為減少系列相關(guān)系數(shù)估計量偏倚的一種方法提出的,后來逐漸成為復(fù)雜樣本方差估計的一種重要方法。Bootstrap是由B.Efron[3](1979)在Jackknife的基礎(chǔ)上提出的一種利用重抽樣方法對總體參數(shù)進行估計的統(tǒng)計方法。呂萍[4](2017)指出在數(shù)據(jù)分析中,若忽視層、群等抽樣設(shè)計的復(fù)雜性,直接利用調(diào)查數(shù)據(jù)按照傳統(tǒng)數(shù)據(jù)分析方法,容易得出錯誤的結(jié)論,尤其是涉及標準誤的估計。Bootstrap方法的優(yōu)勢在于對小樣本進行評估時,可極大地降低評估樣本不足對評估結(jié)果的影響[5]。該方法也在估計中存在些許不足,主要體現(xiàn)在重抽樣都是在已知的樣本觀測數(shù)據(jù)中進行的,這使得自主樣本與原樣本的相似度較高,并且樣本量越小,其相似度就越高,估計結(jié)果與真實分布的差異性也會越大[6]。Jackknife方法在方差分量估計和標準誤估計上都較為準確,且其估計的準確性不隨數(shù)據(jù)類型、研究設(shè)計和方差分量的不同而產(chǎn)生波動,具有較強的穩(wěn)健性[7]。Jackknife方法不足之處主要體現(xiàn)在:估計總體統(tǒng)計量時只利用了很少的信息,各采樣樣本之間的差異很小,每兩個Jackknife樣本中只有兩個單一的觀測值不同。本文在估計總體樣本均值的過程中,考慮到Jackknife算法與Bootstrap算法存在的不足,提出Bootstrap-Jackknife算法,得到了更接近于總體樣本均值的估計值。
1數(shù)據(jù)與估計方法
1.1數(shù)據(jù)來源與處理
本文采集廣州華商學(xué)院各專業(yè)學(xué)生在2017學(xué)年的四級成績數(shù)據(jù),共計9860條有效數(shù)據(jù),并對收集的數(shù)據(jù)進行對數(shù)化處理,數(shù)據(jù)對數(shù)化可以使得樣本數(shù)據(jù)更加光滑,消除異方差,同時減小數(shù)據(jù)波動范圍。
1.2Normal
將采集得到的觀測樣本x1,?,xn當做總體樣本的近似,通過觀測樣本得到各樣本統(tǒng)計量值以估計總體統(tǒng)計量,其中總體標準差的無偏估計如式,Bootstrap是一種著名的方差估計方法,其思想是通過重復(fù)抽樣來估計總體分布。具體來說就是將得到的樣本Fn(x)當做總體F(x)的近似,θ是θ的一個估計,通過從得到的樣本中重復(fù)有放回抽樣生成經(jīng)驗累積分布函數(shù)F*n(x),對生成的F*n(x)樣本進行相應(yīng)計算得到θ*,利用一系列θ*實現(xiàn)θ的置信區(qū)間評定。本文為了使全部的數(shù)據(jù)盡可能被采集,使得總體統(tǒng)計量的估計結(jié)果更為穩(wěn)健,規(guī)定抽樣次數(shù)B=2000;⑶對一個估計量θ的標準差進行Bootstrap估計就是將Bootstrap重復(fù)實驗θ(1),?,θ(B)的樣本標準差作為估計值,Jackknife可用于總體估計量的不確定估計,旨在減少估計的偏差。其思想為“去一”抽樣,假設(shè)獲取樣本樣本量為n,在第i次抽樣中去除第i個樣本數(shù)據(jù)i=(1,2,...,n),用剩下的(n-1)個數(shù)據(jù)作為抽樣樣本計算θ(i),分別對生成的n個樣本計算相應(yīng)的樣本統(tǒng)計量,從而實現(xiàn)總體統(tǒng)計量的置信區(qū)間估計。具體步驟如下:⑴從觀測樣本x1,?,xn中做i次Jackknife抽樣,生成第i個Jackknife樣本⑵對n個Jackknife樣本計算估計值θ(1),θ(2),?,θ(n);⑶當利用Jackknife對θ進行標準差估計時,21.5Bootstrap-Jackknife在實際應(yīng)用中,Bootstrap對估計量的相關(guān)估計值具有隨機性,即每一次運用Bootstrap算法抽樣得到的估計值并不相同,而使用Jackknife對統(tǒng)計量進行估計時,各采樣的樣本之間的差異太小。本文考慮到Bootstrap與Jackknife的不足之處,結(jié)合兩種算法,創(chuàng)新性地進行相關(guān)方差估計。采用Bootstrap選取多組樣本,隨后采用Jackknife對每組樣本分別進行均值與標準差的估計,結(jié)合實際訓(xùn)練數(shù)據(jù)發(fā)現(xiàn)該方法得到的估計值穩(wěn)健度更高。本文實現(xiàn)Bootstrap-Jackknife的具體步驟如下:
2實例分析
分別采用Normal、Bootstrap、Jackknife、Bootstrap-Jackknife方法,對實際樣本數(shù)據(jù)進行均值估計,實際訓(xùn)練樣本為該校各專業(yè)學(xué)生在2017學(xué)年的四級成績對數(shù)。估計結(jié)果對比情況如圖1所示。由圖1數(shù)據(jù)可以看出:①對于Normal、Jackknife與Bootstrap-Jackknife這三種方法計算出的均值估計量僅有細微差異,而Bootstrap得到的均值估計值與其他三種方法得到的均值估計值相差較大;②對于標準差估計,Bootstrap-Jackknife估計得到的標準差要遠遠小于其他三種方法估計的標準差,這說明在對總體均值的估計中,Bootstrap-Jackknife的估計誤差最小,即利用該方法得到的均值用來估計總體均值,其精度最高。另外Bootstrap與Jackknife的標準差估計值幾乎重合為一條折線且遠小于普通法的標準差估計值,這說明利用Bootstrap與Jackknife對估計量進行估計,其可信度要高于普通法得到的估計量值。為了更明顯的顯示四種方法估計樣本均值的差異,本文將四種方法得到的樣本數(shù)據(jù)均值估計值進行排序,具體排序結(jié)果如表1所示(僅列舉部分)。表1四種方法估計的均值排序?qū)Ρ扔⒄Z國際商務(wù)會計學(xué)(ACCA班)...環(huán)境設(shè)計視覺傳達設(shè)計產(chǎn)品設(shè)計B為比較Bootstrap-Jackknife方法與其他三種方法排序結(jié)果之間的差異,本文將各專業(yè)Bootstrap-Jackknife排序結(jié)果與其他三種方法得到的排序結(jié)果做差值處理,并進行絕對值運算,依據(jù)各差值結(jié)果繪制箱線圖,如圖2所示。圖2各結(jié)合表1排序數(shù)據(jù)與圖2箱線圖可以看出:第一,Normal與Bootstrap-Jackknife在專業(yè)排序上的差異甚微,Bootstrap-Jackknife與Jackknife在專業(yè)排序上的差異最為顯著,這說明就均值估計而言,Jackknife估計的穩(wěn)定性并不高;第二,就排序數(shù)據(jù)上來看,該校英語四級應(yīng)試能力前三的專業(yè)為英語、國際商務(wù)和會計學(xué)(ACCA班),而英語四級應(yīng)試能力較差的專業(yè)為環(huán)境設(shè)計、視覺傳達設(shè)計、產(chǎn)品設(shè)計這三個藝術(shù)專業(yè)。
3結(jié)論
本文基于廣州華商學(xué)院2017學(xué)年各專業(yè)學(xué)生四級成績數(shù)據(jù),運用Normal、Bootstrap、Jackknife和Bootstrap-Jackknife四種方差估計方法分別評估該校均衡,是一種均勻的密集采樣,導(dǎo)致訓(xùn)練困難。
4結(jié)束語
本文選用的YOLOv3和SSD框架可實現(xiàn)四種闊葉材高效、準確辨識,YOLOv3框架辨識準確率更高,而SSD框架用時更短??傮w而言,SSD對四種闊葉材做到了更高效自動辨識,可以在保證辨識的正確率前提下能夠更快的處理樣本,提高了闊葉材的識辨識效率。本文識別準確率沒有達到100%,綜合分析與圖像特點有關(guān)。本文只對四種木材樣本進行研究,闊葉材種類相對單一,但是每種闊葉材采集的樣本量較大,結(jié)果更具有適應(yīng)性,下一步將從提高樣本的多樣性入手,增加不同闊葉材材種的訓(xùn)練集,從而提高模型的抗干擾和泛化能力,使其更適應(yīng)于更多闊葉材材種的辨識。
作者:夏艷 張麗娟 單位:廣州華商學(xué)院