統計學教學中亟需重論文

欄目: 論文 / 發佈於: / 人氣:2.28W

無響應問題無論在抽樣調查理論還是實踐中都是十分重要的問題。然而，我國使用的統計學教材極少討論這一問題。本文系統地論述了無響應問題引起的後果和對無響應問題的處理方法，希望能引起重視。

一、引言

抽樣調查是統計學課程中的重要內容，而無響應(Nonresponse)問題是抽樣調查中的重要問題。“無響應”也稱為“無回答”。概括地説，無響應是指在抽樣調查中無法從所有的樣本單位及問卷中的所有項目獲得有效數據。無響應可具體分為兩種類型，一種是“單位無響應”，一種是“項目無響應”。單位無響應是指被調查單位沒有接受調查;而項目無響應是指被調查單位雖然接受了調查，但對調查中的某些項目沒有給出有效的回答。在我國使用的經濟管理類統計學教材(包括引入的國外教材)中，基本上都沒有涉及這方面的內容，個別討論到的，也只是很簡單的幾句話。

但是，“無響應”在實際的抽樣調查中是經常碰到的問題。如果學生不瞭解這方面的知識，就不知道該如何處理;而直接使用帶有“無響應”問題的調查問卷，後果將很嚴重。筆者認為，經濟管理類統計學教材中亟需增加無響應的後果及其處理方法方面的內容。

二、無響應的後果

1.無響應從兩方面影響推斷結果。在抽樣調查中，無響應問題會從如下兩個方面影響推斷結果。一方面，由於部分調查單位或調查項目無響應，使得樣本容量減少，從而使估計量的方差變大。這種後果相對來説是較容易處理的，比如，可以用補充樣本、事先估計回答率並由此相應增加調查單位數量等方法來處理。

另一方面，無響應的樣本單位與回答的樣本單位如果在所調查的項目上存在顯著差異，則會使得依據回答樣本單位的數據所作的統計推斷存在偏差，即無響應偏差，這是一種系統偏差。這種後果的處理比第一種複雜得多，但由於它對調查結論的影響很大，我們不能不重視這一問題的研究。事實上，在實際調查中，在回答的樣本單位與無回答的樣本單位(尤其是拒絕回答的樣本單位)之間往往存在着很大的差別。比如，在對私營企業的依法納税情況的抽樣調查中，回答的樣本單位比無回答的樣本單位(如上所述，含有拒絕回答和提供不合乎要求的回答等單位)通常有較少的偷税漏税行為。

2.對無響應誤差的分析。在分析無響應誤差的影響問題時，不同統計學家持有不同的觀點。兩種通常的觀點分別被稱為無響應的“確定論”和“隨機論”。如果記第i個總體單位的回答概率為pi，則“確定論”認為，總體所有單位有pi=0或pi=1，就是説，總體的N個單位含有兩類單位，一類是如果被抽中則肯定回答的單位(N1個)，另一類則是如果被抽到肯定不回答的單位(N0個，N=N1+N0)。而“隨機論”則認為對所有的總體單位有0≤pi≤1，各pi可能取各種不同數值，而且在大多數情況下，pi被視為條件概率，即它的大小取決於調查時的環境。無論是從哪種觀點出發，我們都可看到，無響應偏差的大小取決於兩個因素：一個是回答率;另一個是回答單位與無響應單位在Y變量值之間的差異(這裏，Y變量是指對調查中具體分析的指標的測度)。而兩種觀點的差別則體現在對形成回答率的機制的不同看法。

3.關於可接受的回答率問題。如上所述，較低的回答率將會破壞樣本的代表性，從而產生較大的無回答偏差。那麼，什麼樣的回答率是可以接受的呢?這一問題目前尚沒有一個明確的、公認的結論。科克倫和伯恩鮑姆(baum)等人認為對一般調查而言，回答率應在90%甚至95%以上。美國廣告研究基金會則建議郵寄調查的回答率應80%以上。我國學者盧淑華也持這種看法。愛爾達斯(Erdos)則認為一個可靠的`郵寄調查應有50%以上的回答率，或能用某種方法證實不回答者與回答者是相似的。萊斯勒(ler)認為對這一問題的回答不應是絕對的，而應考慮多方面因素。她指出應結合如下因素來討論：(1)調查前對回答率的期望值，它取決於調查的內容、總體與數據收集方式;(2)提高回答率的成本;(3)是否對無回答採用補救方法以及採用何種方法。(4)調查內容及其結論的重要性。

應該指出的是，在調查報告或研究結果中説明回答率是一項良好的調查研究應有的內容。

三、無響應問題的處理方法

為了儘量減少無響應誤差的影響，統計學家們提出了許多的處理方法。這些處理方法可以歸納成兩類，一類是在進行統計分析之前的處理，即在調查階段的處理，一類是在統計分析中進行的處理，即調查完成之後的處理。

1.分析前的處理。分析前的處理方法的主要目標是提高回答率。主要方法包括：(1)認真選聘、培訓、督導調查員。(2)對被調查者進行適當激勵。(3)由有名望的機構出面組織調查。(4)多次訪問。(5)改進調查方法。如，科學地設計調查項目與問卷外觀，以使被調查者能較輕鬆地回答問題;調查前先與被調查者聯繫;仔細分析不同受訪者最可能在家的時間;等等。(6)在無響應的樣本單位中再次抽樣。(7)使用隨機化回答技術。如果引起無響應的主要原因是問卷或某些項目為敏感性問題(如隱性收入、偷税漏税、吸毒等)，則可用使用隨機化回答技術來進行調查。這種調查技術通過設置巧妙的“隨機化裝置”，使得被調查者可以説出實情而調查者並不會知道他的回答的真正含義。但調查者可以由整個樣本的回答獲得某類人數所佔比重或某敏感性指標的均值等的估計值。

2.分析中的處理。如果由於某些原因未能採用上文所述的分析前的處理方法，或者雖已採用但仍未能達至足夠高的回答率，我們就需要採取事後的補救措施。各國統計學家已為此而提出了許多方法。(1)波利茲-西蒙斯(Politz-Simmons)方法。這種方法是預先在調查時詢問回答者在K個類似的期間裏他有多少期間可以被找到，然後在分析時用他可被找到的期間數對其Y變量值(Y為所研究的指標的測度)作“倒數加權”。例如，對於在調查的前5天中在相同時間內呆在家裏並可以接受調查的天數分別為0、1、2、3、4和5的回答者，分別用6/1、6/2、6/3、6/4、6/5、6/6作為其Y變量值的權數(分母是前5天可接受調查的天數加1，即加上調查的當天)。

這種方法的隱含假設是在家天數越少者，其Y變量值越接近不在家者。(2)時間趨勢法。這種方法通過考察連續各批迴答者(如郵寄調查中按時間先後對回件分批)的答案，分析其中的趨勢，然後將此趨勢延伸，以此推測出無響應者的答案。比如，如果各批迴答者的收入呈上升趨勢，則推測無響應者的收入是最高的。(3)分組加權估計。這種方法要求按某些輔助信息將總體單位分成若干組，使組內各單位的Y變量值儘可能相近。在抽樣調查之後，若出現無響應問題，則按各組的單位數佔總體單位數的比例進行加權調整。我們用一個簡化的例子來説明，設總體分成兩組，第一、二組單位數分別佔總體單位數的30%與70%。假設抽樣調查的結果如下表。

如果不作加權調整，則對總體的Y變量均值的估計為：

(3230×300+2110×500)/800=2530

但考慮到第2組的不回答率遠高於第一組，為減少無響應偏差，使用分組加權估計，則總體的Y變量均值的估計調整為：3230×30%+2110×70%=2446。(4)替代方法。概括地説，替代方法是用“精心選擇”的回答單位的數據或者用按輔助信息推測的數據來“替代”無響應單位數據的方式來處理無響應問題。而具體的替代方法則多種多樣。

——均值替代法。指將總體分組，用組內回答單位的樣本均值替代無響應單位的值。這種方式實質上與“分組加權估計”方法非常類似。

——完全匹配替代法。使用某些外部來源的記錄來替代無響應單位或無響應項目的數據。如從工商、税務、海關等管理部門取得無響應的被調查企業的註冊資本、所得税、出口貨物情況等來作替代值。

——最後回答者替代法。以最後一批迴答者的答案替代無響應者的答案。比如，在郵寄調查中，以幾次追蹤後最後寄回問卷者來代表未回件者。

——演繹估計法。如果所研究的Y變量與另一變量X存在已知的函數關係，即Y=F(X)，且可瞭解到X的值，則可用此方法得出Y的缺失值。

——迴歸替代法。如果所研究的Y變量與另外一些變量存在高度的相關關係，則可建立一個迴歸模型，並利用回答數據對模型參數進行估計。然後利用估計的迴歸方程預測Y的缺失值。

——“熱層”(Hot-deck)方法。通常用於項目無響應。一般做法是對調查中的項目缺失值用同一調查中具有類似背景的回答者的數值來替代。

——最近距離替代法。通常用於項目無響應。這種方法要選擇一些輔助變量及一種距離測度。它按照輔助變量距離最近的原則選擇替代者。有人認為“熱層”方法採用的是非數值分類的方式，而最近距離替代法採用的是數值分類方式，因而後者是前者的修正。

幾十年來，統計學家們針對無響應問題提出了許多的處理方法，本文難以一一介紹。統計學教材應按照所針對的學生層次、教學時間等來選擇介紹適當的方法。

Tags：統計學亟需教學論文