鏈結資料講求的是耐性、細心、周到而嚴密的邏輯。
在運用調查資料時,理論上,我們期待,供給資料的一方,所給的是經過檢誤的乾淨的資料,然後,奠基其上,研究者可以依個人研究目的與需求作進一步的分析與運用。
代誌呣憨人想得那麼簡單。往往在經手後才發現不是這麼回事。
這樣說好了,本來預期喝到的是來自紐西蘭純淨無污染的牛奶,打開後才發現是富含三聚氰氨的毒奶。
所欲鏈結的七個年度的資料,除家戶編碼外,卻無其他具信心的變項/資訊可以作為merge key。
出生年月日、性別都可能是錯的,以寬鬆或嚴謹的方式鏈結,都可能出錯。
到底須不須要,及,有沒有這個必要,去作不同年度間的資料校正?抑或,將不一致的case當成不同的人?
校正資料是從第一年開始比對翌年,完全校正後再繼續比對下一年,抑或是歷年一起比對,一旦不match便刪除?
誰能確保上一年度的資料的正確性比下一年度的正確性高?
在一個充滿假設,且假設為真的世界裡,性別是不變的。
當真如此嗎?廢話,當然不是。
第一年是男的,第二年是女的,第三年又成了男的,第四年萬一又是女的,我們是該看樣本的歷年性別男女回答比例,還是根本就不該串連這樣本的資料?
當然,慶幸,這種狀況很少發生,通常只會錯一期,至多兩期,若能以其他變數確認為同一人,這錯誤的期數的資料便可校正。
如果這不是錯誤,而是出於一種自我的性認同取性呢?抱歉,這不在我們考量的範圍裡(註一)。
又或者,這是出於一種策略選擇呢?想看看祝英台跟Yentl都填寫了入學資料,他/她們能怎麼寫?
好的,出生年月日總不會變動了吧。
我們明白人的年齡會因某些因素(中國人的實歲、虛歲、農曆、國曆)而有出入,那麼,出生年月日,總不會變吧。
然則,即便是同一受訪者,今年寫的出生年月日跟去年、前年、大前年都可能不一致。或者是,之前答了,今年卻突然覺得有保密的必要,於是索性不填。
然則,我們還是得樂觀與理性地預期,出生年月日與性別是不變的,是我們在這混亂又髒污的資料中唯一可攀附的救命稻草。
在以戶號、性別、出生年月日、抵美年份為merge key串連後,須作進一步邏輯性地檢核,通常運用的是一些具時序可合理推估變動的狀態,如婚姻狀況與教育。
其一,婚姻狀況
我們假設,除單身外,其他婚姻狀況都是可逆的。
結婚變成離婚、喪偶,嗯,合理;離婚變成喪偶,這就怪怪的,已經離婚的人,即使離婚的另一半過世了,會宣稱自己是喪偶的嗎?好的,已婚、離婚、喪偶的變成單身,這是單身/single與一種未曾結婚的未婚/unmarried之間最曖昧的社會心理因素,結過婚但目前無婚姻事實者,我們所預期出現的答案是離婚、喪偶,而非單身,但對受訪者而言,則目前為單身。當無訪員再次提醒與確認時,可能就這麼記錄下來了。更不用說單身變成離婚(這年頭婚姻當真不牢靠),或者單身變成喪偶(另不勝欷噓的scenario),或喪偶變成離婚(是趕進度的再婚者,抑或是一宗詐騙高額保險金的羅生門復活記)。
其二,教育程度
我們都知道,教育程度理應無法逆反,且可合理推移,理論上樣本的教育程度應大於等於前一期教育程度,然則,這也只是存在完美協調的wonderland。
這當真讓人納悶了,也許學齡中的樣本會受學校學習制度所影響,因而留級(留級也應等高啊)或降級(好吧,那就合理了),但對於已非學齡、完成學業的人,何以前後期的教育程度也會有遞減的趨勢?
學歷造假被踢爆(除非是什麼somebody水果日報與數字週刊才有興致去揭發)?還是原來自己始終沒有完成離校手續,所以技術上來說,沒有領取到畢業證書、亦未被正式授予該學位(註二)?從有讀過書變成不識字(也許是老化或退化,抑或受疾症所苦)?
用這幾個理論上具邏輯且應可靠的變數去作串連資料正確性的檢核,都可能出現同一人卻有前後矛盾與不一致的狀態。
面對這些不一致的樣本,予以刪除?為數不多的樣本即使只刪掉1%都覺得可惜;勉強留下?隱隱作痛,深怕哪天成為未爆彈,擊毀自己的reputation。
好吧,不管從嚴或從寬認定,就通通寫在研究限制裡吧。
在每一段雲淡風清的資料鏈結的背後,都有一份滿紙血淚的研究限制啊。
---
註一:
“請受訪者以生理性別為填答依據”,至今還沒看過哪份調查這麼寫過,我們所以為的人口變數裡的性別差異,將會影響某些客觀與主觀事實,但事實上,性別亦非客觀事實的狀態下,這些建立在生理性別上的差異預測,哪作得了準?
換言之,是否需要額外地在生理性別之外加一個自我認同的性別,這取決於這個變數的有效性與變異對所欲研究的主題的影響程度。
舉例來說,若我們研究中學霸凌,簡單地問受訪者被霸凌經驗,將之與性別作簡單交叉,發現原來某一性別較易受霸凌,但在Glee裡面所看到的Kurt受霸之因卻是因為自身的性取向與傾向,那麼,如果有這麼一個變數,不就可以凸顯出來?當然,在調查中增加的任何題目都要有其經濟效益,都增加一題卻預期僅有1/100的資訊是有意義的,通常會直接被唾棄、打到冷宮去。
註二:
這對在臺灣的研究生而言當真不陌生啊,記得室友在畢業一年後還領到學校的繳費通知書,才知道自己根本不算畢業,因為她沒到圖書館去蓋章,所以離校手續尚未完成,尚保有學籍,故須繳納學雜費。她在開學當日特地請假南下,去繳一萬多的學雜費順便辦離校,當真是可貴的學習經驗。
文章定位: