??在QC soc和pt分級ae匯總表的時(shí)候遇到最頭疼的問題就是source和qc側(cè)數(shù)據(jù)集pt條數(shù)不一致,一般是因?yàn)楹Y選條件不同導(dǎo)致。
????????如果pt數(shù)量較多,且兩邊排序不一致,sas呈現(xiàn)的compare output不便于查看,此時(shí)就需要其他方法來快速定位source和qc側(cè)數(shù)據(jù)集兩者非共有的pt。
這里推薦使用excel進(jìn)行去重處理,以下是操作流程。
????????用EG打開sas數(shù)據(jù)集可以直接復(fù)制整個(gè)變量到excel(SAS 9.4不支持)。

????????首先單擊變量名選中整個(gè)列,

????????然后ctrl+c復(fù)制到excel,重復(fù)操作source和qc側(cè)數(shù)據(jù)集。這樣在excel里出現(xiàn)兩列(在C列插入一個(gè)A列不存在的值“China”以作示例)。

????????最后選中A列和C列,然后按照以下操作可顯示唯一值。


總結(jié):
方法簡單,不用進(jìn)行額外的sas編程,特別適用于數(shù)量較多的soc和pt分級,能忽略雙側(cè)數(shù)據(jù)集pt排序一致才能proc compare的要求,先追求pt一致,再查看是否存在計(jì)算問題。
特別提醒:
????????以上雖然看起來是兩列之間互相比對查找重復(fù)和唯一值,但實(shí)際上是先把兩列變成單列再進(jìn)行處理,如果A列存在兩個(gè)相同的值比如China,而C列沒有China,那么依然會算作重復(fù)值,不過在soc/pt表中pt肯定是唯一值且只屬于某個(gè)soc,所以并不會影響結(jié)果。