最近有新入行的讀者小朋友開始做CDISC domain了,來求助我流程如何,先做什么,再做什么,需要注意什么等等,就在這里答復(fù)一下吧!
“CDISC的前世今生”會(huì)努力在后面的文章更新,今天就簡(jiǎn)明扼要地告訴剛開始做項(xiàng)目的新人小朋友如何更快地開始sas programming之路吧。
打開CDISC的官網(wǎng)(https://www.cdisc.org),可以看到這里有很多標(biāo)準(zhǔn),不過對(duì)于臨床試驗(yàn)SP來說,我們用得最多的基本是SDTM、ADaM,其他幾乎用不到或者用得很少。我們注冊(cè)一個(gè)賬號(hào)登錄之后就可以下載里面的文檔。首先,下載一個(gè)SDTM IG 3.4, SDTM IG目前已經(jīng)更新到3.4版本(2021-11-29發(fā)布)了,F(xiàn)DA于2023-12-23宣布接受SDTM IG 3.4。Global的項(xiàng)目可以使用最新標(biāo)準(zhǔn)了,國(guó)內(nèi)雖然還沒正式要求實(shí)施CDISC標(biāo)準(zhǔn),但CDE也是鼓勵(lì)申辦方以CDISC標(biāo)準(zhǔn)遞交試驗(yàn)數(shù)據(jù)和資料的,大型CRO、藥企基本上也都是Follow CDISC標(biāo)準(zhǔn)做項(xiàng)目的。
翻開SDTM IG 3.4,400多頁(yè),看起來有點(diǎn)勸退,哈哈哈哈哈??。其實(shí)不用擔(dān)心,我們沒有必要(主要是沒有時(shí)間)通讀并理解所有的內(nèi)容,在做項(xiàng)目的過程中,不斷地查閱、理解就可以了。有摸魚的時(shí)間,可以讀一讀前四章,了解整個(gè)SDTM標(biāo)準(zhǔn)的概念,通用的基本原則,域模型的假設(shè)等,可以對(duì)整個(gè)SDTM標(biāo)準(zhǔn)有整體的理解。
SDTM Domains/Datasets主要分為以下2類(僅列舉幾個(gè)例子):
-
The General Observation Classes(通用觀測(cè)類)
- Interventions(干預(yù)類):EX(藥物暴露)、CM(合并用藥)
- Events(事件類):AE(不良事件)、CE(臨床事件)
- Findings(發(fā)現(xiàn)類):EG(心電圖)、LB(實(shí)驗(yàn)室檢查)
-
Datasets Other than General Observation Class Domains(非通用觀測(cè)類)
- Special-purpose Domains(特殊目的域):DM SE SV CO SM
- Trial Design Model Datasets(試驗(yàn)設(shè)計(jì)數(shù)據(jù)集):TA TE TV TD TM TI TS
-
Representing Relationships Datasets(關(guān)聯(lián)數(shù)據(jù)集):RELREC RELSUB
Trial Design Model Datasets:去描述該試驗(yàn)計(jì)劃要做什么,將會(huì)收集什么樣的數(shù)據(jù),以及試驗(yàn)?zāi)康牡刃畔?,是Study Level的信息,不需要等到有數(shù)據(jù)之后才開始編程,其中大多數(shù)內(nèi)容都來自方案的描述。
編程的順序通常如下:Trial Design → DM → SE → SV → Others → CO RELREC。因?yàn)樵诟鱾€(gè)SDTM域中,有一些變量需要在幾個(gè)Domains都存在需要保持一致,有的變量會(huì)在其他Domain參與計(jì)算,所以需要先生成。比如:TA的ARM也是DM的Req變量,需要保持一致。TV和SV中的VISIT,TI和IE的IETEST。其他Domains會(huì)用到DM、SE、SV:涉及到日期的domains,有以下變量基于RFSTDTC計(jì)算的研究日變量:--STDY、--ENDY、--DY,需要用到DM;需要做EPOCH的domains,需要用到SE;涉及到訪視的domains,需要用到SV。
CO是放所有頁(yè)面的備注信息,如果相關(guān)內(nèi)容是各個(gè)domain做一個(gè)臨時(shí)的變量存放,CO直接整合,那CO就需要最后再跑。如果CO是從各個(gè)raw data提取備注,那就無需在最后做。
-
RELREC是放所有的關(guān)聯(lián)關(guān)系,需要各個(gè)domain的--SEQ, --SPID, --GRPID等標(biāo)識(shí)變量做ID variable,一般需要等其他domains ready,再進(jìn)行編程。
在進(jìn)行SDTM編程之前我們需要以下文件:Protocol、SAP、CRF、Raw Data,參考資料: SDTM IG。
做SDTM主要是follow CDISC標(biāo)準(zhǔn)進(jìn)行raw data的規(guī)范化和標(biāo)準(zhǔn)化,不會(huì)有太多的衍生、填補(bǔ)操作,所以SAP用得不多,Protocol主要是做Trial Design用得多一些。
CRF是DM從數(shù)據(jù)庫(kù)系統(tǒng)導(dǎo)出的文件,可以如下格式: blank/annotation CRF, unique/all CRF,組合數(shù)可以導(dǎo)出4種格式的CRF。blank/annotation CRF區(qū)別在于是否有標(biāo)注,也就是在CRF標(biāo)注出了數(shù)據(jù)庫(kù)中的變量名,這樣我們對(duì)照著看CRF和Raw Data,可以明確知道CRF收集的信息都存放在了數(shù)據(jù)庫(kù)的哪個(gè)變量。


unique/all CRF對(duì)于同一個(gè)CRF頁(yè)面可能在很多訪視都需要收集,所以所有頁(yè)面的CRF是很龐大的,但是這些重復(fù)的頁(yè)面其實(shí)只保留一個(gè)就可以,所以通常我們用Unique CRF。
做SDTM domains/datasets的流程如下:

首先需要用DM提供的unique blank CRF做一下annotation。關(guān)于aCRF也有相應(yīng)的指導(dǎo)原則可以參考:SDTM aCRF Guideline v1.0。
aCRF主要是依據(jù)SDTM IG來進(jìn)行標(biāo)注的,每張頁(yè)面需要標(biāo)注該頁(yè)涉及到哪個(gè)域,收集的信息將被做進(jìn)哪個(gè)變量。標(biāo)注后大概類似下圖。有了aCRF我們就可以根據(jù)aCRF、SDTM IG來寫SDTM specs了。

SDTM specs大概類似這樣,需要描述各個(gè)域的名稱、標(biāo)簽、結(jié)構(gòu)、關(guān)鍵變量、排序變量,需要所有變量的標(biāo)簽、類型、長(zhǎng)度、來源、核心還有定義等等。這些大部分內(nèi)容都可以在SDTM IG中找到(中文項(xiàng)目可以參考SDTM IG 3.2中文版)。

當(dāng)我們被分配到一個(gè)domain,先去查找IG中相關(guān)章節(jié),IG中的req,exp變量都是需要在spec中呈現(xiàn)的,req變量的要求是變量存在且任何記錄都不能有缺值,exp變量的要求是盡量賦值,可以缺失,但該變量必須在SDTM datasets中,要不然P21也是會(huì)報(bào)warning的。所以我們寫spec先把IG中req、exp的變量都放上,對(duì)于perm的變量如果有收集,就寫進(jìn)spec,如果未收集,就可以不做這個(gè)變量。然后對(duì)照aCRF將非SDTM的變量,放進(jìn)SUPP--里。寫Spec的時(shí)候也要注意check aCRF是否標(biāo)注正確,再有經(jīng)驗(yàn)的人也有犯錯(cuò)的機(jī)率。
寫完了SDTM specs就可以按照SDTM specs愉快的開始編程啦!SDTM的編程工作相對(duì)來說是比較簡(jiǎn)單的,雖然太多復(fù)雜的衍生和計(jì)算,但是也會(huì)有一些tricky的處理,比如EPOCH的mapping,SV計(jì)劃外訪視的renumber,LB域LBTOX的衍生,如果coding是外部文件形式傳輸,和raw data mapping需要注意什么等等,后續(xù)會(huì)視情況出相關(guān)文章討論以上問題哦,另外也歡迎大家私信我good questions!

