Define.xml 文件是臨床試驗需要提交的重要文件之一,該文件支持以機器可讀的格式進行數(shù)據(jù)集元數(shù)據(jù)的交換。Define文件中有幾個重要部分,我下面來一一介紹。

1. Tabulation Datasets

Tabulation Dataset 的內(nèi)容包括用于提交的SDTM域的列表(圖片中只截取了一小部分數(shù)據(jù)集)、域的結構、域的關鍵變量以及鏈接至SAS傳輸文件的鏈接。這里要注意域的展示順序,按域的類別依次排列: TRIAL DESIGN, SPECIAL PURPOSE, INTERVENTIONS, EVENTS, FINDINGS, FINDINGS ABOUT, RELATIONSHIP。域的結構(Structure),我們可以參考SDTM IG中的說明,如下圖:

2. Tabulation Dataset Overview

每一個提交的SDTM數(shù)據(jù)集,都會有對應的Overview。這部分內(nèi)容包括變量定義、域的關鍵變量、變量類型(text, integer, float, datetime, date),來源(Origin)和受控術語(Controlled Terminology)。變量可以鏈接至VLM(Value Level Metadata),也可以了連接至CT(Control Terminology)。以TI數(shù)據(jù)集為例,上圖展示了TI數(shù)據(jù)集的Overview的情況。變量IECAT具有受控術語,內(nèi)容為INCLUSION、EXCLUSION,點擊對應鏈接,Define文件會跳轉到Controlled Terminology模塊的對應位置,如下圖:

3. Value Level Metadata (VLM)
VLM提供了變量在具體條件下元數(shù)據(jù)的信息,包括變量名,where語句(變量子集的條件),變量類型,長度,來源,受控術語。VLM可以應用到任何具有取值列表的變量中,通常有,--TESTCD,--ORRES,--ORRESU,--STRES,--STRESU。舉個例子,對于不同的LB.LBTESTCD,LB.LBORRESU具有不同類型的值。

4. Controlled Terminology (CT)
受控術語包含一個臨床試驗變量的所有允許取值,通常取值范圍與CRF中變量的所有可能取值一致。CT包含Code(原始值),Decode(編碼值,如果有就提供);對于CDSIC變量,還包含Alias List Code(Codelist),Alias Value Code(C-code)以及Extensible list values(擴展列表值)。
對照著例子,來講解下。以下內(nèi)容是SDTM Terminology 2020-06-26中UNIT的內(nèi)容。矩形標記的值C71620,是Codeist UNIT的Alias List Code值,即CDSIC對UNIT的編碼;標注1 C25613,是 '%' 的Alias Value Code值,即CDSIC對UNIT具體值的編碼;標注3 “Yes” 說明UNIT這個Codelist是可擴展的,如果研究中所用單位不在CDSIC提供的列表中,可以在Define中UNIT CT列表中添加這個值,但這個值是沒有CDSIC的標準編碼Alias Value Code。

數(shù)據(jù)來源: SDTM Terminology 2020-06-26
我們來看一下某個項目中 LBSTRESU 的CT列表。標注1是這個CT的CDSIC的編碼;標注2是 ‘%’ 這個值的CDSIC的編碼;標注3處,‘ng/mL’的編碼為 ‘*’,因為CDSIC提供的CT列表中并沒有這個值,所以它為擴展值(Extended Value)。

5. Computational Algorithms
Computation Algorithm描述產(chǎn)生變量值的方法,這些變量的來源為“Defived”。CA包括方法名稱、方法類型以及方法的具體描述。

6. Comment
Comments是對變量的描述。如果描述的內(nèi)容較短,描述就在Define.xml文件中展示;如果描述的內(nèi)容較長,描述就保存在附件中作為外部文件中引用。
