一些讀書筆記+思考
1. 結(jié)構(gòu)性關(guān)系比年齡、性別等個(gè)體特征更重要,具體的結(jié)構(gòu)性關(guān)系僅存在于不同的場(chǎng)景中
學(xué)者,一般指在高校的老師,這是一個(gè)基本場(chǎng)景。那么學(xué)者在其他場(chǎng)景呢?比如學(xué)術(shù)期刊編委會(huì)、重點(diǎn)實(shí)驗(yàn)室,這些場(chǎng)景與高校場(chǎng)景部分相同,也有區(qū)別??梢哉J(rèn)為,這些場(chǎng)景是學(xué)者的一種拓展,并且有著不同的實(shí)際意義:
期刊編委會(huì)成員大多為該出版物所屬學(xué)科的專家學(xué)者以及這個(gè)領(lǐng)域的權(quán)威人士,編委會(huì)負(fù)責(zé)確定所編出版物的編輯(纂)方針、編纂體例、編選范圍,解決編輯過程中某些重大問題,并對(duì)出版物文稿作最后審定。
國家重點(diǎn)實(shí)驗(yàn)室中,學(xué)術(shù)委員會(huì)由國內(nèi)外科研院所和高等院校中具有很高科研水平并在國內(nèi)外具有一定影響的同行科學(xué)家組成,職責(zé)包括:決定實(shí)驗(yàn)室的研究方向及評(píng)審項(xiàng)目基金指南,評(píng)議研究成果并向有關(guān)部門推薦優(yōu)秀成果和優(yōu)秀研究人員等等。
可以看出,這些拓展的場(chǎng)景中的學(xué)者,一般具有相對(duì)較高的學(xué)術(shù)水平,及一定的影響力,并且擁有著更多的資源,其學(xué)術(shù)社交范圍更廣。研究這些拓展場(chǎng)景中的社會(huì)網(wǎng)絡(luò),有著很高的實(shí)際價(jià)值。
有一個(gè)問題:除此之外,國內(nèi)學(xué)者還有哪些學(xué)術(shù)場(chǎng)景?
2. 通過實(shí)體間的關(guān)系建立的各種結(jié)構(gòu)機(jī)制影響實(shí)體的行動(dòng)、觀念。
最親密的學(xué)者之間共享信息,較疏遠(yuǎn)的社會(huì)關(guān)系也有用,甚至更有用。比如通過清華學(xué)者,可以聯(lián)系到武漢理工的學(xué)者,原因是他們通過重點(diǎn)實(shí)驗(yàn)室建立了社會(huì)關(guān)系。這種路徑,對(duì)于產(chǎn)學(xué)研活動(dòng)中,前期的高校聯(lián)絡(luò)洽談,有著重要作用。
問題:在學(xué)者構(gòu)成的網(wǎng)絡(luò)中,我需要研究哪些關(guān)系?
學(xué)者之間的關(guān)系,包括:
- 論文合著
- 專利合著
- 項(xiàng)目合作
- 重點(diǎn)實(shí)驗(yàn)室學(xué)術(shù)委員會(huì)
- 期刊編委會(huì)
關(guān)系發(fā)生的場(chǎng)景不同,作用也不一樣。產(chǎn)學(xué)研推進(jìn)過程中,離不開現(xiàn)實(shí)地理位置的限制,于是考慮以地理區(qū)域?yàn)橐罁?jù),將場(chǎng)景分為(高校內(nèi),高校外):
高校內(nèi),產(chǎn)生的社會(huì)關(guān)系反映在論文合著、專利合著、項(xiàng)目合作上,是一種強(qiáng)連接,這種關(guān)系維持著學(xué)者的日常科研工作基礎(chǔ),影響著學(xué)者的行為。
高校外,產(chǎn)生的社會(huì)關(guān)系反映在編委會(huì),實(shí)驗(yàn)室學(xué)術(shù)委員會(huì)等跨學(xué)校的組織中,是一種弱連接,這種關(guān)系起著傳遞信息,交換資源的作用,體現(xiàn)著學(xué)者的價(jià)值。
看樣子,這些關(guān)系都有意義,需要思考如何研究這些關(guān)系?是在同一網(wǎng)絡(luò)中,同時(shí)納入這些關(guān)系進(jìn)行研究,還是分為層次的網(wǎng)絡(luò),分開研究?
3. 橋:如果去除一條線,會(huì)將一個(gè)圖表分為多個(gè)部分,則這條線就是橋
有分界點(diǎn)和橋的網(wǎng)絡(luò)更容易受到破壞,例如恐怖基地的秘密網(wǎng)絡(luò),某個(gè)聯(lián)絡(luò)人死亡,網(wǎng)絡(luò)就會(huì)癱瘓。在課題中,是否也有橋的存在,這些橋維持著學(xué)者小團(tuán)體或者高校之間的信息傳遞?如果是,那么找到這些橋,也會(huì)有幫助。
4. 網(wǎng)絡(luò)數(shù)據(jù)的描述總是在網(wǎng)絡(luò)分析之前,常用的描述方法:圖表和矩陣
社會(huì)關(guān)系圖,可以提供直觀的網(wǎng)絡(luò)結(jié)構(gòu)圖。但一旦結(jié)點(diǎn)和關(guān)系數(shù)量增多,就很難看。為了簡(jiǎn)化表示,一個(gè)巨大的網(wǎng)絡(luò)可以在不同的分辨率下實(shí)現(xiàn)可視化,這將是課題中需要反復(fù)調(diào)整的內(nèi)容。
矩陣,通常是用鄰接矩陣來表示網(wǎng)絡(luò)。這種矩陣大多是稀疏的,一旦網(wǎng)絡(luò)規(guī)模增大,鄰接矩陣將無法直接用來計(jì)算,當(dāng)然,會(huì)有一些降維的方法去處理大規(guī)模的矩陣。
實(shí)驗(yàn)中,通常使用networkx工具構(gòu)造初始網(wǎng)絡(luò)數(shù)據(jù),包括結(jié)點(diǎn)(nodes)和邊(edges),直接作為算法輸入,或者可視化軟件輸入即可。
5. 網(wǎng)絡(luò)度量:度分布、聚類系數(shù)、平均路徑長(zhǎng)度
度分布,即結(jié)點(diǎn)度數(shù)的分布,一般真實(shí)網(wǎng)絡(luò)度分布呈現(xiàn)冪律分布。
聚類系數(shù),依據(jù)朋友之間往往也是朋友為思想計(jì)算的。
平均路徑長(zhǎng)度,任意兩結(jié)點(diǎn)的最短連接長(zhǎng)度。
這是在整個(gè)網(wǎng)絡(luò)層面常用的度量方法,還有一些是對(duì)于邊和結(jié)點(diǎn)的度量方法,這里不一一列舉。這些度量標(biāo)準(zhǔn),可以定量的去分析網(wǎng)絡(luò)的狀況,從而有一個(gè)更為全面的認(rèn)識(shí)。
6. 社區(qū)評(píng)價(jià)
存在真實(shí)答案時(shí)的評(píng)價(jià)
- 準(zhǔn)確率和召回率
- F度量
- 純度
- 歸一化互信息
無真實(shí)答案的評(píng)價(jià)
- 基于語義的評(píng)價(jià)
通過分析社區(qū)成員的其他屬性,查看成員之間的一致性。比如查看學(xué)者的研究方向是否相近,輔助辦法可以生成詞云來幫助人工判斷。- 基于聚類質(zhì)量方法的評(píng)價(jià)
誤差平方和和簇間距離是其中兩個(gè)質(zhì)量評(píng)估算法。需要注意,我們必須保證使用的評(píng)價(jià)社區(qū)發(fā)現(xiàn)的聚類質(zhì)量算法應(yīng)該不同于用來發(fā)現(xiàn)社區(qū)的算法。
課題中,研究的是真實(shí)的學(xué)者社區(qū),是沒有真實(shí)答案的,感覺只能采用第二種方法去評(píng)價(jià)社區(qū)結(jié)果。 是否也可以通過手動(dòng)劃分一些學(xué)院的社區(qū),做有有標(biāo)記的評(píng)價(jià)?比如標(biāo)記東南大學(xué)計(jì)算機(jī)學(xué)院老師的社區(qū)。
論文相關(guān)問題+思考
1. 論文解決的實(shí)際問題是什么?
開題報(bào)告中寫的工程應(yīng)用價(jià)值是:
按照企業(yè)科技攻關(guān)項(xiàng)目,預(yù)先了解從事相關(guān)研究的學(xué)者群體及成果,通過企業(yè)家和學(xué)者的信息交換,有望提高產(chǎn)學(xué)研對(duì)接效率。
這里感覺寫的太抽象,需要細(xì)化,思考究竟具體能解決什么問題,或者說,按院系為單位劃分出的學(xué)者社區(qū),有什么用?
實(shí)際上,如果僅僅是把學(xué)者劃分出來,再一股腦用畫圖軟件可視化出來,比如下圖,給人的感覺仍然非常混亂,可以說,沒有太多的實(shí)際作用。
那么,我可以解決哪些實(shí)際問題呢?經(jīng)過一些思考,我暫且想到一些:
- 在全國層面,將學(xué)??醋饕粋€(gè)小團(tuán)體(結(jié)點(diǎn)),可以找到學(xué)校與學(xué)校之間的聯(lián)系。從而,解決產(chǎn)學(xué)研前期,跨校聯(lián)系老師的問題。
- 在學(xué)院層面,將學(xué)者劃分為不同的社區(qū),為搜索學(xué)者團(tuán)體提供支持。
- 在社區(qū)劃分后,可以分析社區(qū)中,哪些結(jié)點(diǎn)處于核心位置,作為產(chǎn)學(xué)研預(yù)調(diào)研中的聯(lián)系推薦人。
- 在社區(qū)劃分后,可以計(jì)算社區(qū)網(wǎng)絡(luò)的聚集系數(shù)、平均路徑長(zhǎng)度等等度量指標(biāo),從而評(píng)價(jià)學(xué)者社區(qū)的狀態(tài),社區(qū)狀態(tài)越好,產(chǎn)學(xué)研對(duì)接效率越高(猜想)
- 除了社區(qū)發(fā)現(xiàn),還可以研究網(wǎng)絡(luò)中,結(jié)點(diǎn)之間的最短路徑,從而可以根據(jù)已聯(lián)絡(luò)學(xué)者,去聯(lián)系更多學(xué)者。
2. 論文研究的數(shù)據(jù)范圍為多大?
論文中,能否只以某個(gè)學(xué)科為例子去研究,比如只研究計(jì)算機(jī)學(xué)科相關(guān)學(xué)者,最后的結(jié)果也只展示計(jì)算機(jī)學(xué)科學(xué)者社區(qū)相關(guān)情況。因?yàn)?,一旦不同學(xué)科混合構(gòu)建網(wǎng)絡(luò),涉及人工環(huán)節(jié)的任務(wù)量會(huì)大大增加。
3. 論文的工作量體現(xiàn)在什么地方?
之前寫小論文,大概做完了整個(gè)預(yù)想的流程,發(fā)現(xiàn)好像沒做什么工作。之前論文設(shè)計(jì)的流程:
獲取數(shù)據(jù) -> 預(yù)處理(構(gòu)建網(wǎng)絡(luò),AT模型提取主題標(biāo)簽) -> 網(wǎng)絡(luò)表示學(xué)習(xí),生成學(xué)者向量 -> 學(xué)者向量聚類,形成學(xué)者社區(qū) -> 社區(qū)評(píng)價(jià)及其可視化
我該如何體現(xiàn)出論文的工作量呢?
4. 社區(qū)劃分結(jié)果的評(píng)價(jià),采用人工評(píng)價(jià),能否說得通?
由于數(shù)據(jù)來源于真實(shí)社會(huì),沒有標(biāo)簽,感覺只能采用人工評(píng)價(jià),或者計(jì)算一些聚集系數(shù)作為最后的社區(qū)劃分的評(píng)價(jià)指標(biāo),答辯老師若質(zhì)疑結(jié)果的可靠性,我該怎么解釋?
5. 論文章節(jié)如何設(shè)計(jì)較好?