《計算語言學》課堂筆記

條件最大熵(20191029)

p(y|x) = \frac{1}{Z(x)} exp(\sum{\lambda_ix_i})

有向圖模型
  • 有向圖模型的分解
    一階馬爾科夫模型也是有向圖模型,是鏈式的
    HMM也是,
    p(s,o) = p(s_1)\prod_{t=2}^{n}p(s_{i-1}|s_{i})\prod_{t=1}^{n}p(o_{i}|s{i})
無向圖模型

團(全連通子圖)、最大團(不被其他團所包含的團)

  • 勢函數(shù):把團映射為正實數(shù),團中不同的取值組合映射到不同的正實數(shù)上。
  • 以團為單位,把聯(lián)合概率分解為勢函數(shù)的乘積,需要歸一化
    P(x1=0, x2=0)=\frac{\phi(0,0)}{\phi(0,0)+\phi(0,1)+\phi(1,0)+\phi(1,0)}
  • 為保證為正數(shù),可以利用指數(shù)勢函數(shù)
有向圖vs無向圖
  • 同:把聯(lián)合分布分解為多個因子
  • 不同:
    有向圖:因子是概率,不需要歸一;不需要歸一,訓練相對高效
    無向圖:因子是勢函數(shù),需要歸一;靈活,但全局歸一代價高
條件隨機場模型(無向圖)

20191119 句法分析

NP,名詞短語;VP,動詞性短語

CFG(上下文無關(guān)句法分信息)

上下文無關(guān)文法的用法

  • 生成裝置。生成語言中的句子 book that flight,不斷替換NP為noun等等。枚舉,窮舉,派生出來。
  • 識別裝置。判斷句子合法
  • 分析裝置。判斷合法+產(chǎn)生句法結(jié)構(gòu)
句法樹(parse)

主要問題:歧義

如何消除歧義?(句法分析)
  • 人工語言的語法分析
    沒有歧義,打多基于上下文無關(guān)的算法(LL分析法,LR分析法)
    由于歧義,對于自然語言,不能直接用,句法分析。
  • 句法分析算法
    大多基于上下文無關(guān)算法
    (1)自頂向下的句法分析“周瑜打敗了曹操”
    從開始符號S出發(fā),不斷使用不同規(guī)則,如果能推到出來,是一個句子。(正向)
    (2)自底向上,逆向規(guī)約
    先分詞,不斷使用規(guī)則規(guī)約,越來越完整的結(jié)構(gòu)。從葉子結(jié)點開始構(gòu)造句法樹。
分析算法的確定性

自頂向下,左部相同的重寫規(guī)則。
自底向下,出租汽車。
回溯慢,重復(fù)分析。

Earley算法
  • Predictor():作用于點號時非終結(jié)符號的狀態(tài),產(chǎn)生新狀態(tài)
  • Scanner():點號后是中介狀態(tài),掃描
  • Completer():一個子樹完成分析
廣義LR算法
  • 標準算法
    http://www.itdecent.cn/p/dd89025f95c1
  • 廣義算法
    遇到多個動作,單個分析進程分裂為多個進程,棧頂分裂為多個棧頂。
    存儲結(jié)構(gòu):子樹共享
    局部歧義壓縮:把發(fā)生局部歧義子樹的根節(jié)點合并為一個(收集結(jié)點)。
    壓縮共享森林
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容