bm25算法詳解

bm25算法是TF-IDF算法的改進(jìn)版本,考慮了查詢中單詞在文檔中出現(xiàn)的頻率、單詞自身的重要性和文檔的長(zhǎng)度
應(yīng)用:信息檢索領(lǐng)域的排名函數(shù)

公式

Score(D,Q)=\sum_{i=1}^nIDF(q_i)\cdot\frac{f(q_i,D)\cdot(k_1+1)}{f(q_i,D)+k_i1(1-b+b\frac{|D|}{avgdl})}
說(shuō)明:

  1. Score(D,Q)表示查詢Q文檔D的匹配分
  2. 首先對(duì)查詢D進(jìn)行分詞,獲得每個(gè)單詞q_i
  3. 計(jì)算單詞q_i的逆文檔頻率IDF(q_i)=\log(\frac{N-n(q_i)+0.5}{n(q_i)+0.5}+1),其中N為文檔總數(shù)(常量),n(q_i)是包含單詞q_i的文檔數(shù),意味著出現(xiàn)單詞q_i的文檔數(shù)越多,單詞越不重要。例如:the,is,是,的這些單詞。
  4. f(q_i,D)表示單詞q_i在文檔D中出現(xiàn)的頻率,出現(xiàn)的頻率越高,說(shuō)明匹配分越高。
  5. k_1:正系數(shù),控制詞頻的飽和度,取值范圍[1.2,2]。k_1越大,詞頻,即單詞q_i在文檔D中出現(xiàn)的頻率越大,文檔D的匹配分?jǐn)?shù)越高
  6. b:通常設(shè)置為0.75,取值范圍[0,1],控制文檔長(zhǎng)度對(duì)評(píng)分的影響,b越大影響越大,0時(shí)沒(méi)有影響。文檔長(zhǎng)度越大,評(píng)分越低。avgdl為所有文檔的平均長(zhǎng)度,為常量。|D|為文檔D的長(zhǎng)度。|D|越大,分母越大,則分?jǐn)?shù)越低。

與TFIDF的區(qū)別

公式

\mathrm{tfidf_{i,j}}=\mathrm{idf_{i,j}}\cdot\mathrm{tf_{i,j}}=\lg\frac{|D|}{|\{j:t_i\in d_j\}|}\cdot \frac{n_{i,j}}{\sum_kn_{i,k}}

  1. \mathrm{tf_{i,j}}表示單詞n_{i,j}的詞頻,詞頻越高,重要性越高
  2. \mathrm{tfidf_{i,j}}表示單詞n_{i,j}在所有文檔中出現(xiàn)的頻率的倒數(shù),再以log為底數(shù)得到,出現(xiàn)的頻率越高,越不重要
  3. bm25相對(duì)tfidf,引入了系數(shù)k1,b,衡量了tf和文檔長(zhǎng)度對(duì)評(píng)分的影響

Best Matching 25 其中25的含義是此算法經(jīng)過(guò) 25 次迭代調(diào)整之后得到的,這也是這個(gè)匹配算法經(jīng)久不衰的原因。

參考文章

RAG提效利器——BM25檢索算法原理和Python實(shí)現(xiàn)
科普一下Elasticsearch中BM25算法的使用

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. bm25 是什么? bm25 是一種用來(lái)評(píng)價(jià)搜索詞和文檔之間相關(guān)性的算法,它是一種基于概率檢索模型提出的算法...
    山的那邊是什么_閱讀 29,799評(píng)論 0 3
  • 1,TF?IDF算法 TF是指歸一化后的詞頻,IDF是指逆文檔頻率。給定一個(gè)文檔集合D,有d1,d2,d3,......
    sudop閱讀 6,749評(píng)論 0 4
  • TFIDF 先復(fù)習(xí)一下 tfidf,tf是詞頻,即某個(gè)詞 i 在 文章 j 中出現(xiàn)的頻率。分母是文章中所有詞的個(gè)數(shù)...
    xieyan0811閱讀 637評(píng)論 0 0
  • 背景:延續(xù)上篇寫了TF/IDF的公式解析,本篇為BM25解析簡(jiǎn)單介紹。BM25起源于 概率相關(guān)性模型,而不是矢量空...
    雙人余_先生閱讀 1,335評(píng)論 0 0
  • TF-IDF和BM25搜索引擎排序中常用到的兩種Score計(jì)算方式,用于評(píng)估兩個(gè)文檔的相關(guān)度。本文會(huì)介紹下兩種算法...
    游杜漸閱讀 1,758評(píng)論 0 0

友情鏈接更多精彩內(nèi)容