bm25算法是TF-IDF算法的改進(jìn)版本，考慮了查詢中單詞在文檔中出現(xiàn)的頻率、單詞自身的重要性和文檔的長(zhǎng)度
應(yīng)用：信息檢索領(lǐng)域的排名函數(shù)

公式

$Score(D,Q)=\sum_{i=1}^nIDF(q_i)\cdot\frac{f(q_i,D)\cdot(k_1+1)}{f(q_i,D)+k_i1(1-b+b\frac{|D|}{avgdl})}$
說(shuō)明：

$Score(D,Q)$ 表示查詢 $Q$ 和文檔 $D$ 的匹配分
首先對(duì)查詢 $D$ 進(jìn)行分詞，獲得每個(gè)單詞 $q_i$
計(jì)算單詞 $q_i$ 的逆文檔頻率 $IDF(q_i)=\log(\frac{N-n(q_i)+0.5}{n(q_i)+0.5}+1)$ ，其中 $N$ 為文檔總數(shù)（常量）， $n(q_i)$ 是包含單詞 $q_i$ 的文檔數(shù)，意味著出現(xiàn)單詞 $q_i$ 的文檔數(shù)越多，單詞越不重要。例如：the，is，是，的這些單詞。
$f(q_i,D)$ 表示單詞 $q_i$ 在文檔D中出現(xiàn)的頻率，出現(xiàn)的頻率越高，說(shuō)明匹配分越高。
$k_1$ ：正系數(shù)，控制詞頻的飽和度，取值范圍[1.2,2]。 $k_1$ 越大，詞頻，即單詞 $q_i$ 在文檔D中出現(xiàn)的頻率越大，文檔D的匹配分?jǐn)?shù)越高
$b$ ：通常設(shè)置為0.75，取值范圍[0,1]，控制文檔長(zhǎng)度對(duì)評(píng)分的影響，b越大影響越大，0時(shí)沒(méi)有影響。文檔長(zhǎng)度越大，評(píng)分越低。 $avgdl$ 為所有文檔的平均長(zhǎng)度，為常量。 $|D|$ 為文檔 $D$ 的長(zhǎng)度。 $|D|$ 越大，分母越大，則分?jǐn)?shù)越低。

與TFIDF的區(qū)別

$\mathrm{tfidf_{i,j}}=\mathrm{idf_{i,j}}\cdot\mathrm{tf_{i,j}}=\lg\frac{|D|}{|\{j:t_i\in d_j\}|}\cdot \frac{n_{i,j}}{\sum_kn_{i,k}}$

$\mathrm{tf_{i,j}}$ 表示單詞 $n_{i,j}$ 的詞頻，詞頻越高，重要性越高
$\mathrm{tfidf_{i,j}}$ 表示單詞 $n_{i,j}$ 在所有文檔中出現(xiàn)的頻率的倒數(shù)，再以log為底數(shù)得到，出現(xiàn)的頻率越高，越不重要
bm25相對(duì)tfidf，引入了系數(shù)k1，b，衡量了tf和文檔長(zhǎng)度對(duì)評(píng)分的影響

Best Matching 25 其中25的含義是此算法經(jīng)過(guò) 25 次迭代調(diào)整之后得到的，這也是這個(gè)匹配算法經(jīng)久不衰的原因。