這篇東西本質(zhì)上是我自己想要解決一個(gè)假象的問(wèn)題而鼓搗出來(lái)的計(jì)算稿。
由于這方面的東西所涉及的知識(shí)都不深,所以可以在不查文獻(xiàn)和前人工作的情況下自己從零開(kāi)始硬推所有結(jié)論。這樣的做法當(dāng)然比較浪費(fèi)自己的時(shí)間,但也算是熟悉一下里面整個(gè)邏輯脈絡(luò)的好方法吧。
先從我們已經(jīng)熟悉的東西開(kāi)始入手。
一篇文章A,假定我們知道它有p的可能使得看過(guò)它的人為其點(diǎn)贊,那么最后當(dāng)有n人看時(shí),點(diǎn)贊數(shù)為x的概率就是二次分布:

反過(guò)來(lái),假定我們已經(jīng)知道A在有n人看時(shí)有x人為其點(diǎn)贊,那么A使得一個(gè)新的人看后為其點(diǎn)贊的概率p的分布就滿足Beta分布:

這是一個(gè)靜態(tài)的情況,所以也是很簡(jiǎn)單的。
我們當(dāng)然可以考慮其動(dòng)態(tài)的拓展,比如說(shuō)在所有前提條件都不變的情況下,假定在t1時(shí)刻有n1人看過(guò)A,點(diǎn)贊數(shù)位x0,而在t2時(shí)刻有n2人看過(guò),那么求此時(shí)點(diǎn)贊數(shù)x的分布。
這個(gè)問(wèn)題也很簡(jiǎn)單:

事實(shí)上,這個(gè)代表了從< n0, x0 >分布態(tài)到< n, x >分布態(tài)的“躍遷”的結(jié)果并不考慮這個(gè)“躍遷”過(guò)程究竟是如何發(fā)生的,它所關(guān)心的僅僅是數(shù)量。這就表示,在t1到t2這個(gè)時(shí)間段里無(wú)論n和x是勻速改變還是變速改變,都不影響結(jié)果。
于是,我們就可以自然地問(wèn)下一個(gè)問(wèn)題了:
假定單位時(shí)間里閱讀文章A的人的數(shù)量為l,點(diǎn)贊的概率為p,那么請(qǐng)問(wèn)t時(shí)刻有x人為文章點(diǎn)贊的概率為多少?以及,如果t時(shí)刻有x人點(diǎn)贊,那么文章A吸引人點(diǎn)贊的概率為p的概率為多少?
這個(gè)問(wèn)題當(dāng)然也是很簡(jiǎn)單的:

你看,是不是一點(diǎn)技術(shù)含量都沒(méi)有?
下面,我們接著修改問(wèn)題:
假定,增速l每經(jīng)過(guò)單位時(shí)間就下降一定的百分比,那么此時(shí)會(huì)發(fā)生什么?
這個(gè)問(wèn)題當(dāng)然也是一點(diǎn)都不難的:

是不是依然LOW到爆?
我們可以將問(wèn)題本身進(jìn)一步“復(fù)雜化”,比如我們可以考慮點(diǎn)贊的人會(huì)為閱讀量帶來(lái)變化的情況:
每一次點(diǎn)贊都有q的概率引起一個(gè)新人(或者可以等價(jià)地說(shuō)都有可能引起q個(gè)新人)來(lái)閱讀。
在這個(gè)情況下,問(wèn)題就變得有趣了。
我們先考慮最簡(jiǎn)單的情況,即此時(shí)單位時(shí)間新增的閱讀人數(shù)的基本值是固定的,而在基本值之上則是因?yàn)樯弦粋€(gè)時(shí)間點(diǎn)上點(diǎn)贊的人而帶來(lái)新增量。
先不考慮分布,單獨(dú)來(lái)看“最概然”的情況,此時(shí)Δmt=pΔnt,從而結(jié)果很簡(jiǎn)單明了:

而此時(shí)點(diǎn)贊人數(shù)與總?cè)藬?shù)之間的關(guān)系是不會(huì)因?yàn)辄c(diǎn)贊導(dǎo)致更多的人閱讀這件事所干擾的,因此我們有:

接著,考慮分布的情況:

其中nt代表了t時(shí)刻文章的總閱讀數(shù),而mt則是t時(shí)刻文章的總喜歡數(shù),從而Δnt就是t時(shí)刻新增的閱讀數(shù),Δmt就是新增的喜歡數(shù)。因此,很容易就可以給出當(dāng)新增閱讀數(shù)Δnt給定時(shí)新增點(diǎn)贊數(shù)Δmt的分布:

我們將組合系數(shù)用Γ函數(shù)拓展:

這么一來(lái),很顯然現(xiàn)在分布函數(shù)P對(duì)所有參數(shù)都可以連續(xù)取值:

當(dāng)x從0到n連續(xù)變化時(shí),該函數(shù)可以做一個(gè)額外的歸一化,這個(gè)歸一化因子就是上述式的積分,其解析結(jié)果一下子沒(méi)算出來(lái),不過(guò)基本是非常接近1的,所以下面我們既當(dāng)1來(lái)算。
現(xiàn)在,我們可以給定t時(shí)刻新增閱讀數(shù)Δnt時(shí)t+1時(shí)刻的新增閱讀數(shù)Δnt+1的分布:

這就是說(shuō),假定在t時(shí)刻,總閱讀數(shù)nt的分布為P(i,t),而新增閱讀數(shù)Δnt的分布為ΔP(i,t),那么下一刻的新增閱讀數(shù)分布就是:

進(jìn)而對(duì)于總閱讀數(shù)的分布就有:

可見(jiàn)這里的關(guān)鍵就是遞增分布ΔP(i,t),掌握了ΔP(i,t)自然也就掌握了P(i,t)。
已知ΔP(i,1) = δ(i-l),從而我們自然就可以得到以下結(jié)果:

其中2F1是高斯超幾何函數(shù),從而這個(gè)結(jié)果我們可以用Mathematica等工具來(lái)求出(而且可以求導(dǎo)任意精度哦),但卻沒(méi)法寫(xiě)出比這個(gè)形式更簡(jiǎn)潔的解析結(jié)了(當(dāng)然是在l和i都不給具體值的情況下)。
我們可以預(yù)期,隨著t的增長(zhǎng),ΔP(x, t)的形狀依然是和二次分布相似的鐘形,但可能會(huì)更緩和或者更尖銳,從而最終影響到的是我們計(jì)算其熵分布以及Wilson上下限的位置——這點(diǎn)讓人很不爽。
所以,我們下面的人物就是盡可能找出這個(gè)近似解。
從上面給出的ΔP(i, 3)開(kāi)始這個(gè)任務(wù)。
從簡(jiǎn)單的分析可以知道,由于ΔP(i, 2)非零的范圍為l到l(1 + q),因此ΔP(i, 3)的非零范圍為l到l(1 + q + q2)。而ΔP(i, 2)對(duì)i的預(yù)期為l(1 + pq),ΔP(i, 3)對(duì)i的預(yù)期為l(1 + pq + (pq)2),因此我們可以猜測(cè)ΔP(i, 3)的近似表達(dá)為:

當(dāng)然,事實(shí)上這樣的表示當(dāng)然只是近似的。
比如說(shuō),由于q很可能不是1,所以事實(shí)上我們有如下性質(zhì):

其中用到了上面提到過(guò)的歸一化的結(jié)論。
因此,前面給出的近似表達(dá)實(shí)際上必然是先對(duì)世界結(jié)果做了歸一化的。當(dāng)然這并不影響結(jié)論。
更主要的方面,就是我們利用Mathematics對(duì)部分情況做數(shù)值模擬后,會(huì)發(fā)現(xiàn)上述近似只能在一定程度上表示分布的最概然位置< x >,整個(gè)分布形態(tài)與真實(shí)分布依然是存在差異的,一個(gè)更好的近似是如下形式:

推廣開(kāi)去就是:

這個(gè)近似表達(dá)在t小的時(shí)候會(huì)較好,尤其是峰值左側(cè),峰值右側(cè)的偏離會(huì)較大。但其有點(diǎn)是期望值與峰值與實(shí)際情況相符,尤其是期望值這部分(峰值會(huì)存在一個(gè)小偏離,但不算很離譜,畢竟存在高斯超幾何函數(shù))。
我們依然采用這個(gè)近似,從而現(xiàn)在可以得到這么一個(gè)結(jié)果:

和之前的結(jié)果一樣,這個(gè)近似結(jié)果在t變大后會(huì)有誤差,但總體來(lái)說(shuō)還是可以在一定程度上對(duì)結(jié)果進(jìn)行刻畫(huà)的。而且這個(gè)結(jié)果也還沒(méi)有歸一化。
進(jìn)一步,我們就得到t時(shí)刻的點(diǎn)贊數(shù)分布:

可見(jiàn),當(dāng)p確定時(shí),i的分布是t的函數(shù),而且?guī)缀蹙褪嵌畏植肌?br> 但,反過(guò)來(lái),如果在t時(shí)刻我們已知道點(diǎn)贊數(shù)為x,那么此時(shí)p的分布為何呢?

這是一個(gè)非常復(fù)雜的分布,因?yàn)閚t本身就是p的函數(shù),而且還是一個(gè)很復(fù)雜的函數(shù)。
由于nt的形式

通過(guò)分析我們可以知道它隨著pq的增加而增加,同時(shí)也隨著t的增長(zhǎng)而增長(zhǎng),是一個(gè)單調(diào)函數(shù)。從而x的最大值為

當(dāng)q小于1時(shí),這個(gè)函數(shù)漸近為t的線性函數(shù);而當(dāng)q等于1時(shí),該函數(shù)為t的二次型函數(shù);當(dāng)q大于1時(shí),則是一個(gè)指數(shù)函數(shù)。
我們現(xiàn)在比較好奇與關(guān)心的,是該函數(shù)的期望值與最大值的位置,這兩個(gè)一般并不一致,尤其在某些極端情況下。
我們這里主要考慮極大值所在的位置。
由于真正的p的分布是關(guān)于Beta分布的積分式,非常難以分析,而近似的結(jié)果中由于nt顯含p,所以也是一個(gè)非常難以下手的東西,直接通過(guò)尋常的手段來(lái)求極大值的位置顯然是難以完成計(jì)算的,所以我們不妨換個(gè)思路。
在x的分布中,我們知道在x=np的時(shí),其概率達(dá)到最大值,因此一個(gè)很直接的想法就是:對(duì)于p的分布來(lái)說(shuō),其最大值應(yīng)該也是出現(xiàn)在x=ntp的位置上,從而這是一個(gè)代數(shù)方程:

其中P = pq。
分析方程的左右兩邊,我們發(fā)現(xiàn)它們都有一個(gè)必過(guò)的點(diǎn):P = 1。
方程在P < 1的部分與P > 1的部分都有可能有解。
對(duì)于P < 1的部分,左邊的曲線y = Pt+2很有可能是接近“」”形的,同時(shí)左邊的曲線在P=0的位置上非零,所以有解的條件就是左邊的二次曲線的最低點(diǎn)落在[0,1]區(qū)間,且最低點(diǎn)要“幾乎”不超過(guò)0。其中第一個(gè)要求很容易滿足,第二個(gè)要求則最終給出:

當(dāng)然,事實(shí)上這個(gè)條件可以進(jìn)一步利用右側(cè)函數(shù)最低點(diǎn)時(shí)左側(cè)函數(shù)值隨著t的下確界來(lái)進(jìn)一步細(xì)化:

很顯然,這個(gè)由下確界得到的條件,也只有在t很大的時(shí)候才會(huì)滿足了。
另一方面,在P > 1的部分,由于t必然是大于0的,所以方程左邊總會(huì)從某個(gè)P開(kāi)始超越方程右邊,從而這個(gè)P就是解,而要出現(xiàn)這個(gè)局面,就要求在P = 1這個(gè)點(diǎn)上方程右邊的增長(zhǎng)速度必須比左邊快。
通過(guò)簡(jiǎn)單分析可以知道,兩個(gè)函數(shù)的一階導(dǎo)在P = 1這個(gè)點(diǎn)上是相同的,都是t + 2,因此我們直接比較二階導(dǎo),從而有解的條件為:

其中條件三來(lái)自P的最大值為q——這個(gè)同時(shí)也給出了前面就給出過(guò)的xmax,所以其實(shí)是自然滿足的。
同時(shí),我們可以注意到,這個(gè)條件實(shí)際上要求了左邊曲線在P = 1的右側(cè)是位于右邊曲線之下的,這也就是說(shuō)在P = 1的左側(cè),左邊曲線在右邊曲線之上,而我們又知道P = 0的位置上,右邊曲線在左邊曲線之上,這結(jié)合之前關(guān)于P < 1部分的“幾乎不超過(guò)零”要求就可以知道,在現(xiàn)在這個(gè)要求滿足的情況下,兩條曲線的焦點(diǎn)會(huì)發(fā)生在左邊近“」”形曲線那翹起的尾部。
也就是說(shuō),條件二同時(shí)給出了P < 1和P > 1有解的條件,而條件一只是給出了在平緩段有解的條件。
從而,也就是說(shuō),滿足條件二時(shí),上述方程會(huì)有三個(gè)解,一個(gè)是P < 1的解,一個(gè)是P = 1的解,而另一個(gè)是P > 1的解;如果條件二不滿足,條件一滿足,那么上述方程依然會(huì)有三個(gè)解,其中兩個(gè)是P < 1的解,一個(gè)是P = 1的解;如果條件一也不滿足,那么我們只能確定在P = 1上有一個(gè)解,在P < 1的區(qū)域可能有也可能沒(méi)有解。
當(dāng)然,上面僅僅是從方程是否有解的角度來(lái)做判斷,實(shí)際的積分函數(shù)中由于代數(shù)方程的解附近的p對(duì)于積分都有貢獻(xiàn),所以實(shí)際上是代數(shù)方程左側(cè)所給出的曲線與右側(cè)所給出的曲線的“足夠接近”的區(qū)域中的p都會(huì)給出貢獻(xiàn),從而并不完全符合上述代數(shù)方程——尤其在條件一與條件二都不滿足的區(qū)域,這種情況給出了不局限在pq = 1處的解——即p分布的最大值所在位置。
我們可以先將上述代數(shù)方程簡(jiǎn)化為如下形式:

從而,對(duì)于pq < 1的部分,我們可以做近似,取左側(cè)只保留p2項(xiàng),從而有解:

這個(gè)解在P很小即使pbar的時(shí)候符合得很好。
另一方面,我們知道這個(gè)方程必有P=1的解,于是在該點(diǎn)附近做展開(kāi):

因此,我們可以獲得在P=1附近的“中段”解:

以及,最后,我們考慮P遠(yuǎn)大于1的區(qū)域,從而可以的大近似解:

從而,我們現(xiàn)在分解將P很小、P在1附近和P很大這三個(gè)區(qū)域的近似解找到了:

將上述三段曲線結(jié)合起來(lái)的方案有很多,這里采用如下的近似形式:

這個(gè)方案就是用P1本身的a次冪作為P2的權(quán)重因子,因?yàn)槲覀冎繮1在pq遠(yuǎn)大于的區(qū)域是趨于1的,所以其本身就可以用作權(quán)重。
至此,我們終于找到了當(dāng)x已知時(shí)p的最概值的近似函數(shù),從而也就找到了我們所要求解的p的分布:

這個(gè)近似分布,與實(shí)際情況的問(wèn)題度還是很讓人滿意的。
有了分布,那么我們接下來(lái)當(dāng)然可以討論“最大熵值”的問(wèn)題了,即在分布中處于峰值的1/e大小的p值,在通訊中就可以看做是“半波寬”。
在《點(diǎn)贊的有多少人喜歡?》一文中已經(jīng)對(duì)一個(gè)最簡(jiǎn)單的情況做過(guò)了分析,這里采用完全相同的手段來(lái)獲取這個(gè)最大熵下限p。
對(duì)于前面所得到的近似分布,其最大值當(dāng)然是出現(xiàn)在我們所計(jì)算出的p的峰值近似值的位置,從而我們可以構(gòu)造如下函數(shù):

很顯然,這個(gè)函數(shù)在目標(biāo)峰值附近的時(shí)候是近似為1的,從而我們所要求的最大熵值就是該函數(shù)為1/e時(shí)的值:

它在nt足夠大的時(shí)候可以做Taylor展開(kāi)得:

或者參照之前提到的那篇文章中的方案,加上一個(gè)額外的修正項(xiàng):

從而,我們現(xiàn)在有了關(guān)于在知道x和t的情況下,p的合理估計(jì)了:

因此,至此,我們關(guān)心的分布與p值隨著時(shí)間的演化問(wèn)題,就算是有了一個(gè)初步的結(jié)果了。
當(dāng)然,很顯然的,有了這些其實(shí)問(wèn)題距離最后的解決還有很遠(yuǎn)。因?yàn)槲覀円话愣詫?duì)于這樣的系統(tǒng),知道的是x,t都未必是已知的,更別說(shuō)q了。
我們往往需要做的,是在一個(gè)t足夠大以至于不再重要的情況下,并認(rèn)為q是一個(gè)系統(tǒng)性參數(shù)從而不隨文章的不同而不同,這么一個(gè)情況下來(lái)從x獲得p。
面對(duì)這樣的問(wèn)題,顯然我們還有很長(zhǎng)的路要走。
本文遵守創(chuàng)作共享CC BY-NC-SA 4.0協(xié)議
通過(guò)本協(xié)議,您可以分享并修改本文內(nèi)容,只要你遵守以下授權(quán)條款規(guī)定:姓名標(biāo)示 、非商業(yè)性、相同方式分享。
具體內(nèi)容請(qǐng)查閱上述協(xié)議聲明。
本文禁止一切紙媒,即印刷于紙張之上的一切組織,包括但不限于轉(zhuǎn)載、摘編的任何應(yīng)用和衍生。網(wǎng)絡(luò)平臺(tái)如需轉(zhuǎn)載必須與本人聯(lián)系確認(rèn)。
如果喜歡簡(jiǎn)書(shū),想要下載簡(jiǎn)書(shū)App的話,輕戳這里~~
<small>私人推薦訂閱專題:《有意思的文章》、《嚴(yán)肅碼匠圈》</small>