FastGPT導(dǎo)入表格數(shù)據(jù)集經(jīng)驗

背景

公司AI問答系統(tǒng)使用FastGPT進(jìn)行AI知識庫建設(shè),我有一批問答類數(shù)據(jù),導(dǎo)出成了Excel,現(xiàn)在需要使用FastGPT表格數(shù)據(jù)集能力導(dǎo)入。原以為很簡單,實際遇到了一些小坑,在此總結(jié)一下,大家不要重蹈覆轍。

正確姿勢

先直接說正確方法:

第一步,F(xiàn)astGPT后臺知識庫-新建/導(dǎo)入-選擇表格數(shù)據(jù)集:


image.png

第二步,點擊下載CSV模板:


image.png

第三步,閱讀模板要求,F(xiàn)astGPT表格模板要求只能有兩列,index可以當(dāng)做問題,content可以當(dāng)做答案,問答對形式,每一行就是一個問答對。
其中CSV要求內(nèi)容不能包含雙引號,實測沒有影響,我有很多雙引號的文本都沒受影響。


image.png

第四步,將手上的Excel格式數(shù)據(jù)按照要求合并成兩列,形成問、答形式,并且另存為CSV格式:

image.png

第五步,將第四步整理好的CSV文件上傳,一路下一步即可。最后我們在知識庫列表下就能看到上傳的CSV知識庫,點擊進(jìn)去能看到每一行數(shù)據(jù)就是一個索引塊,效果符合要求:

我的CSV知識庫有幾萬條數(shù)據(jù),只需耐心等待FastGPT自動生成索引即可。

image.png
image.png

錯誤誤區(qū)

正確姿勢看似簡答,實際在操作過程中,我也躺了很多坑,這里分享一下幾個誤區(qū):

誤區(qū)一:不要用xlsx之類的Excel格式導(dǎo)入,只能用csv格式。xlsx格式導(dǎo)入會出現(xiàn)各種錯亂,F(xiàn)astGPT似乎把Excel當(dāng)作一個超大文本做自動切割了。

誤區(qū)二:能不用問答對提取就不用,如果你的數(shù)據(jù)集已經(jīng)足夠結(jié)構(gòu)化,就不要用FastGPT的問答對模式,使用直接分塊即可。

問答對模式下,F(xiàn)astGPT會將很多詳細(xì)信息忽略,只留簡單的答案,如果你的AI知識庫要做到即能回復(fù)原因又能給詳細(xì)解決方案,建議不用FastGPT的問答對提取。

image.png

問答對模式的效果:

image.png

擴展

如何將Excel的多列數(shù)據(jù)整合成兩列(index和content)?

我們可以利用Excel的公式,將多列文本合并到一起,詳細(xì)細(xì)節(jié)可以問AI:

image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容