背景
公司AI問答系統(tǒng)使用FastGPT進(jìn)行AI知識庫建設(shè),我有一批問答類數(shù)據(jù),導(dǎo)出成了Excel,現(xiàn)在需要使用FastGPT表格數(shù)據(jù)集能力導(dǎo)入。原以為很簡單,實際遇到了一些小坑,在此總結(jié)一下,大家不要重蹈覆轍。
正確姿勢
先直接說正確方法:
第一步,F(xiàn)astGPT后臺知識庫-新建/導(dǎo)入-選擇表格數(shù)據(jù)集:

第二步,點擊下載CSV模板:

第三步,閱讀模板要求,F(xiàn)astGPT表格模板要求只能有兩列,index可以當(dāng)做問題,content可以當(dāng)做答案,問答對形式,每一行就是一個問答對。
其中CSV要求內(nèi)容不能包含雙引號,實測沒有影響,我有很多雙引號的文本都沒受影響。

第四步,將手上的Excel格式數(shù)據(jù)按照要求合并成兩列,形成問、答形式,并且另存為CSV格式:

第五步,將第四步整理好的CSV文件上傳,一路下一步即可。最后我們在知識庫列表下就能看到上傳的CSV知識庫,點擊進(jìn)去能看到每一行數(shù)據(jù)就是一個索引塊,效果符合要求:
我的CSV知識庫有幾萬條數(shù)據(jù),只需耐心等待FastGPT自動生成索引即可。


錯誤誤區(qū)
正確姿勢看似簡答,實際在操作過程中,我也躺了很多坑,這里分享一下幾個誤區(qū):
誤區(qū)一:不要用xlsx之類的Excel格式導(dǎo)入,只能用csv格式。xlsx格式導(dǎo)入會出現(xiàn)各種錯亂,F(xiàn)astGPT似乎把Excel當(dāng)作一個超大文本做自動切割了。
誤區(qū)二:能不用問答對提取就不用,如果你的數(shù)據(jù)集已經(jīng)足夠結(jié)構(gòu)化,就不要用FastGPT的問答對模式,使用直接分塊即可。
問答對模式下,F(xiàn)astGPT會將很多詳細(xì)信息忽略,只留簡單的答案,如果你的AI知識庫要做到即能回復(fù)原因又能給詳細(xì)解決方案,建議不用FastGPT的問答對提取。

問答對模式的效果:

擴展
如何將Excel的多列數(shù)據(jù)整合成兩列(index和content)?
我們可以利用Excel的公式,將多列文本合并到一起,詳細(xì)細(xì)節(jié)可以問AI:
