DB4AI,即Database for AI,是用數(shù)據(jù)庫和數(shù)據(jù)管理的技術(shù)提升AI流水線全過程性能的技術(shù),包括前期的數(shù)據(jù)準備、加速訓(xùn)練推理、降低模型成本、以及產(chǎn)業(yè)化部署等。 在...
DB4AI,即Database for AI,是用數(shù)據(jù)庫和數(shù)據(jù)管理的技術(shù)提升AI流水線全過程性能的技術(shù),包括前期的數(shù)據(jù)準備、加速訓(xùn)練推理、降低模型成本、以及產(chǎn)業(yè)化部署等。 在...
局部優(yōu)化乘積量化 一句話概括本篇文章,在IVF(或者任何粗量化器)的每個cell內(nèi)單獨對殘差訓(xùn)練一個fine-quantizer。之前普遍的方法是對殘差也全局來訓(xùn)。LOPQ是...
十億級深度學(xué)習(xí)向量數(shù)據(jù)集的高效索引 作者來自俄羅斯Yandex 編者的總結(jié) 核心思路是使用VQ而非PQ避免分段產(chǎn)生各分段之間的互信息損失。 技術(shù)手段是使用VQ中的RVQ做兩層...
HCNNG (Hierarchical Clustering-Based Nearest Neighbor Graph)是近些年在多個benchmark中評測位列前茅的圖索引...
如題,又是一個血淚教訓(xùn)。。。 二維vector,比如vector<vector >a,如果要寫入文件,或者讀取,切忌不可fwrite(&a[0][0], sizeof(int...
說明:本人8月5日成功申請到“2020年國家建設(shè)高水平大學(xué)公派研究生項目”聯(lián)合培養(yǎng)博士,由于疫情影響網(wǎng)申時間順延為5月15日至6月10日,本文記錄了我的CSC申請全過程。 申...
Steiner Tree是一個經(jīng)典的NP-hard問題,問題定義不在這里重復(fù)了,主要介紹幾種近年來典型的解法思路。Steiner Forest擴展了Tree的定義,設(shè)置一組起...
本文作者來自丹麥和意大利,曾設(shè)計ann-benchmarks獲得ANN領(lǐng)域廣泛關(guān)注。 編者的思考 只選了數(shù)據(jù)集中的點當做query,可能會有bias。 LID, expans...
2019BIGVIS-Progressive Similarity Search on Time Series Data標題:時間序列similarity-search的一個...
作者來自英偉達 編者:本文只介紹圖結(jié)構(gòu),GPU部分暫時省略。 編者的總結(jié)(圖結(jié)構(gòu)方面) 是NSSG的一個改版,用一個K較大的KNN-Graph做初始化,然后在其中通過兩條繞路...
標題:高維數(shù)據(jù)的最近鄰:hub的產(chǎn)生和影響本文還有擴展版:Hubs in Space: Popular Nearest Neighbors in High-Dimension...
hubness(exact入度)比較大的點,最終在nn-descent產(chǎn)生的Kgraph中的召回普遍比較高,hubness比較小的點則說不準,有的召回高,有的召回低。 原因:...
標題:大規(guī)模高維數(shù)據(jù)可視化作者來自MSRA代碼開源好用:https://github.com/lferry007/LargeVis[https://github.com/lf...
標題:層次化最近鄰圖嵌入以高效降維作者來自德國,代碼開源好用。https://github.com/koulakis/h-nne[https://github.com/kou...
請教下3.2部分概率模型那里,沒有看懂是怎么從knnGraph投影過去的
Visualizing large-scale and high-dimensional dataAbstract: 之前的降維技術(shù)用t-SNE等技術(shù):計算量大我們:LargeVis,利用K近鄰算法,效率和效力都好,對不同的數(shù)據(jù)集表現(xiàn)穩(wěn)定。 Introduction 對于...
Abstract: 之前的降維技術(shù)用t-SNE等技術(shù):計算量大我們:LargeVis,利用K近鄰算法,效率和效力都好,對不同的數(shù)據(jù)集表現(xiàn)穩(wěn)定。 Introduction 對于...
標題:efanna:基于KNN-Graph的超快ANN算法 基本思路:在KNN-Graph上保留一個randomize kd-trees,作為KNN-Graph的入口點 搜索...
Marigold: 高效的高維k-means聚類 ABSTRACT & 1 INTRODUCTION k-means的泛用性不必多說,但在高維空間中,由于距離計算的代價線性...
作者來自東華、UNSW和天津科技大學(xué)。 Abstract 本文想要回答兩個問題: 為什么基于圖的算法搜索性能這么好? 什么樣的數(shù)據(jù)特征會影響搜索性能,以及如何影響? I. I...
標題:通過優(yōu)化的有指導(dǎo)搜索和貪婪算法實現(xiàn)近鄰圖上的兩階段搜索作者來自杭電 編者的總結(jié) 本文將圖上的貪婪查詢分為兩階段,第一階段導(dǎo)航重點在效率,第二階段搜局部近鄰重點在精度。 ...