faiss

shawroad · shawroad · commit 143b1e53802b · 2021-08-10T14:15:56.000+08:00
diff --git a/Faiss&#30340;&#20351;&#29992;/001-&#20351;&#29992;&#27431;&#24335;&#36317;&#31163;&#21644;&#20869;&#31215;&#30340;&#26041;&#24335;&#26816;&#32034;.py b/Faiss&#30340;&#20351;&#29992;/001-&#20351;&#29992;&#27431;&#24335;&#36317;&#31163;&#21644;&#20869;&#31215;&#30340;&#26041;&#24335;&#26816;&#32034;.py
diff --git a/Faiss&#30340;&#20351;&#29992;/001-&#27431;&#24335;&#36317;&#31163;&#26816;&#32034;.py b/Faiss&#30340;&#20351;&#29992;/001-&#27431;&#24335;&#36317;&#31163;&#26816;&#32034;.py
@@ -0,0 +1,67 @@
+"""
+@file   : 001-&#27431;&#24335;&#36317;&#31163;&#26816;&#32034;.py
+@author : xiaolu
+@email  : luxiaonlp@163.com
+@time   : 2021-08-09
+"""
+import faiss
+import numpy as np
+
+
+if __name__ == '__main__':
+    n_data, d = 1000, 512   # &#26816;&#32034;&#24211;&#20013;&#30340;&#21521;&#37327;&#20010;&#25968;, &#27599;&#20010;&#21521;&#37327;&#30340;&#32500;&#24230;
+    np.random.seed(43)   # &#38543;&#26426;&#31181;&#23376; &#20026;&#20102;&#22810;&#27425;&#25191;&#34892;&#32467;&#26524;&#19968;&#33268;
+
+    # &#26816;&#32034;&#24211;&#30340;&#26500;&#36896;
+    data = []
+    mu, sigma = 3, 0.1   # &#36825;&#37324;&#26102;&#36890;&#36807;&#39640;&#26031;&#20998;&#24067;&#38543;&#26426;&#20135;&#29983;&#33509;&#24178;&#21521;&#37327;&#65292;&#36825;&#20004;&#20010;&#21442;&#25968;&#20026;&#22343;&#20540;&#21644;&#26041;&#24046;
+    for i in range(n_data):
+        data.append(np.random.normal(mu, sigma, d))
+    data = np.array(data).astype('float32')   # faiss&#21482;&#25903;&#25345;32&#20301;&#30340;&#28014;&#28857;&#25968;
+
+    # &#26816;&#32034;&#21521;&#37327;&#30340;&#29983;&#25104;
+    query = []
+    n_query = 10   # &#29983;&#25104;10&#20010;query&#21521;&#37327;
+    mu, sigma = 3, 0.1
+    np.random.seed(12)
+    for i in range(n_query):
+        query.append(np.random.normal(mu, sigma, d))
+    query = np.array(query).astype('float32')
+
+    # &#26500;&#24314;&#32034;&#24341;  &#35760;&#20303;&#35201;&#20256;&#20837;&#21521;&#37327;&#32500;&#24230;d
+    index = faiss.IndexFlatL2(d)
+    # print(index.is_trained)    # &#36825;&#37324;&#33509;&#26159;false&#23601;&#35201;&#35757;&#32451;  &#21518;&#38754;&#35762;
+
+    # &#28155;&#21152;&#25968;&#25454;
+    index.add(data)
+    # print(index.ntotal)   # &#24635;&#30340;&#25968;&#25454;&#37327;
+
+    # &#24320;&#22987;&#26816;&#32034;
+    k = 10   # &#25351;&#23450;&#35753;&#20854;&#36820;&#22238;10&#20010;&#36317;&#31163;&#26368;&#36817;&#30340;
+
+    # &#36825;&#37324;&#25105;&#20204;&#36873;&#21462;data&#20013;&#30340;&#21069;&#20116;&#20010; &#23481;&#26131;&#30475;&#21040;&#32467;&#26524;&#65292;&#22240;&#20026;&#33258;&#24049;&#36319;&#33258;&#24049;&#36317;&#31163;&#32943;&#23450;&#20026;0 &#25152;&#20197;&#26368;&#30456;&#20851;&#30340;&#32943;&#23450;&#26159;&#33258;&#24049;
+    query_self = data[:5]
+
+    dis, ind = index.search(query_self, k=k)
+    print(dis)   # &#27599;&#26465;&#25968;&#25454;&#20195;&#34920;&#20102;&#24403;&#21069;&#36825;&#20010;query &#19982;&#26368;&#30456;&#20851;&#30340;&#21313;&#20010;&#25968;&#25454;&#30340;&#36317;&#31163;
+    print(ind)   # &#27599;&#26465;&#25968;&#25454;&#20195;&#34920;&#20102;&#24403;&#21069;&#36825;&#20010;query &#26368;&#30456;&#20851;&#30340;&#21313;&#26465;&#25968;&#25454;&#30340;&#32034;&#24341;
+    """
+    [[0.        8.55197   8.634906  8.683499  8.698736  8.821949  8.902446
+      8.943979  8.9516735 8.972908 ]
+     [0.        8.369204  8.482748  8.53028   8.581224  8.680499  8.684254
+      8.697291  8.719812  8.753435 ]
+     [0.        8.209936  8.392483  8.456179  8.473589  8.480727  8.551348
+      8.553277  8.576391  8.592704 ]
+     [0.        8.473689  8.621014  8.827385  8.883725  8.980131  8.99064
+      9.015673  9.017438  9.027972 ]
+     [0.        8.268832  8.349455  8.597895  8.611757  8.658188  8.675722
+      8.685029  8.70588   8.707612 ]]
+    [[  0 877 502  42 606 366 348 923 563  56]
+     [  1 849 974 106 348 364 877 242 280 173]
+     [  2 877 127 655 253 233 558 678  13 208]
+     [  3 421  94 348 502 402 536 646 563 735]
+     [  4 986 230 209 446 889 974 241 550 248]]
+     """
+
+
+
diff --git a/Faiss&#30340;&#20351;&#29992;/002-IndexIVFFlat&#26816;&#32034;.py b/Faiss&#30340;&#20351;&#29992;/002-IndexIVFFlat&#26816;&#32034;.py
diff --git a/Faiss&#30340;&#20351;&#29992;/002-&#20498;&#25490;&#34920;&#24555;&#36895;&#32034;&#24341;.py b/Faiss&#30340;&#20351;&#29992;/002-&#20498;&#25490;&#34920;&#24555;&#36895;&#32034;&#24341;.py
@@ -0,0 +1,42 @@
+"""
+@file   : 002-&#20498;&#25490;&#34920;&#24555;&#36895;&#32034;&#24341;.py
+@author : xiaolu
+@email  : luxiaonlp@163.com
+@time   : 2021-08-09
+"""
+import numpy as np
+import faiss
+
+if __name__ == '__main__':
+    n_data, d = 1000, 512  # &#26816;&#32034;&#24211;&#20013;&#30340;&#21521;&#37327;&#20010;&#25968;, &#27599;&#20010;&#21521;&#37327;&#30340;&#32500;&#24230;
+    np.random.seed(43)  # &#38543;&#26426;&#31181;&#23376; &#20026;&#20102;&#22810;&#27425;&#25191;&#34892;&#32467;&#26524;&#19968;&#33268;
+
+    # &#26816;&#32034;&#24211;&#30340;&#26500;&#36896;
+    data = []
+    mu, sigma = 3, 0.1  # &#36825;&#37324;&#26102;&#36890;&#36807;&#39640;&#26031;&#20998;&#24067;&#38543;&#26426;&#20135;&#29983;&#33509;&#24178;&#21521;&#37327;&#65292;&#36825;&#20004;&#20010;&#21442;&#25968;&#20026;&#22343;&#20540;&#21644;&#26041;&#24046;
+    for i in range(n_data):
+        data.append(np.random.normal(mu, sigma, d))
+    data = np.array(data).astype('float32')  # faiss&#21482;&#25903;&#25345;32&#20301;&#30340;&#28014;&#28857;&#25968;
+
+    # &#26816;&#32034;&#21521;&#37327;&#30340;&#29983;&#25104;
+    query = []
+    n_query = 10  # &#29983;&#25104;10&#20010;query&#21521;&#37327;
+    mu, sigma = 3, 0.1
+    np.random.seed(12)
+    for i in range(n_query):
+        query.append(np.random.normal(mu, sigma, d))
+    query = np.array(query).astype('float32')
+
+    nlist = 50  # &#23558;&#25968;&#25454;&#24211;&#21521;&#37327;&#20998;&#21106;&#20026;&#22810;&#23569;&#20102;&#32500;&#35834;&#31354;&#38388;
+    k = 10
+    quantizer = faiss.IndexFlatL2(d)  # &#37327;&#21270;&#22120;
+    index = faiss.IndexIVFFlat(quantizer, d, nlist, faiss.METRIC_L2)  # METRIC_L2&#35745;&#31639;L2&#36317;&#31163;, &#25110;faiss.METRIC_INNER_PRODUCT&#35745;&#31639;&#20869;&#31215;
+    assert not index.is_trained  # &#20498;&#25490;&#34920;&#32034;&#24341;&#31867;&#22411;&#38656;&#35201;&#35757;&#32451;
+    index.train(data)  # &#35757;&#32451;&#25968;&#25454;&#38598;&#24212;&#35813;&#19982;&#25968;&#25454;&#24211;&#25968;&#25454;&#38598;&#21516;&#20998;&#24067;
+    assert index.is_trained
+
+    index.add(data)
+    index.nprobe = 2  # &#36873;&#25321;n&#20010;&#32500;&#35834;&#31354;&#38388;&#36827;&#34892;&#32034;&#24341;,
+    dis, ind = index.search(query, k)
+    print(dis)
+    print(ind)
diff --git a/Faiss&#30340;&#20351;&#29992;/003-&#20056;&#31215;&#37327;&#21270;&#32034;&#24341;.py b/Faiss&#30340;&#20351;&#29992;/003-&#20056;&#31215;&#37327;&#21270;&#32034;&#24341;.py
@@ -0,0 +1,45 @@
+"""
+@file   : 003-&#20056;&#31215;&#37327;&#21270;&#32034;&#24341;.py
+@author : xiaolu
+@email  : luxiaonlp@163.com
+@time   : 2021-08-09
+"""
+import numpy as np
+import faiss
+
+if __name__ == '__main__':
+    n_data, d = 1000, 512  # &#26816;&#32034;&#24211;&#20013;&#30340;&#21521;&#37327;&#20010;&#25968;, &#27599;&#20010;&#21521;&#37327;&#30340;&#32500;&#24230;
+    np.random.seed(43)  # &#38543;&#26426;&#31181;&#23376; &#20026;&#20102;&#22810;&#27425;&#25191;&#34892;&#32467;&#26524;&#19968;&#33268;
+
+    # &#26816;&#32034;&#24211;&#30340;&#26500;&#36896;
+    data = []
+    mu, sigma = 3, 0.1  # &#36825;&#37324;&#26102;&#36890;&#36807;&#39640;&#26031;&#20998;&#24067;&#38543;&#26426;&#20135;&#29983;&#33509;&#24178;&#21521;&#37327;&#65292;&#36825;&#20004;&#20010;&#21442;&#25968;&#20026;&#22343;&#20540;&#21644;&#26041;&#24046;
+    for i in range(n_data):
+        data.append(np.random.normal(mu, sigma, d))
+    data = np.array(data).astype('float32')  # faiss&#21482;&#25903;&#25345;32&#20301;&#30340;&#28014;&#28857;&#25968;
+
+    # &#26816;&#32034;&#21521;&#37327;&#30340;&#29983;&#25104;
+    query = []
+    n_query = 10  # &#29983;&#25104;10&#20010;query&#21521;&#37327;
+    mu, sigma = 3, 0.1
+    np.random.seed(12)
+    for i in range(n_query):
+        query.append(np.random.normal(mu, sigma, d))
+    query = np.array(query).astype('float32')
+
+    nlist = 50
+    m = 8  # &#21015;&#26041;&#21521;&#21010;&#20998;&#20010;&#25968;&#65292;&#24517;&#39035;&#33021;&#34987;d&#25972;&#38500;
+    k = 10
+    quantizer = faiss.IndexFlatL2(d)
+    index = faiss.IndexIVFPQ(quantizer, d, nlist, m, 4)   # 4 &#34920;&#31034;&#27599;&#20010;&#23376;&#21521;&#37327;&#34987;&#32534;&#30721;&#20026; 4 bits
+
+    index.train(data)
+    index.add(data)
+    index.nprobe = 50
+    dis, ind = index.search(data[:10], k)  # &#26597;&#35810;&#33258;&#36523;
+    print(dis)
+    print(ind)
+
+    dis, ind = index.search(query, k)  # &#30495;&#23454;&#26597;&#35810;
+    print(dis)
+    print(ind)
diff --git a/Faiss&#30340;&#20351;&#29992;/004-faiss&#23454;&#29616;kmeans&#32858;&#31867;.py b/Faiss&#30340;&#20351;&#29992;/004-faiss&#23454;&#29616;kmeans&#32858;&#31867;.py
@@ -0,0 +1,58 @@
+"""
+@file   : 004-faiss&#23454;&#29616;kmeans&#32858;&#31867;.py
+@author : xiaolu
+@email  : luxiaonlp@163.com
+@time   : 2021-08-09
+"""
+import faiss
+import numpy as np
+
+
+if __name__ == '__main__':
+    # &#25968;&#25454;
+    n_data, d = 2000, 512
+    np.random.seed(43)
+    data = []
+    mu, sigma = 3, 0.1
+    for i in range(n_data):
+        data.append(np.random.normal(mu, sigma, d))
+    data = np.array(data).astype('float32')
+
+    # &#32858;&#31867;
+    n_centroids = 1024    # &#32858;&#31867;&#20013;&#24515;&#20010;&#25968;
+    d = data.shape[1]
+    kmeans = faiss.Kmeans(d, n_centroids)
+    kmeans.train(data)
+    # &#36755;&#20986;&#32858;&#31867;&#20013;&#24515;
+    # print(kmeans.centroids)
+    # print(len(kmeans.centroids))
+
+    # &#30475;data&#20013;&#30340;&#21069;&#20116;&#20010;&#21521;&#37327;&#23646;&#20110;&#37027;&#20010;&#31867;(&#26368;&#26377;&#21487;&#33021;&#30340;&#20004;&#20010;&#31867;)
+    D, I = kmeans.index.search(data[:5], k=2)
+    print(D)   # &#19982;&#27599;&#20010;&#31867;&#30340;&#36317;&#31163;
+    print(I)   # &#31867;&#30340;&#32534;&#21495;
+    """
+    &#36755;&#20986;:
+    [[4.1553707 5.2924204]
+     [1.9329664 4.930997 ]
+     [4.537619  4.8509283]
+     [4.6700296 5.2252126]
+     [2.101182  4.9292693]]
+    [[478 568]
+     [767 697]
+     [568 527]
+     [999 568]
+     [175 853]]
+    """
+
+    print('*'*100)
+    # &#35745;&#31639;&#27599;&#20010;&#20013;&#24515;&#26368;&#36817;&#30340;&#33509;&#24178;&#26465;&#21521;&#37327;
+    k = 5
+    index = faiss.IndexFlatL2(d)
+    index.add(data)
+    D, I = index.search(kmeans.centroids, k)
+    print(D)
+    print(I)
+
+
+
diff --git a/Faiss&#30340;&#20351;&#29992;/005-faiss&#23454;&#29616;pca&#38477;&#32500;.py b/Faiss&#30340;&#20351;&#29992;/005-faiss&#23454;&#29616;pca&#38477;&#32500;.py
@@ -0,0 +1,27 @@
+"""
+@file   : 005-faiss&#23454;&#29616;pca&#38477;&#32500;.py
+@author : xiaolu
+@email  : luxiaonlp@163.com
+@time   : 2021-08-09
+"""
+import faiss
+import numpy as np
+
+
+if __name__ == '__main__':
+    # &#25968;&#25454;
+    n_data, d = 2000, 512
+    np.random.seed(43)
+    data = []
+    mu, sigma = 3, 0.1
+    for i in range(n_data):
+        data.append(np.random.normal(mu, sigma, d))
+    data = np.array(data).astype('float32')
+
+    mat = faiss.PCAMatrix(512, 64)  # &#20174;512&#32500;&#38477;&#20026;64&#32500;
+    mat.train(data)
+    assert mat.is_trained
+    tr = mat.apply_py(data)
+    print(tr.shape)
+    print(tr)
+
diff --git a/Faiss&#30340;&#20351;&#29992;/006-faiss&#23454;&#29616;PQ&#32534;&#30721;&#21644;&#35299;&#30721;.py b/Faiss&#30340;&#20351;&#29992;/006-faiss&#23454;&#29616;PQ&#32534;&#30721;&#21644;&#35299;&#30721;.py
@@ -0,0 +1,37 @@
+"""
+@file   : 006-faiss&#23454;&#29616;PQ&#32534;&#30721;&#21644;&#35299;&#30721;.py
+@author : xiaolu
+@email  : luxiaonlp@163.com
+@time   : 2021-08-09
+"""
+import faiss
+import numpy as np
+
+
+if __name__ == '__main__':
+    # &#25968;&#25454;
+    n_data, d = 2000, 512
+    np.random.seed(43)
+    data = []
+    mu, sigma = 3, 0.1
+    for i in range(n_data):
+        data.append(np.random.normal(mu, sigma, d))
+    data = np.array(data).astype('float32')
+
+    cs = 4  # code size (bytes)
+    # &#35757;&#32451;&#25968;&#25454;&#38598;
+    x = data   # &#21407;&#22987;&#30340;&#25968;&#25454;&#38598;
+
+    x_train = data  # &#35757;&#32451;&#38598;
+    pq = faiss.ProductQuantizer(d, cs, 8)
+    pq.train(x_train)
+
+    # encode&#32534;&#30721;
+    codes = pq.compute_codes(x)
+
+    # decode&#35299;&#30721;
+    x2 = pq.decode(codes)
+
+    # &#32534;&#30721;-&#35299;&#30721;&#21518;&#19982;&#21407;&#22987;&#25968;&#25454;&#30340;&#24046;
+    avg_relative_error = ((x - x2)**2).sum() / (x ** 2).sum()
+    print(avg_relative_error)
diff --git a/Faiss&#30340;&#20351;&#29992;/007-faiss&#23454;&#29616;&#26631;&#37327;&#37327;&#21270;&#22120;.py b/Faiss&#30340;&#20351;&#29992;/007-faiss&#23454;&#29616;&#26631;&#37327;&#37327;&#21270;&#22120;.py