Google Cloud SQL for PostgreSQL - `PostgresVectorStore`¶

Cloud SQL 是一项全托管的关系型数据库服务，提供高性能、无缝集成和卓越的可扩展性。它支持 MySQL、PostgreSQL 和 SQL Server 数据库引擎。通过 Cloud SQL 与 LlamaIndex 的集成，您可以扩展数据库应用程序以构建由 AI 驱动的体验。

本笔记本将介绍如何使用 Cloud SQL for PostgreSQL 通过 PostgresVectorStore 类存储向量嵌入。

在 GitHub 上了解更多关于该包的信息。

准备工作¶

在运行此笔记本前，您需要完成以下步骤：

🦙 库安装¶

安装集成库 llama-index-cloud-sql-pg 以及嵌入服务库 llama-index-embeddings-vertex。

In [ ]:

Copied!

%pip install --upgrade --quiet llama-index-cloud-sql-pg llama-index-embeddings-vertex llama-index-llms-vertex llama-index
%pip install --upgrade --quiet llama-index-cloud-sql-pg llama-index-embeddings-vertex llama-index-llms-vertex llama-index

仅限 Colab 使用： 如需重启内核，请取消注释下方代码单元格，或使用重启内核按钮。对于 Vertex AI Workbench 用户，可通过顶部的按钮重启终端。

In [ ]:

Copied!

# # Automatically restart kernel after installs so that your environment can access the new packages
# import IPython

# app = IPython.Application.instance()
# app.kernel.do_shutdown(True)
# # Automatically restart kernel after installs so that your environment can access the new packages
# import IPython

# app = IPython.Application.instance()
# app.kernel.do_shutdown(True)

🔐 身份验证¶

请以当前登录此笔记本的 IAM 用户身份向 Google Cloud 进行认证，以便访问您的 Google Cloud 项目。

若使用 Colab 运行此笔记本，请执行下方单元格并继续操作。
若使用 Vertex AI Workbench，请查阅此处的环境设置指南。

In [ ]:

Copied!

from google.colab import auth

auth.authenticate_user()
from google.colab import auth

auth.authenticate_user()

☁ 设置您的 Google Cloud 项目¶

设置您的 Google Cloud 项目以便在此笔记本中使用 Google Cloud 资源。

若不清楚项目 ID，可尝试以下方法：

运行 gcloud config list 命令
运行 gcloud projects list 命令
查看支持页面：查找项目 ID

In [ ]:

Copied!

# @markdown Please fill in the value below with your Google Cloud project ID and then run the cell.

PROJECT_ID = "my-project-id"  # @param {type:"string"}

# Set the project id
!gcloud config set project {PROJECT_ID}
# @markdown Please fill in the value below with your Google Cloud project ID and then run the cell.

PROJECT_ID = "my-project-id"  # @param {type:"string"}

# Set the project id
!gcloud config set project {PROJECT_ID}

基本用法¶

设置 Cloud SQL 数据库参数¶

在 Cloud SQL 实例页面中查找您的数据库参数。

In [ ]:

Copied!





# @title Set Your Values Here { display-mode: "form" }
REGION = "us-central1"  # @param {type: "string"}
INSTANCE = "my-primary"  # @param {type: "string"}
DATABASE = "my-database"  # @param {type: "string"}
TABLE_NAME = "vector_store"  # @param {type: "string"}
USER = "postgres"  # @param {type: "string"}
PASSWORD = "my-password"  # @param {type: "string"}
# @title Set Your Values Here { display-mode: "form" }
REGION = "us-central1"  # @param {type: "string"}
INSTANCE = "my-primary"  # @param {type: "string"}
DATABASE = "my-database"  # @param {type: "string"}
TABLE_NAME = "vector_store"  # @param {type: "string"}
USER = "postgres"  # @param {type: "string"}
PASSWORD = "my-password"  # @param {type: "string"}

PostgresEngine 连接池¶

将 Cloud SQL 设为向量存储的要求和参数之一是一个 PostgresEngine 对象。PostgresEngine 会为您的 Cloud SQL 数据库配置连接池，确保应用程序能够成功连接并遵循行业最佳实践。

使用 PostgresEngine.from_instance() 创建 PostgresEngine 时，只需提供以下 4 项信息：

project_id：Cloud SQL 实例所在的 Google Cloud 项目 ID。
region：Cloud SQL 实例所在的区域。
instance：Cloud SQL 实例的名称。
database：要连接的 Cloud SQL 实例上的数据库名称。

默认情况下，系统会采用 IAM 数据库身份验证作为数据库认证方式。该库使用从环境中获取的应用默认凭据 (ADC) 所属的 IAM 主体。

有关 IAM 数据库身份验证的更多信息，请参阅：

您也可以选择使用内置数据库身份验证，通过用户名和密码访问 Cloud SQL 数据库。只需向 PostgresEngine.from_instance() 提供可选的 user 和 password 参数即可：

user：用于内置数据库身份验证和登录的数据库用户
password：用于内置数据库身份验证和登录的数据库密码

注意： 本教程演示异步接口的使用。所有异步方法都有对应的同步方法。

In [ ]:

Copied!





from llama_index_cloud_sql_pg import PostgresEngine

engine = await PostgresEngine.afrom_instance(
    project_id=PROJECT_ID,
    region=REGION,
    instance=INSTANCE,
    database=DATABASE,
    user=USER,
    password=PASSWORD,
)
from llama_index_cloud_sql_pg import PostgresEngine

engine = await PostgresEngine.afrom_instance(
    project_id=PROJECT_ID,
    region=REGION,
    instance=INSTANCE,
    database=DATABASE,
    user=USER,
    password=PASSWORD,
)

初始化数据表¶

PostgresVectorStore 类需要一个数据库表。PostgresEngine 引擎提供了一个辅助方法 init_vector_store_table()，可用于创建符合规范模式的数据表。

In [ ]:

Copied!





await engine.ainit_vector_store_table(
    table_name=TABLE_NAME,
    vector_size=768,  # Vector size for VertexAI model(textembedding-gecko@latest)
)
await engine.ainit_vector_store_table(
    table_name=TABLE_NAME,
    vector_size=768,  # Vector size for VertexAI model(textembedding-gecko@latest)
)

可选提示：💡¶

您还可以在传递 table_name 的任何地方，通过传递 schema_name 来指定模式名称。

In [ ]:

Copied!





SCHEMA_NAME = "my_schema"

await engine.ainit_vector_store_table(
    table_name=TABLE_NAME,
    schema_name=SCHEMA_NAME,
    vector_size=768,
)
SCHEMA_NAME = "my_schema"

await engine.ainit_vector_store_table(
    table_name=TABLE_NAME,
    schema_name=SCHEMA_NAME,
    vector_size=768,
)

创建嵌入类实例¶

您可以使用任意一款 Llama Index 嵌入模型。如需使用 VertexTextEmbeddings，可能需要先启用 Vertex AI API。我们建议在生产环境中设置嵌入模型的版本，了解更多关于文本嵌入模型的信息。

In [ ]:

Copied!

# enable Vertex AI API
!gcloud services enable aiplatform.googleapis.com
# enable Vertex AI API
!gcloud services enable aiplatform.googleapis.com

In [ ]:

Copied!





from llama_index.core import Settings
from llama_index.embeddings.vertex import VertexTextEmbedding
from llama_index.llms.vertex import Vertex
import google.auth

credentials, project_id = google.auth.default()
Settings.embed_model = VertexTextEmbedding(
    model_name="textembedding-gecko@003",
    project=PROJECT_ID,
    credentials=credentials,
)

Settings.llm = Vertex(model="gemini-1.5-flash-002", project=PROJECT_ID)
from llama_index.core import Settings
from llama_index.embeddings.vertex import VertexTextEmbedding
from llama_index.llms.vertex import Vertex
import google.auth

credentials, project_id = google.auth.default()
Settings.embed_model = VertexTextEmbedding(
    model_name="textembedding-gecko@003",
    project=PROJECT_ID,
    credentials=credentials,
)

Settings.llm = Vertex(model="gemini-1.5-flash-002", project=PROJECT_ID)

初始化默认的 PostgresVectorStore¶

In [ ]:

Copied!





from llama_index_cloud_sql_pg import PostgresVectorStore

vector_store = await PostgresVectorStore.create(
    engine=engine,
    table_name=TABLE_NAME,
    # schema_name=SCHEMA_NAME
)
from llama_index_cloud_sql_pg import PostgresVectorStore

vector_store = await PostgresVectorStore.create(
    engine=engine,
    table_name=TABLE_NAME,
    # schema_name=SCHEMA_NAME
)

下载数据¶

In [ ]:

Copied!

!mkdir -p 'data/paul_graham/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'
!mkdir -p 'data/paul_graham/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'

加载文档¶

In [ ]:

Copied!

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("./data/paul_graham").load_data()
print("Document ID:", documents[0].doc_id)
from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("./data/paul_graham").load_data()
print("Document ID:", documents[0].doc_id)

与 VectorStoreIndex 配合使用¶

通过使用 VectorStoreIndex 从向量存储创建索引。

使用文档初始化向量存储¶

使用向量存储最简单的方式是通过 from_documents 方法加载一组文档并构建索引。

In [ ]:

Copied!





from llama_index.core import StorageContext, VectorStoreIndex

storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(
    documents, storage_context=storage_context, show_progress=True
)
from llama_index.core import StorageContext, VectorStoreIndex

storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(
    documents, storage_context=storage_context, show_progress=True
)

查询索引¶

In [ ]:

Copied!

query_engine = index.as_query_engine()
response = query_engine.query("What did the author do?")
print(response)
query_engine = index.as_query_engine()
response = query_engine.query("What did the author do?")
print(response)

创建自定义向量存储库¶

向量存储库可利用关系型数据来筛选相似性搜索。

创建带有自定义元数据列的新表。您也可以复用已有表，只要该表已包含文档ID、内容、嵌入向量和/或元数据的自定义列。

In [ ]:

Copied!





from llama_index_cloud_sql_pg import Column

# Set table name
TABLE_NAME = "vectorstore_custom"
# SCHEMA_NAME = "my_schema"

await engine.ainit_vector_store_table(
    table_name=TABLE_NAME,
    # schema_name=SCHEMA_NAME,
    vector_size=768,  # VertexAI model: textembedding-gecko@003
    metadata_columns=[Column("len", "INTEGER")],
)


# Initialize PostgresVectorStore
custom_store = await PostgresVectorStore.create(
    engine=engine,
    table_name=TABLE_NAME,
    # schema_name=SCHEMA_NAME,
    metadata_columns=["len"],
)
from llama_index_cloud_sql_pg import Column

# Set table name
TABLE_NAME = "vectorstore_custom"
# SCHEMA_NAME = "my_schema"

await engine.ainit_vector_store_table(
    table_name=TABLE_NAME,
    # schema_name=SCHEMA_NAME,
    vector_size=768,  # VertexAI model: textembedding-gecko@003
    metadata_columns=[Column("len", "INTEGER")],
)


# Initialize PostgresVectorStore
custom_store = await PostgresVectorStore.create(
    engine=engine,
    table_name=TABLE_NAME,
    # schema_name=SCHEMA_NAME,
    metadata_columns=["len"],
)

添加带元数据的文档¶

文档 metadata 可以为大语言模型（LLM）和检索过程提供更多信息。了解更多关于提取和添加元数据的不同方法。

In [ ]:

Copied!





from llama_index.core import Document

fruits = ["apple", "pear", "orange", "strawberry", "banana", "kiwi"]
documents = [
    Document(text=fruit, metadata={"len": len(fruit)}) for fruit in fruits
]

storage_context = StorageContext.from_defaults(vector_store=custom_store)
custom_doc_index = VectorStoreIndex.from_documents(
    documents, storage_context=storage_context, show_progress=True
)
from llama_index.core import Document

fruits = ["apple", "pear", "orange", "strawberry", "banana", "kiwi"]
documents = [
    Document(text=fruit, metadata={"len": len(fruit)}) for fruit in fruits
]

storage_context = StorageContext.from_defaults(vector_store=custom_store)
custom_doc_index = VectorStoreIndex.from_documents(
    documents, storage_context=storage_context, show_progress=True
)

通过元数据过滤器搜索文档¶

您可以通过指定 filters 参数对搜索结果进行预过滤处理

In [ ]:

Copied!





from llama_index.core.vector_stores.types import (
    MetadataFilter,
    MetadataFilters,
    FilterOperator,
)

filters = MetadataFilters(
    filters=[
        MetadataFilter(key="len", operator=FilterOperator.GT, value="5"),
    ],
)

query_engine = custom_doc_index.as_query_engine(filters=filters)
res = query_engine.query("List some fruits")
print(str(res.source_nodes[0].text))
from llama_index.core.vector_stores.types import (
    MetadataFilter,
    MetadataFilters,
    FilterOperator,
)

filters = MetadataFilters(
    filters=[
        MetadataFilter(key="len", operator=FilterOperator.GT, value="5"),
    ],
)

query_engine = custom_doc_index.as_query_engine(filters=filters)
res = query_engine.query("List some fruits")
print(str(res.source_nodes[0].text))

添加索引¶

通过应用向量索引来加速向量搜索查询。了解更多关于向量索引的信息。

In [ ]:

Copied!

from llama_index_cloud_sql_pg.indexes import IVFFlatIndex

index = IVFFlatIndex()
await vector_store.aapply_vector_index(index)
from llama_index_cloud_sql_pg.indexes import IVFFlatIndex

index = IVFFlatIndex()
await vector_store.aapply_vector_index(index)

重建索引¶

In [ ]:

Copied!

await vector_store.areindex()  # Re-index using default index name
await vector_store.areindex()  # Re-index using default index name

删除索引¶

In [ ]:

Copied!

await vector_store.adrop_vector_index()  # Delete index using default name
await vector_store.adrop_vector_index()  # Delete index using default name

Google Cloud SQL for PostgreSQL - PostgresVectorStore¶

准备工作¶

🦙 库安装¶

🔐 身份验证¶

☁ 设置您的 Google Cloud 项目¶

基本用法¶

设置 Cloud SQL 数据库参数¶

PostgresEngine 连接池¶

初始化数据表¶

可选提示：💡¶

创建嵌入类实例¶

初始化默认的 PostgresVectorStore¶

下载数据¶

加载文档¶

与 VectorStoreIndex 配合使用¶

使用文档初始化向量存储¶

查询索引¶

创建自定义向量存储库¶

添加带元数据的文档¶

通过元数据过滤器搜索文档¶

添加索引¶

重建索引¶

删除索引¶

Google Cloud SQL for PostgreSQL - `PostgresVectorStore`¶