IBM watsonx.ai¶
WatsonxEmbeddings 是 IBM watsonx.ai 嵌入模型的封装器。
本示例展示如何通过 LlamaIndex 嵌入 API 与 watsonx.ai 嵌入模型进行交互。
环境配置¶
安装 llama-index-embeddings-ibm 包:
In [ ]:
Copied!
!pip install -qU llama-index-embeddings-ibm
!pip install -qU llama-index-embeddings-ibm
以下单元格定义了使用 watsonx Embeddings 所需的凭证信息。
操作: 提供 IBM Cloud 用户 API 密钥。详情请参阅 管理用户 API 密钥。
In [ ]:
Copied!
import os
from getpass import getpass
watsonx_api_key = getpass()
os.environ["WATSONX_APIKEY"] = watsonx_api_key
import os
from getpass import getpass
watsonx_api_key = getpass()
os.environ["WATSONX_APIKEY"] = watsonx_api_key
此外,您还可以通过环境变量传递额外的密钥:
In [ ]:
Copied!
import os
os.environ["WATSONX_URL"] = "your service instance url"
os.environ["WATSONX_TOKEN"] = "your token for accessing the CPD cluster"
os.environ["WATSONX_PASSWORD"] = "your password for accessing the CPD cluster"
os.environ["WATSONX_USERNAME"] = "your username for accessing the CPD cluster"
os.environ[
"WATSONX_INSTANCE_ID"
] = "your instance_id for accessing the CPD cluster"
import os
os.environ["WATSONX_URL"] = "your service instance url"
os.environ["WATSONX_TOKEN"] = "your token for accessing the CPD cluster"
os.environ["WATSONX_PASSWORD"] = "your password for accessing the CPD cluster"
os.environ["WATSONX_USERNAME"] = "your username for accessing the CPD cluster"
os.environ[
"WATSONX_INSTANCE_ID"
] = "your instance_id for accessing the CPD cluster"
加载模型¶
针对不同任务,您可能需要调整以下嵌入参数:
In [ ]:
Copied!
truncate_input_tokens = 3
truncate_input_tokens = 3
使用先前设置的参数初始化 WatsonxEmbeddings 类。
注意:
- 为提供 API 调用的上下文,必须传递
project_id或space_id。获取项目或空间 ID 的方法:打开您的项目或空间,进入管理选项卡,点击常规。更多信息请参阅:项目文档 或 部署空间文档。 - 根据您所配置服务实例的区域,使用 watsonx.ai API 认证 中列出的任一 URL。
本示例中,我们将使用 project_id 和达拉斯 URL。
您需要指定用于推理的 model_id。所有可用模型列表可在支持的基础模型中查看。
In [ ]:
Copied!
from llama_index.embeddings.ibm import WatsonxEmbeddings
watsonx_embedding = WatsonxEmbeddings(
model_id="ibm/slate-125m-english-rtrvr",
url="https://us-south.ml.cloud.ibm.com",
project_id="PASTE YOUR PROJECT_ID HERE",
truncate_input_tokens=truncate_input_tokens,
)
from llama_index.embeddings.ibm import WatsonxEmbeddings
watsonx_embedding = WatsonxEmbeddings(
model_id="ibm/slate-125m-english-rtrvr",
url="https://us-south.ml.cloud.ibm.com",
project_id="PASTE YOUR PROJECT_ID HERE",
truncate_input_tokens=truncate_input_tokens,
)
或者,您也可以使用 Cloud Pak for Data 凭证。详情请参阅 watsonx.ai 软件设置。
In [ ]:
Copied!
watsonx_embedding = WatsonxEmbeddings(
model_id="ibm/slate-125m-english-rtrvr",
url="PASTE YOUR URL HERE",
username="PASTE YOUR USERNAME HERE",
password="PASTE YOUR PASSWORD HERE",
instance_id="openshift",
version="4.8",
project_id="PASTE YOUR PROJECT_ID HERE",
truncate_input_tokens=truncate_input_tokens,
)
watsonx_embedding = WatsonxEmbeddings(
model_id="ibm/slate-125m-english-rtrvr",
url="PASTE YOUR URL HERE",
username="PASTE YOUR USERNAME HERE",
password="PASTE YOUR PASSWORD HERE",
instance_id="openshift",
version="4.8",
project_id="PASTE YOUR PROJECT_ID HERE",
truncate_input_tokens=truncate_input_tokens,
)
In [ ]:
Copied!
query = "Example query."
query_result = watsonx_embedding.get_query_embedding(query)
print(query_result[:5])
query = "Example query."
query_result = watsonx_embedding.get_query_embedding(query)
print(query_result[:5])
[-0.05538924, 0.05161056, 0.01207759, 0.0017501727, -0.017691258]
文本嵌入列表¶
In [ ]:
Copied!
texts = ["This is a content of one document", "This is another document"]
doc_result = watsonx_embedding.get_text_embedding_batch(texts)
print(doc_result[0][:5])
texts = ["This is a content of one document", "This is another document"]
doc_result = watsonx_embedding.get_text_embedding_batch(texts)
print(doc_result[0][:5])
[0.009447167, -0.024981938, -0.02601326, -0.04048393, -0.05780444]