NVIDIA NIMs¶

llama-index-llms-nvidia 软件包包含与 NVIDIA NIM 推理微服务模型构建应用的 LlamaIndex 集成。NIM 支持跨领域的模型，包括来自社区及 NVIDIA 的聊天、嵌入和重排序模型。这些模型经过 NVIDIA 优化，可在 NVIDIA 加速基础设施上提供最佳性能，并部署为 NIM——一种易于使用的预构建容器，通过单一命令即可在 NVIDIA 加速基础设施上随处部署。

可通过 NVIDIA API 目录测试 NVIDIA 托管的 NIM 部署。测试完成后，企业可使用 NVIDIA AI Enterprise 许可证从 NVIDIA API 目录导出 NIM，并在本地或云端运行，从而完全掌控其知识产权和 AI 应用。

NIM 按模型打包为容器镜像，并通过 NVIDIA NGC 目录作为 NGC 容器镜像分发。NIM 的核心功能是为 AI 模型推理提供简单、一致且熟悉的 API。

NVIDIA 的 LLM 连接器¶

本示例演示了如何使用 LlamaIndex 与公开可访问的 AI Foundation 端点交互，并开发基于 LLM 的系统。

通过此连接器，您可以连接并生成兼容模型，这些模型作为托管 NVIDIA NIM 提供，例如：

Google 的 gemma-7b
Mistal AI 的 mistral-7b-instruct-v0.2
以及其他模型！

安装¶

In [ ]:

Copied!

%pip install --upgrade --quiet llama-index-llms-nvidia llama-index-embeddings-nvidia llama-index-readers-file
%pip install --upgrade --quiet llama-index-llms-nvidia llama-index-embeddings-nvidia llama-index-readers-file

安装设置¶

开始使用步骤：

在托管NVIDIA AI基础模型的NVIDIA平台上创建免费账户。
选择您需要的模型。
在输入区域选择Python标签页，点击获取API密钥按钮，然后点击生成密钥。
复制并保存生成的密钥为NVIDIA_API_KEY。完成上述操作后，您即可访问相关API端点。

In [ ]:

Copied!





import getpass
import os

# del os.environ['NVIDIA_API_KEY']  ## delete key and reset
if os.environ.get("NVIDIA_API_KEY", "").startswith("nvapi-"):
    print("Valid NVIDIA_API_KEY already in environment. Delete to reset")
else:
    nvapi_key = getpass.getpass("NVAPI Key (starts with nvapi-): ")
    assert nvapi_key.startswith(
        "nvapi-"
    ), f"{nvapi_key[:5]}... is not a valid key"
    os.environ["NVIDIA_API_KEY"] = nvapi_key
import getpass
import os

# del os.environ['NVIDIA_API_KEY']  ## delete key and reset
if os.environ.get("NVIDIA_API_KEY", "").startswith("nvapi-"):
    print("Valid NVIDIA_API_KEY already in environment. Delete to reset")
else:
    nvapi_key = getpass.getpass("NVAPI Key (starts with nvapi-): ")
    assert nvapi_key.startswith(
        "nvapi-"
    ), f"{nvapi_key[:5]}... is not a valid key"
    os.environ["NVIDIA_API_KEY"] = nvapi_key

In [ ]:

Copied!

# llama-parse is async-first, running the async code in a notebook requires the use of nest_asyncio
import nest_asyncio

nest_asyncio.apply()
# llama-parse is async-first, running the async code in a notebook requires the use of nest_asyncio
import nest_asyncio

nest_asyncio.apply()

使用 NVIDIA API 目录¶

In [ ]:

Copied!





from llama_index.llms.nvidia import NVIDIA
from llama_index.core.llms import ChatMessage, MessageRole

llm = NVIDIA()

messages = [
    ChatMessage(
        role=MessageRole.SYSTEM, content=("You are a helpful assistant.")
    ),
    ChatMessage(
        role=MessageRole.USER,
        content=("What are the most popular house pets in North America?"),
    ),
]

llm.chat(messages)
from llama_index.llms.nvidia import NVIDIA
from llama_index.core.llms import ChatMessage, MessageRole

llm = NVIDIA()

messages = [
    ChatMessage(
        role=MessageRole.SYSTEM, content=("You are a helpful assistant.")
    ),
    ChatMessage(
        role=MessageRole.USER,
        content=("What are the most popular house pets in North America?"),
    ),
]

llm.chat(messages)

使用 NVIDIA NIM 微服务¶

除了连接托管的 NVIDIA NIM 服务外，该连接器还可用于连接本地微服务实例。这使您能够在必要时将应用程序部署到本地环境。

有关如何设置本地微服务实例的说明，请参阅：https://developer.nvidia.com/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/

In [ ]:

Copied!





from llama_index.llms.nvidia import NVIDIA

# connect to an chat NIM running at localhost:8080, spcecifying a specific model
llm = NVIDIA(
    base_url="http://localhost:8080/v1", model="meta/llama3-8b-instruct"
)
from llama_index.llms.nvidia import NVIDIA

# connect to an chat NIM running at localhost:8080, spcecifying a specific model
llm = NVIDIA(
    base_url="http://localhost:8080/v1", model="meta/llama3-8b-instruct"
)

加载特定模型¶

现在我们可以通过传入模型名称来加载 NVIDIA 大语言模型，具体模型名称可在文档中查找 - 文档位置参见此处

注意：默认模型为 meta/llama3-8b-instruct。

In [ ]:

Copied!

# default model
llm = NVIDIA()
llm.model
# default model
llm = NVIDIA()
llm.model

我们可以通过 .model 属性观察当前 llm 对象关联的模型。

In [ ]:

Copied!

llm = NVIDIA(model="mistralai/mistral-7b-instruct-v0.2")
llm.model
llm = NVIDIA(model="mistralai/mistral-7b-instruct-v0.2")
llm.model

基础功能¶

现在我们可以探索在LlamaIndex生态系统中使用连接器的多种方式！

在开始之前，让我们先设置一个ChatMessage对象列表——这是某些方法的预期输入类型。

我们将为每个示例遵循相同的基本模式：

将 NVIDIA LLM 指向我们所需的模型
研究如何使用终端节点来实现所需任务！

完成：`.complete()`¶

我们可以使用 .complete()/.acomplete()（接收字符串参数）来提示所选模型生成响应。

让我们使用默认模型执行此任务。

In [ ]:

Copied!

completion_llm = NVIDIA()
completion_llm = NVIDIA()

我们可以通过检查 .model 属性来验证这是预期的默认值。

In [ ]:

Copied!

completion_llm.model
completion_llm.model

让我们在模型上调用 .complete() 并传入一个字符串（本例中使用 "Hello!"），然后观察响应结果。

In [ ]:

Copied!

completion_llm.complete("Hello!")
completion_llm.complete("Hello!")

正如 LlamaIndex 预期的那样——我们得到了一个 CompletionResponse 作为响应。

异步完成：`.acomplete()`¶

同样也提供了异步实现方式，使用方法完全一致！

In [ ]:

Copied!

await completion_llm.acomplete("Hello!")
await completion_llm.acomplete("Hello!")

Chat: `.chat()` 方法¶

现在我们可以尝试使用 .chat() 方法实现同样的功能。该方法需要接收一个聊天消息列表作为参数——因此我们将使用之前创建好的消息列表。

在示例中我们将使用 mistralai/mixtral-8x7b-instruct-v0.1 模型。

In [ ]:

Copied!

chat_llm = NVIDIA(model="mistralai/mixtral-8x7b-instruct-v0.1")
chat_llm = NVIDIA(model="mistralai/mixtral-8x7b-instruct-v0.1")

现在我们需要做的就是在 ChatMessages 列表上调用 .chat() 方法并观察响应结果。

您还会注意到，我们可以传入一些额外的关键字参数来影响生成过程——在这个例子中，我们使用了 seed 参数来控制生成内容，并通过 stop 参数指定模型在遇到特定标记时停止生成！

注意：您可以通过查阅所选模型的 API 文档了解该模型端点支持哪些额外 kwargs 参数。例如 Mixtral 模型的文档位于此处！

In [ ]:

Copied!

chat_llm.chat(messages, seed=4, stop=["cat", "cats", "Cat", "Cats"])
chat_llm.chat(messages, seed=4, stop=["cat", "cats", "Cat", "Cats"])

如预期所示，我们收到了一个 ChatResponse 作为响应。

异步聊天：(`achat`)¶

我们还提供了 .chat() 方法的异步实现，可通过以下方式调用。

In [ ]:

Copied!

await chat_llm.achat(messages)
await chat_llm.achat(messages)

流式传输：`.stream_chat()`¶

我们同样可以使用 build.nvidia.com 上的模型来实现流式应用场景！

让我们选择另一个模型来观察这种特性。本次任务将使用谷歌的 gemma-7b 模型。

In [ ]:

Copied!

stream_llm = NVIDIA(model="google/gemma-7b")
stream_llm = NVIDIA(model="google/gemma-7b")

让我们使用 .stream_chat() 调用模型，该方法同样需要接收一个 ChatMessage 对象列表，并捕获响应。

In [ ]:

Copied!

streamed_response = stream_llm.stream_chat(messages)
streamed_response = stream_llm.stream_chat(messages)

In [ ]:

Copied!

streamed_response
streamed_response

如我们所见，响应是一个包含流式输出的生成器。

让我们来看看生成完成后的最终响应。

In [ ]:

Copied!

last_element = None
for last_element in streamed_response:
    pass

print(last_element)
last_element = None
for last_element in streamed_response:
    pass

print(last_element)

异步流式处理：`.astream_chat()`¶

我们同样提供了对应的异步流式处理方法，其使用方式与同步实现类似。

In [ ]:

Copied!

streamed_response = await stream_llm.astream_chat(messages)
streamed_response = await stream_llm.astream_chat(messages)

In [ ]:

Copied!

streamed_response
streamed_response

In [ ]:

Copied!

last_element = None
async for last_element in streamed_response:
    pass

print(last_element)
last_element = None
async for last_element in streamed_response:
    pass

print(last_element)

流式查询引擎响应¶

让我们通过一个稍微复杂的查询引擎示例来演示！

首先加载一些数据（我们将使用《银河系漫游指南》的文本数据，来源自此链接）。

加载数据¶

首先创建一个用于存放数据的目录。

In [ ]:

Copied!

!mkdir -p 'data/hhgttg'
!mkdir -p 'data/hhgttg'

我们将从上述来源下载数据。

In [ ]:

Copied!

!wget 'https://web.eecs.utk.edu/~hqi/deeplearning/project/hhgttg.txt' -O 'data/hhgttg/hhgttg.txt'
!wget 'https://web.eecs.utk.edu/~hqi/deeplearning/project/hhgttg.txt' -O 'data/hhgttg/hhgttg.txt'

这一步我们需要一个嵌入模型！我们将使用英伟达的 NV-Embed-QA 模型来实现此功能，并将其保存在 Settings 中。

In [ ]:

Copied!

from llama_index.embeddings.nvidia import NVIDIAEmbedding
from llama_index.core import Settings

embedder = NVIDIAEmbedding(model="NV-Embed-QA", truncate="END")
Settings.embed_model = embedder
from llama_index.embeddings.nvidia import NVIDIAEmbedding
from llama_index.core import Settings

embedder = NVIDIAEmbedding(model="NV-Embed-QA", truncate="END")
Settings.embed_model = embedder

现在我们可以加载文档并利用上述内容创建索引

In [ ]:

Copied!

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("data/hhgttg").load_data()
index = VectorStoreIndex.from_documents(documents)
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("data/hhgttg").load_data()
index = VectorStoreIndex.from_documents(documents)

现在我们可以创建一个简单的查询引擎，并将 streaming 参数设置为 True。

In [ ]:

Copied!

streaming_qe = index.as_query_engine(streaming=True)
streaming_qe = index.as_query_engine(streaming=True)

让我们向查询引擎发送一个查询请求，然后以流式传输方式接收响应。

In [ ]:

Copied!

streaming_response = streaming_qe.query(
    "What is the significance of the number 42?",
)
streaming_response = streaming_qe.query(
    "What is the significance of the number 42?",
)

In [ ]:

Copied!

streaming_response.print_response_stream()
streaming_response.print_response_stream()

工具调用功能¶

从 v0.2.1 版本开始，NVIDIA 开始支持工具调用功能。

NVIDIA 提供了与 build.nvidia.com 上各类模型以及本地 NIM 的集成方案。但请注意，并非所有这些模型都针对工具调用进行过训练。请务必选择确实具备工具调用能力的模型进行实验和应用开发。

您可以通过以下方式获取已知支持工具调用的模型列表：

注意：更多示例请参阅：nvidia_agent.ipynb

In [ ]:

Copied!





tool_models = [
    model
    for model in NVIDIA().available_models
    if model.is_function_calling_model
]
tool_models = [
    model
    for model in NVIDIA().available_models
    if model.is_function_calling_model
]

借助具备工具调用能力的模型，

In [ ]:

Copied!





from llama_index.core.tools import FunctionTool


def multiply(a: int, b: int) -> int:
    """Multiple two integers and returns the result integer"""
    return a * b


multiply_tool = FunctionTool.from_defaults(fn=multiply)


def add(a: int, b: int) -> int:
    """Add two integers and returns the result integer"""
    return a + b


add_tool = FunctionTool.from_defaults(fn=add)

llm = NVIDIA("meta/llama-3.1-70b-instruct")
from llama_index.core.agent import FunctionCallingAgentWorker

agent_worker = FunctionCallingAgentWorker.from_tools(
    [multiply_tool, add_tool],
    llm=llm,
    verbose=True,
)
agent = agent_worker.as_agent()

response = agent.chat("What is (121 * 3) + 42?")
print(str(response))
from llama_index.core.tools import FunctionTool


def multiply(a: int, b: int) -> int:
    """Multiple two integers and returns the result integer"""
    return a * b


multiply_tool = FunctionTool.from_defaults(fn=multiply)


def add(a: int, b: int) -> int:
    """Add two integers and returns the result integer"""
    return a + b


add_tool = FunctionTool.from_defaults(fn=add)

llm = NVIDIA("meta/llama-3.1-70b-instruct")
from llama_index.core.agent import FunctionCallingAgentWorker

agent_worker = FunctionCallingAgentWorker.from_tools(
    [multiply_tool, add_tool],
    llm=llm,
    verbose=True,
)
agent = agent_worker.as_agent()

response = agent.chat("What is (121 * 3) + 42?")
print(str(response))

NVIDIA NIMs¶

NVIDIA 的 LLM 连接器¶

安装¶

安装设置¶

使用 NVIDIA API 目录¶

使用 NVIDIA NIM 微服务¶

加载特定模型¶

基础功能¶

完成：.complete()¶

异步完成：.acomplete()¶

Chat: .chat() 方法¶

异步聊天：(achat)¶

流式传输：.stream_chat()¶

异步流式处理：.astream_chat()¶

流式查询引擎响应¶

加载数据¶

工具调用功能¶

完成：`.complete()`¶

异步完成：`.acomplete()`¶

Chat: `.chat()` 方法¶

异步聊天：(`achat`)¶

流式传输：`.stream_chat()`¶

异步流式处理：`.astream_chat()`¶