NVIDIA 大语言模型文本补全 API¶

扩展 NVIDIA 类以支持以下模型的 /completion API：

bigcode/starcoder2-7b
bigcode/starcoder2-15b

安装¶

In [ ]:

Copied!

!pip install --force-reinstall llama_index-llms-nvidia
!pip install --force-reinstall llama_index-llms-nvidia

环境配置¶

开始前的准备工作：

在托管 NVIDIA AI Foundation 模型的 NVIDIA 平台注册免费账户。
选择您需要的模型。
在输入参数区域切换到 Python 标签页，点击 Get API Key 按钮，然后点击 Generate Key。
复制生成的密钥并保存为 NVIDIA_API_KEY 环境变量。完成此步骤后，您即可访问相关 API 端点。

In [ ]:

Copied!

!which python
!which python

In [ ]:

Copied!





import getpass
import os

# del os.environ['NVIDIA_API_KEY']  ## delete key and reset
if os.environ.get("NVIDIA_API_KEY", "").startswith("nvapi-"):
    print("Valid NVIDIA_API_KEY already in environment. Delete to reset")
else:
    nvapi_key = getpass.getpass("NVAPI Key (starts with nvapi-): ")
    assert nvapi_key.startswith(
        "nvapi-"
    ), f"{nvapi_key[:5]}... is not a valid key"
    os.environ["NVIDIA_API_KEY"] = nvapi_key
import getpass
import os

# del os.environ['NVIDIA_API_KEY']  ## delete key and reset
if os.environ.get("NVIDIA_API_KEY", "").startswith("nvapi-"):
    print("Valid NVIDIA_API_KEY already in environment. Delete to reset")
else:
    nvapi_key = getpass.getpass("NVAPI Key (starts with nvapi-): ")
    assert nvapi_key.startswith(
        "nvapi-"
    ), f"{nvapi_key[:5]}... is not a valid key"
    os.environ["NVIDIA_API_KEY"] = nvapi_key

In [ ]:

Copied!

os.environ["NVIDIA_API_KEY"]
os.environ["NVIDIA_API_KEY"]

In [ ]:

Copied!

# llama-parse is async-first, running the async code in a notebook requires the use of nest_asyncio
import nest_asyncio

nest_asyncio.apply()
# llama-parse is async-first, running the async code in a notebook requires the use of nest_asyncio
import nest_asyncio

nest_asyncio.apply()

使用 NVIDIA API 目录¶

`use_chat_completions` 参数的用法：¶

设为 None（默认值）时，系统会根据每次调用的查询关键字参数动态选择使用 /chat/completions 或 /completions 端点

设为 False 时全局使用 /completions 端点
设为 True 时全局使用 /chat/completions 端点

In [ ]:

Copied!

from llama_index.llms.nvidia import NVIDIA

llm = NVIDIA(model="bigcode/starcoder2-15b", use_chat_completions=False)
from llama_index.llms.nvidia import NVIDIA

llm = NVIDIA(model="bigcode/starcoder2-15b", use_chat_completions=False)

可用模型¶

is_chat_model 可用于获取可用的文本补全模型

In [ ]:

Copied!

print([model for model in llm.available_models if model.is_chat_model])
print([model for model in llm.available_models if model.is_chat_model])

使用 NVIDIA NIM 微服务¶

除了连接托管的 NVIDIA NIM 服务外，该连接器还可用于连接本地微服务实例。这使您能够在必要时将应用程序部署到本地环境。

有关如何设置本地微服务实例的说明，请参阅：https://developer.nvidia.com/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/

In [ ]:

Copied!

from llama_index.llms.nvidia import NVIDIA

# connect to an chat NIM running at localhost:8080, spcecifying a specific model
llm = NVIDIA(base_url="http://localhost:8080/v1")
from llama_index.llms.nvidia import NVIDIA

# connect to an chat NIM running at localhost:8080, spcecifying a specific model
llm = NVIDIA(base_url="http://localhost:8080/v1")

完成：`.complete()`¶

我们可以使用 .complete()/.acomplete()（接收字符串参数）来触发选定模型的响应。

让我们使用默认模型执行此任务。

In [ ]:

Copied!

print(llm.complete("# Function that does quicksort:"))
print(llm.complete("# Function that does quicksort:"))

正如 LlamaIndex 预期的那样——我们得到了一个 CompletionResponse 作为响应。

异步完成：`.acomplete()`¶

同样也提供了异步实现方式，可按相同方式调用！

In [ ]:

Copied!

await llm.acomplete("# Function that does quicksort:")
await llm.acomplete("# Function that does quicksort:")

流式传输¶

In [ ]:

Copied!

x = llm.stream_complete(prompt="# Reverse string in python:", max_tokens=512)
x = llm.stream_complete(prompt="# Reverse string in python:", max_tokens=512)

In [ ]:

Copied!

for t in x:
    print(t.delta, end="")
for t in x:
    print(t.delta, end="")

异步流式处理¶

In [ ]:

Copied!

x = await llm.astream_complete(
    prompt="# Reverse program in python:", max_tokens=512
)
x = await llm.astream_complete(
    prompt="# Reverse program in python:", max_tokens=512
)

In [ ]:

Copied!

async for t in x:
    print(t.delta, end="")
async for t in x:
    print(t.delta, end="")

NVIDIA 大语言模型文本补全 API¶

安装¶

环境配置¶

使用 NVIDIA API 目录¶

use_chat_completions 参数的用法：¶

可用模型¶

使用 NVIDIA NIM 微服务¶

完成：.complete()¶

异步完成：.acomplete()¶

流式传输¶

异步流式处理¶

`use_chat_completions` 参数的用法：¶

完成：`.complete()`¶

异步完成：`.acomplete()`¶