[Frontend][Core] Add guidance logits processor for guided decoding #10208

JC1DA · 2024-11-11T04:16:29Z

Add Guidance backend for guided decoding

This pull request extends guided decoding capabilities

Add guidance backend
Process logits in parallel with threadpool

guidance backend supports regex, choice, json and grammar.

relevant: #5245

Usage

JSON Generation

from pydantic import BaseModel, ConfigDict

model = "Qwen/Qwen2.5-0.5B-Instruct-GPTQ-Int4"
llm = LLM(model=model)

class UserProfile(BaseModel):
    name: str
    age: int
    email: str

    model_config = ConfigDict(extra="forbid")

sampling_params = SamplingParams(
    temperature=0.0,
    top_p=0.95,
    max_tokens=512,
    guided_decoding=GuidedDecodingParams(
        json=UserProfile,
        backend="guidance",
    ),
)

outputs = llm.chat(
    messages=[
        [
            CustomChatCompletionMessageParam(
                role="system", content="You are a helpful assistant."
            ),
            CustomChatCompletionMessageParam(
                role="user",
                content="Tell me something about yourself (name, age, email) in JSON format.\n",
            ),
        ],
    ],
    sampling_params=[sampling_params],
)

Choices Generation

sampling_params = SamplingParams(
    temperature=0.0,
    top_p=0.95,
    max_tokens=512,
    guided_decoding=GuidedDecodingParams(
        choice=["3","4","5","6"],
        backend="guidance",
    ),
)

outputs = llm.chat(
    messages=[
        [
            CustomChatCompletionMessageParam(
                role="system", content="You are a 5 years-old helpful assistant."
            ),
            CustomChatCompletionMessageParam(
                role="user",
                content="How old are you?",
            ),
        ],
    ],
    sampling_params=[sampling_params],
)

Regex Generation via OpenAI Client

model = "Qwen/Qwen2.5-0.5B-Instruct-GPTQ-Int4"
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="NOKEY",
)

completion = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "user",
            "content": "You are a 5 years-old helpful assistant. information.",
        },
        {
            "role": "user",
            "content": """How old are you?""",
        },
    ],
    extra_body={"guided_regex": "\\d+", "guided_decoding_backend": "guidance"}
)

Benchmark

Model: QWEN2.5-7B-GPTQ-INT4
Dataset: GSM8K
Guided Type: JSON

Metric	Outlines	Guidance
Accuracy	1023/1318 (77.62%)	1032/1318 (78.3%)
Average Output tokens	166 (+/- 83)	195 (+/- 69)
Average Latency in ms per Request (1 concurrent req)	2567 (+/- 976)	1799 (+/- 466)
Average Latency in ms per Request (4 concurrent reqs)	8697 (+/- 3866)	3655 (+/- 1154)
Average Latency in ms per Request (8 concurrent reqs)	17370 (+/- 8139)	5997 (+/- 1991)

github-actions · 2024-11-11T04:16:41Z

👋 Hi! Thank you for contributing to the vLLM project.
Just a reminder: PRs would not trigger full CI run by default. Instead, it would only run fastcheck CI which starts running only a small and essential subset of CI tests to quickly catch errors. You can run other CI tests on top of those by going to your fastcheck build on Buildkite UI (linked in the PR checks section) and unblock them. If you do not have permission to unblock, ping simon-mo or khluu to add you in our Buildkite org.

Once the PR is approved and ready to go, your PR reviewer(s) can run CI to test the changes comprehensively before merging.

To run CI, PR reviewers can do one of these:

Add ready label to the PR
Enable auto-merge.

🚀

Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: youkaichao <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Russell Bryant <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Jee Jee Li <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Loc Huynh <[email protected]>

…ementation (vllm-project#9427) Signed-off-by: Qishuai [email protected] Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: wangshuai09 <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

…time (vllm-project#9659) Signed-off-by: Loc Huynh <[email protected]>

…#9793) Signed-off-by: yuze.zyz <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Loc Huynh <[email protected]>

…ct#9801) Signed-off-by: Yannick Schnider <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

…maModel (vllm-project#9806) Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Russell Bryant <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

…istory (vllm-project#9777) Signed-off-by: Kunjan Patel <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Joe Runde <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

…ing (vllm-project#8339) Signed-off-by: Max de Bayser <[email protected]> Co-authored-by: Max de Bayser <[email protected]> Co-authored-by: Maximilien de Bayser <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: simon-mo <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Loc Huynh <[email protected]>

…#9815) Signed-off-by: youkaichao <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Loc Huynh <[email protected]>

…#9812) Signed-off-by: Loc Huynh <[email protected]>

…#9810) Signed-off-by: kevin <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Loc Huynh <[email protected]>

…ects Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Loc Huynh <[email protected]>

…stcases) Signed-off-by: Loc Huynh <[email protected]>

Signed-off-by: Loc Huynh <[email protected]>

mergify · 2024-11-11T07:05:27Z

This pull request has merge conflicts that must be resolved before it can be
merged. Please rebase the PR, @JC1DA.

https://docs.github.com/en/pull-requests/collaborating-with-pull-requests/working-with-forks/syncing-a-fork

mergify bot added the ci/build label Nov 11, 2024

JC1DA and others added 28 commits November 10, 2024 23:02

Add guidance logits processor

858c2c5

Signed-off-by: Loc Huynh <[email protected]>

Add threadpool to process logits in parallel

e654c8a

Signed-off-by: Loc Huynh <[email protected]>

Adding "torch compile" annotations to moe models (vllm-project#9758)

b0e4689

Signed-off-by: Loc Huynh <[email protected]>

[misc] avoid circular import (vllm-project#9765)

6638235

Signed-off-by: youkaichao <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[torch.compile] add deepseek v2 compile (vllm-project#9775)

d8bbcef

Signed-off-by: youkaichao <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[Doc] fix third-party model example (vllm-project#9771)

667dfea

Signed-off-by: Russell Bryant <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[Model][LoRA]LoRA support added for Qwen (vllm-project#9622)

35bbb1e

Signed-off-by: Jee Jee Li <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[Doc] Specify async engine args in docs (vllm-project#9726)

c6e33ba

Signed-off-by: Loc Huynh <[email protected]>

[Bugfix] Use temporary directory in registry (vllm-project#9721)

6856a99

Signed-off-by: Loc Huynh <[email protected]>

[Frontend] re-enable multi-modality input in the new beam search impl…

2b40322

…ementation (vllm-project#9427) Signed-off-by: Qishuai [email protected] Signed-off-by: Loc Huynh <[email protected]>

[Model] Add BNB quantization support for Mllama (vllm-project#9720)

e6cb504

Signed-off-by: Loc Huynh <[email protected]>

[Hardware] using current_platform.seed_everything (vllm-project#9785)

015ca82

Signed-off-by: wangshuai09 <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[Misc] Add metrics for request queue time, forward time, and execute …

d1a6755

…time (vllm-project#9659) Signed-off-by: Loc Huynh <[email protected]>

Fix the log to correct guide user to install modelscope (vllm-project…

8e1b2b7

…#9793) Signed-off-by: yuze.zyz <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[Bugfix] Use host argument to bind to interface (vllm-project#9798)

3d93edf

Signed-off-by: Loc Huynh <[email protected]>

[Misc]: Typo fix: Renaming classes (casualLM -> causalLM) (vllm-proje…

d0f5f73

…ct#9801) Signed-off-by: Yannick Schnider <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[Model] Add LlamaEmbeddingModel as an embedding Implementation of Lla…

2953828

…maModel (vllm-project#9806) Signed-off-by: Loc Huynh <[email protected]>

[CI][Bugfix] Skip chameleon for transformers 4.46.1 (vllm-project#9808)

e57398d

Signed-off-by: Loc Huynh <[email protected]>

[CI/Build] mergify: fix rules for ci/build label (vllm-project#9804)

b0aa454

Signed-off-by: Russell Bryant <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[MISC] Set label value to timestamp over 0, to keep track of recent h…

6ed0cba

…istory (vllm-project#9777) Signed-off-by: Kunjan Patel <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[Bugfix][Frontend] Guard against bad token ids (vllm-project#9634)

da2af50

Signed-off-by: Joe Runde <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[Docs] Add notes about Snowflake Meetup (vllm-project#9814)

017071c

Signed-off-by: simon-mo <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

[Bugfix] Fix prefix strings for quantized VLMs (vllm-project#9772)

e15fa26

Signed-off-by: Loc Huynh <[email protected]>

[core][distributed] fix custom allreduce in pytorch 2.5 (vllm-project…

b3b4ac7

…#9815) Signed-off-by: youkaichao <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

Update README.md (vllm-project#9819)

3fadf8e

Signed-off-by: Loc Huynh <[email protected]>

[Bugfix][VLM] Make apply_fp8_linear work with >2D input (vllm-project…

bdb9d50

…#9812) Signed-off-by: Loc Huynh <[email protected]>

[ci/build] Pin CI dependencies version with pip-compile (vllm-project…

43ab49c

…#9810) Signed-off-by: kevin <[email protected]> Signed-off-by: Loc Huynh <[email protected]>

JC1DA added 10 commits November 10, 2024 23:02

Add guidance as common dependency

7cd7cd3

Signed-off-by: Loc Huynh <[email protected]>

Fix no whitespace_flexible arg in current guidance pip package

2031b81

Signed-off-by: Loc Huynh <[email protected]>

Fix grammar support for guidance

2631634

Signed-off-by: Loc Huynh <[email protected]>

Move _initialize call into constructor

1a0bb1c

Signed-off-by: Loc Huynh <[email protected]>

Format code

26b5608

Signed-off-by: Loc Huynh <[email protected]>

Move _initialize into call function to avoid pickling unnecessary obj…

f5b40b9

…ects Signed-off-by: Loc Huynh <[email protected]>

Extend guidance to guided processors test

af47579

Signed-off-by: Loc Huynh <[email protected]>

Refactor test_guided_processors.py

393c427

Signed-off-by: Loc Huynh <[email protected]>

Process logits sequentially when threadpool is not available (LORA te…

e88e04c

…stcases) Signed-off-by: Loc Huynh <[email protected]>

Fix incorrect padded values for special tokens

ca63389

Signed-off-by: Loc Huynh <[email protected]>

JC1DA force-pushed the add_guidance_logits_processor branch from b34e481 to ca63389 Compare November 11, 2024 07:04

JC1DA requested review from mgoin, youkaichao, simon-mo, tlrmchlsmth, WoosukKwon, njhill, LiuXiaoxuanPKU, comaniac, KuntaiDu, DarkLight1337, ywang96, robertgshaw2-neuralmagic, zhuohan123 and alexm-neuralmagic as code owners November 11, 2024 07:04

mergify bot added documentation Improvements or additions to documentation frontend labels Nov 11, 2024

mergify bot added the needs-rebase label Nov 11, 2024

JC1DA closed this Nov 11, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Frontend][Core] Add guidance logits processor for guided decoding #10208

[Frontend][Core] Add guidance logits processor for guided decoding #10208

JC1DA commented Nov 11, 2024

github-actions bot commented Nov 11, 2024

mergify bot commented Nov 11, 2024

[Frontend][Core] Add guidance logits processor for guided decoding #10208

[Frontend][Core] Add guidance logits processor for guided decoding #10208

Conversation

JC1DA commented Nov 11, 2024

Add Guidance backend for guided decoding

Usage

Benchmark

github-actions bot commented Nov 11, 2024

mergify bot commented Nov 11, 2024