Show HN：找到最适合您的硬件的本地法学硕士（按基准排名）

whichllm 查找实际在您的硬件上运行的最佳本地法学硕士。自动检测您的 GPU/CPU/RAM，并对 HuggingFace 中适合您系统的顶级型号进行排名。日本语版はこちら看吧 $ whichllm --gpu "RTX 4090" #1 Qwen/Qwen3.6-27B 27.8B Q5_K_M 得分 92.8 27 t/s #2 Qwen/Qwen3-32B 32.0B Q4_K_M 得分 83.0 31 t/s #3 Qwen/Qwen3-30B-A3B 30.0B Q5_K_M 得分 82.7 102 t/s 32B 型号非常适合您的卡 — 27B 型号仍然排名第一，因为它在实际基准测试中得分更高，而且是新一代。仅限尺寸“什么合适？”工具会给你更大的。这个差距就是整个问题的关键。（注#3：MoE 模型速度为 102 t/s — 速度根据活动参数排名，质量根据总体排名。）我可以运行什么？真正的首选（快照 2026-05 - 您的结果跟踪实时 HuggingFace 数据，这不是静态列表）：硬件 VRAM 首选速度 RTX 5090 32 GB Qwen3.6-27B · Q6_K · 分数 94.7 ~40 t/s RTX 4090 / 3090 24 GB Qwen3.6-27B · Q5_K_M · 分数92.8 ~27 t/s RTX 4060 8 GB Qwen3-14B · Q3_K_M · 得分 71.0 ~22 t/s Apple M3 Max 36 GB Qwen3.6-27B · Q5_K_M · 得分 89.4 ~9 t/s 仅 CPU — gpt-oss-20b (MoE) · Q4_K_M · 得分 45.2 ~6 t/s whichllm --gpu "" 在购买之前模拟其中任何一个。有用？ GitHub 之星可以帮助其他人找到它——我真的很想知道它为你的装备选择了什么：将其放入 Issues 中。为什么是whichllm？将模型装入 VRAM 是最简单的部分。困难的部分是知道哪个模型最适合实际上是最好的——而这正是构建 whichllm 的目的。基于证据的排名，而不是规模启发式——首选是从合并的真实基准（LiveBench、人工分析、Aider、多模式/视觉、Chatbot Arena ELO、Open LLM Leaderboard）中选出的——从来不是“恰好适合的最大模型”。新近度感知 - 过时的排行榜会沿着每个模型的血统降级，因此 2024 年的模型无法在过时的分数上超越当前一代的模型。基准快照日期打印在每个排名下，因此过时的推荐是不言而喻的，而不是默默信任的。证据分级和保护——每个分数都被标记为直接/变体/基础/插值/自我报告并按置信度打折。伪造的上传者声明和跨家族继承（一个小分叉借用其更大基础的分数）会被积极拒绝。架构感知估计 — VRAM = 权重 + GQA KV 缓存 + 激活 + 开销；速度与每个量化效率、每个后端因素、MoE 主动与总分割以及统一内存与离散 PCIe 部分卸载模型等因素有关。一个命令，可编写脚本——whichllm 打印答案；添加 --json | jq 用于管道。无需 TUI，无需记住按键绑定。实时数据 - 模型直接从 HuggingFace API 获取，并提供精心策划的冻结后备供离线或限速使用。功能自动检测硬件 — NVIDIA、AMD、Apple Silicon、仅 CPU 智能排名 — 根据 VRAM 适合度、速度和基准质量对模型进行评分单命令聊天 — 它将立即运行下载并启动聊天会话代码片段 — 它将为任何模型打印准备运行的 Python 实时数据 — 直接从 HuggingFace 获取模型（为了性能而缓存）基准感知 — 将真实的评估分数与基于置信度的抑制相结合任务配置文件 — 按一般、编码、视觉或数学用例 GPU 模拟 — 使用任何 GPU 进行测试：whichllm --gpu "RTX 4090" 硬件规划 — 反向查找：whichllm plan "llama 3 70b" JSON 输出 — 管道友好：whichllm --json 运行和片段使用单个命令尝试任何模型。无需手动安装 -whichllm 通过 uv 创建一个隔离环境，安装依赖项，下载模型，并开始交互式聊天。 # 与模型聊天（自动选择最佳 GGUF 变体） whichllm run " qwen 2.5 1.5b gguf " # 自动选择最适合您的硬件的模型并聊天 whichllm run # 仅 CPU 模式whichllm run " phi 3 mini gguf " --cpu-only 适用于所有模型格式： GGUF — 通过 llama-cpp-python （轻量级、快速） AWQ / GPTQ — 通过变压器 + autoawq / auto-gptq FP16 / BF16 — 通过转换器获取复制粘贴的 Python 片段：whichllm snippet " qwen 7b " from llama_cpp import Llama llm = Llama 。 from_pretrained ( repo_id = "Qwen/Qwen2.5-7B-Instruct-GGUF" ，文件名 = "qwen2.5-7b-instruct-q4_k_m.gguf" ， n_ctx = 4096 ， n_gpu_layers = - 1 ， verbose = False ，) 输出 = llm 。 create_chat_completion ( messages = [{ "role" : "user" , "content" : "Hello!" }], ) print (output [ "choices" ][ 0 ][ "message" ][ "content" ]) 安装 pipx (推荐) pipx install whichllm Homebrewrew tap Andyyyy64/whichllm brew installwhichllm pip pip installwhichllm 开发git clone https://github.com/Andyyyy64/whichllm.git cdwhichllm uvsync --dev uv runwhichllm uv run pytestUsage#自动检测硬件并显示最佳模型whichllm#模拟GPU(例如计划购买)whichllm --gpu"RTX 4090"whichllm --gpu"RTX 5090"#仅CPU模式whichllm--cpu-only#更多结果/过滤器