开发者生态
morning
Show HN:找到最适合您的硬件的本地法学硕士(按基准排名)
2026-05-15
1 阅读
andyyyy64
whichllm 查找实际在您的硬件上运行的最佳本地法学硕士。自动检测您的 GPU/CPU/RAM,并对 HuggingFace 中适合您系统的顶级型号进行排名。 日本语版はこちら 看吧 $ whichllm --gpu "RTX 4090" #1 Qwen/Qwen3.6-27B 27.8B Q5_K_M 得分 92.8 27 t/s #2 Qwen/Qwen3-32B 32.0B Q4_K_M 得分 83.0 31 t/s #3 Qwen/Qwen3-30B-A3B 30.0B Q5_K_M 得分 82.7 102 t/s 32B 型号非常适合您的卡 — 27B 型号仍然排名第一,因为它在实际基准测试中得分更高,而且是新一代。仅限尺寸“什么合适?”工具会给你更大的。这个差距就是整个问题的关键。 (注#3:MoE 模型速度为 102 t/s — 速度根据活动参数排名,质量根据总体排名。)我可以运行什么?真正的首选(快照 2026-05 - 您的结果跟踪实时 HuggingFace 数据,这不是静态列表): 硬件 VRAM 首选速度 RTX 5090 32 GB Qwen3.6-27B · Q6_K · 分数 94.7 ~40 t/s RTX 4090 / 3090 24 GB Qwen3.6-27B · Q5_K_M · 分数92.8 ~27 t/s RTX 4060 8 GB Qwen3-14B · Q3_K_M · 得分 71.0 ~22 t/s Apple M3 Max 36 GB Qwen3.6-27B · Q5_K_M · 得分 89.4 ~9 t/s 仅 CPU — gpt-oss-20b (MoE) · Q4_K_M · 得分 45.2 ~6 t/s whichllm --gpu "" 在购买之前模拟其中任何一个。有用? GitHub 之星可以帮助其他人找到它——我真的很想知道它为你的装备选择了什么:将其放入 Issues 中。为什么是whichllm?将模型装入 VRAM 是最简单的部分。困难的部分是知道哪个模型最适合实际上是最好的——而这正是构建 whichllm 的目的。基于证据的排名,而不是规模启发式——首选是从合并的真实基准(LiveBench、人工分析、Aider、多模式/视觉、Chatbot Arena ELO、Open LLM Leaderboard)中选出的——从来不是“恰好适合的最大模型”。新近度感知 - 过时的排行榜会沿着每个模型的血统降级,因此 2024 年的模型无法在过时的分数上超越当前一代的模型。基准快照日期打印在每个排名下,因此过时的推荐是不言而喻的,而不是默默信任的。证据分级和保护——每个分数都被标记为直接/变体/基础/插值/自我报告并按置信度打折。伪造的上传者声明和跨家族继承(一个小分叉借用其更大基础的分数)会被积极拒绝。架构感知估计 — VRAM = 权重 + GQA KV 缓存 + 激活 + 开销;速度与每个量化效率、每个后端因素、MoE 主动与总分割以及统一内存与离散 PCIe 部分卸载模型等因素有关。一个命令,可编写脚本——whichllm 打印答案;添加 --json | jq 用于管道。无需 TUI,无需记住按键绑定。实时数据 - 模型直接从 HuggingFace API 获取,并提供精心策划的冻结后备供离线或限速使用。功能 自动检测硬件 — NVIDIA、AMD、Apple Silicon、仅 CPU 智能排名 — 根据 VRAM 适合度、速度和基准质量对模型进行评分 单命令聊天 — 它将立即运行下载并启动聊天会话 代码片段 — 它将为任何模型打印准备运行的 Python 实时数据 — 直接从 HuggingFace 获取模型(为了性能而缓存) 基准感知 — 将真实的评估分数与基于置信度的抑制相结合 任务配置文件 — 按一般、编码、视觉或数学用例 GPU 模拟 — 使用任何 GPU 进行测试:whichllm --gpu "RTX 4090" 硬件规划 — 反向查找:whichllm plan "llama 3 70b" JSON 输出 — 管道友好:whichllm --json 运行和片段 使用单个命令尝试任何模型。无需手动安装 -whichllm 通过 uv 创建一个隔离环境,安装依赖项,下载模型,并开始交互式聊天。 # 与模型聊天(自动选择最佳 GGUF 变体) whichllm run " qwen 2.5 1.5b gguf " # 自动选择最适合您的硬件的模型并聊天 whichllm run # 仅 CPU 模式whichllm run " phi 3 mini gguf " --cpu-only 适用于所有模型格式: GGUF — 通过 llama-cpp-python (轻量级、快速) AWQ / GPTQ — 通过变压器 + autoawq / auto-gptq FP16 / BF16 — 通过转换器 获取复制粘贴的 Python 片段:whichllm snippet " qwen 7b " from llama_cpp import Llama llm = Llama 。 from_pretrained ( repo_id = "Qwen/Qwen2.5-7B-Instruct-GGUF" ,文件名 = "qwen2.5-7b-instruct-q4_k_m.gguf" , n_ctx = 4096 , n_gpu_layers = - 1 , verbose = False ,) 输出 = llm 。 create_chat_completion ( messages = [{ "role" : "user" , "content" : "Hello!" }], ) print (output [ "choices" ][ 0 ][ "message" ][ "content" ]) 安装 pipx (推荐) pipx install whichllm Homebrewrew tap Andyyyy64/whichllm brew installwhichllm pip pip installwhichllm 开发git clone https://github.com/Andyyyy64/whichllm.git cdwhichllm uvsync --dev uv runwhichllm uv run pytestUsage#自动检测硬件并显示最佳模型whichllm#模拟GPU(例如计划购买)whichllm --gpu"RTX 4090"whichllm --gpu"RTX 5090"#仅CPU模式whichllm--cpu-only#更多结果/过滤器