GitHub 热门项目:WordLlama

2026-06-20 1 阅读 GitHub Trending
GitHub 项目:WordLlama 仓库地址:https://github.com/dleemiller/WordLlama 星级:1451 | 作者:德莱米勒 项目描述:使用 LLM 的代币嵌入可以做的事情 =================================================== 自述文件内容: #WordLlama 📝🦙 **WordLlama** 是一款快速、轻量级的 NLP 工具包,专为模糊去重、相似度计算、排名、聚类和语义文本分割等任务而设计。它以最小的推理时间依赖性运行,并针对 CPU 硬件进行了优化,使其适合在资源受限的环境中部署。 Word Llama

## 新闻和更新 🔥 - **2025-02-01** 可调用 stdlib 函数(排序/最小/最大) - **2025-01-04** 我们很高兴宣布支持 model2vec 静态嵌入。另请参阅:[Model2Vec](https://github.com/MinishLab/model2vec) - **2024-10-04** 添加语义分割推理算法。请参阅我们的[技术概述](tutorials/blog/semantic_split/wl_semantic_blog.md)。 ## 目录 - [快速启动](#quick-start) - [功能](#features) - [什么是 WordLlama?](#what-is-wordllama) - [MTEB 结果](#mteb-结果) - [多快?](#how-fast-zap) - [用法](#用法) - [嵌入文本](#embedding-text) - [Stdlib 排序/最小/最大](#stdlib-sorted-min-max) - [计算相似度](#calculated-similarity) - [排名文档](#ranking-documents) - [模糊重复数据删除](#fuzzy-deduplication) - [聚类](#clustering) - [过滤](#filtering) - [Top-K 检索](#top-k-retrieval) - [语义文本分割](#semantic-text-splitting) - [加载 Model2Vec](#loading-model2vec) - [推理类](#inference-class) - [培训笔记](#training-notes) - [路线图](#路线图) - [提取令牌嵌入](#extracting-token-embeddings) - [社区项目](#community-projects) - [引文](#引文) - [许可证](#license) ## 快速入门 通过 pip 安装 WordLlama: ````bash pip 安装 wordllama ```` 加载默认的256维模型: ````蟒蛇 从 WordLlama 导入 WordLlama # 加载默认的WordLlama模型 wl = WordLlama.load() 查询=“机器学习方法” 候选人=[ “神经科学基础”, “神经网络简介”, “在家煮美味的意大利面”, 《哲学导论:逻辑学》, ] # 返回一个 Callable[[str], float] 函数 sim_key = wl.key(查询) # 对候选者进行排序,最相似的排在最前面 Sorted_candidates = 排序(候选者,key=sim_key,reverse=True) # 最相似的候选人 best_candidate = max(候选者, key=sim_key) # 打印结果 print("候选人排名:") 对于 i,枚举中的候选者(sorted_candidates,1): print(f"{i}.{candidate} (分数: {sim_key(candidate):.4f})") print(f"\n最佳匹配: {best_candidate} (分数: {sim_key(best_candidate):.4f})") # 排名候选人: # 1.神经网络简介(得分:0.3414) # 2. 神经科学基础(分数:0.2115) # 3.哲学概论:逻辑学(分数:0.1067) # 4.在家烹饪美味的意大利面(得分:0.0045) # # 最佳匹配:神经网络简介(得分:0.3414) ```` ## 特点 - **快速嵌入**:使用