GitHub 热门项目：WordLlama

GitHub 项目：WordLlama 仓库地址：https://github.com/dleemiller/WordLlama 星级：1451 | 作者：德莱米勒项目描述：使用 LLM 的代币嵌入可以做的事情 =================================================== 自述文件内容： #WordLlama 📝🦙 **WordLlama** 是一款快速、轻量级的 NLP 工具包，专为模糊去重、相似度计算、排名、聚类和语义文本分割等任务而设计。它以最小的推理时间依赖性运行，并针对 CPU 硬件进行了优化，使其适合在资源受限的环境中部署。 Word Llama

## 新闻和更新 🔥 - **2025-02-01** 可调用 stdlib 函数（排序/最小/最大） - **2025-01-04** 我们很高兴宣布支持 model2vec 静态嵌入。另请参阅：[Model2Vec](https://github.com/MinishLab/model2vec) - **2024-10-04** 添加语义分割推理算法。请参阅我们的[技术概述](tutorials/blog/semantic_split/wl_semantic_blog.md)。＃＃目录 - [快速启动](#quick-start) - [功能](#features) - [什么是 WordLlama？](#what-is-wordllama) - [MTEB 结果](#mteb-结果) - [多快？](#how-fast-zap) - [用法](#用法) - [嵌入文本](#embedding-text) - [Stdlib 排序/最小/最大](#stdlib-sorted-min-max) - [计算相似度](#calculated-similarity) - [排名文档](#ranking-documents) - [模糊重复数据删除](#fuzzy-deduplication) - [聚类](#clustering) - [过滤](#filtering) - [Top-K 检索](#top-k-retrieval) - [语义文本分割](#semantic-text-splitting) - [加载 Model2Vec](#loading-model2vec) - [推理类](#inference-class) - [培训笔记](#training-notes) - [路线图](#路线图) - [提取令牌嵌入](#extracting-token-embeddings) - [社区项目](#community-projects) - [引文](#引文) - [许可证](#license) ## 快速入门通过 pip 安装 WordLlama： ````bash pip 安装 wordllama ```` 加载默认的256维模型： ````蟒蛇从 WordLlama 导入 WordLlama # 加载默认的WordLlama模型 wl = WordLlama.load() 查询=“机器学习方法” 候选人=[ “神经科学基础”， “神经网络简介”， “在家煮美味的意大利面”，《哲学导论：逻辑学》， ] # 返回一个 Callable[[str], float] 函数 sim_key = wl.key(查询) # 对候选者进行排序，最相似的排在最前面 Sorted_candidates = 排序（候选者，key=sim_key，reverse=True） # 最相似的候选人 best_candidate = max(候选者, key=sim_key) # 打印结果 print("候选人排名：") 对于 i，枚举中的候选者（sorted_candidates，1）： print(f"{i}.{candidate} (分数: {sim_key(candidate):.4f})") print(f"\n最佳匹配: {best_candidate} (分数: {sim_key(best_candidate):.4f})") # 排名候选人： # 1.神经网络简介（得分：0.3414） # 2. 神经科学基础（分数：0.2115） # 3.哲学概论：逻辑学（分数：0.1067） # 4.在家烹饪美味的意大利面（得分：0.0045） # # 最佳匹配：神经网络简介（得分：0.3414） ```` ## 特点 - **快速嵌入**：使用