GitHub 热门项目:翻译代理

2026-06-25 1 阅读 GitHub Trending
GitHub 项目:translation-agent 仓库地址:https://github.com/andrewyng/translation-agent 星级:5766 | 作者:安德鲁温 项目描述:暂无描述 =================================================== 自述文件内容: # Translation Agent:使用反射工作流程进行代理翻译 这是机器翻译反射代理工作流程的 Python 演示。主要步骤是: 1. 提示法学硕士将文本从“源语言”翻译为“目标语言”; 2. 让LLM对翻译进行反思,提出改进翻译的建设性建议; 3. 利用建议改进翻译。 ## 可定制性 通过使用法学硕士作为翻译引擎的核心,该系统具有高度可操纵性。例如,通过更改提示,使用此工作流程比传统机器翻译 (MT) 系统更容易: - 修改输出的风格,例如正式/非正式。 - 指定如何处理习语和特殊术语,如名称、技术术语和首字母缩略词。例如,在提示中包含术语表可让您确保特定术语(例如开源、H100 或 GPU)的翻译一致。 - 指定语言或特定方言的特定区域使用,以服务目标受众。例如,拉丁美洲所说的西班牙语与西班牙所说的西班牙语不同;加拿大的法语与法国的法语不同。 **这不是成熟的软件**,是 Andrew 在过去几个月的周末进行翻译以及合作者(Joaquin Dominguez、Nedelina Teneva、John Santerre)帮助重构代码的结果。 根据我们在传统翻译数据集上使用 BLEU 评分进行的评估,此工作流程有时与领先的商业产品具有竞争力,但有时也比领先的商业产品更差。然而,我们偶尔也会通过这种方法获得出色的结果(优于商业产品)。我们认为这只是代理翻译的一个起点,并且这是一个有前途的翻译方向,具有进一步改进的巨大空间,这就是为什么我们发布此演示以鼓励更多讨论、实验、研究和开源贡献。 如果代理翻译可以产生比传统架构(例如输入文本并直接输出翻译的端到端转换器)更好的结果(通常比我们这里的方法运行更快/更便宜),这也提供了一种自动生成训练数据(并行文本语料库)的机制,可用于进一步训练和改进传统算法。 (另请参阅 [The Batch 中的这篇文章](https://www.deeplearning.ai/the-batch/building-models-that-learn-from-themselves/),了解如何使用 LLM 生成训练数据。) 非常欢迎有关如何改进的意见和建议! ## 开始使用 要开始使用“translation-agent”,请按照以下步骤操作: ### 安装: - 安装需要 Poetry 包管理器。 [诗歌安装](https://python-poetry.org/docs/#installation) 根据您的环境,这可能有效: ````bash pip 安装诗歌 ```` - 一个 .env 文件