GitHub 热门项目：翻译代理

GitHub 项目：translation-agent 仓库地址：https://github.com/andrewyng/translation-agent 星级：5766 | 作者：安德鲁温项目描述：暂无描述 =================================================== 自述文件内容： # Translation Agent：使用反射工作流程进行代理翻译这是机器翻译反射代理工作流程的 Python 演示。主要步骤是： 1. 提示法学硕士将文本从“源语言”翻译为“目标语言”； 2. 让LLM对翻译进行反思，提出改进翻译的建设性建议； 3. 利用建议改进翻译。 ## 可定制性通过使用法学硕士作为翻译引擎的核心，该系统具有高度可操纵性。例如，通过更改提示，使用此工作流程比传统机器翻译 (MT) 系统更容易： - 修改输出的风格，例如正式/非正式。 - 指定如何处理习语和特殊术语，如名称、技术术语和首字母缩略词。例如，在提示中包含术语表可让您确保特定术语（例如开源、H100 或 GPU）的翻译一致。 - 指定语言或特定方言的特定区域使用，以服务目标受众。例如，拉丁美洲所说的西班牙语与西班牙所说的西班牙语不同；加拿大的法语与法国的法语不同。 **这不是成熟的软件**，是 Andrew 在过去几个月的周末进行翻译以及合作者（Joaquin Dominguez、Nedelina Teneva、John Santerre）帮助重构代码的结果。根据我们在传统翻译数据集上使用 BLEU 评分进行的评估，此工作流程有时与领先的商业产品具有竞争力，但有时也比领先的商业产品更差。然而，我们偶尔也会通过这种方法获得出色的结果（优于商业产品）。我们认为这只是代理翻译的一个起点，并且这是一个有前途的翻译方向，具有进一步改进的巨大空间，这就是为什么我们发布此演示以鼓励更多讨论、实验、研究和开源贡献。如果代理翻译可以产生比传统架构（例如输入文本并直接输出翻译的端到端转换器）更好的结果（通常比我们这里的方法运行更快/更便宜），这也提供了一种自动生成训练数据（并行文本语料库）的机制，可用于进一步训练和改进传统算法。（另请参阅 [The Batch 中的这篇文章](https://www.deeplearning.ai/the-batch/building-models-that-learn-from-themselves/)，了解如何使用 LLM 生成训练数据。）非常欢迎有关如何改进的意见和建议！ ## 开始使用要开始使用“translation-agent”，请按照以下步骤操作： ### 安装： - 安装需要 Poetry 包管理器。 [诗歌安装](https://python-poetry.org/docs/#installation) 根据您的环境，这可能有效： ````bash pip 安装诗歌 ```` - 一个 .env 文件