基于开源模型的代码能力超过 GPT4, 一个标志性的事件。

使用经过微调的代码Llama-34B 在 HumanEval 上击败 GPT-4

我们在内部 Phind 数据集上对 CodeLlama-34B 和 CodeLlama-34B-Python 进行了微调,在 HumanEval 上分别实现了 67.6% 和 69.5% pass@1。根据 3 月份的官方技术报告,GPT-4 达到了 67%。为了确保结果的有效性,我们将 OpenAI 的净化方法应用于我们的数据集。

8 月 28 日更新:我们训练了一个新模型 Phind-CodeLlama-34B-v2,它在 HumanEval 上实现了73.8% pass@1。
昨天发布的 CodeLlama 模型在 HumanEval 上展示了令人印象深刻的性能。

CodeLlama-34B 在 HumanEval 上取得了 48.8% pass@1 的成绩
CodeLlama-34B-Python 在 HumanEval 上达到 53.7% pass@1

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索