使用经过微调的代码Llama-34B 在 HumanEval 上击败 GPT-4
我们在内部 Phind 数据集上对 CodeLlama-34B 和 CodeLlama-34B-Python 进行了微调,在 HumanEval 上分别实现了 67.6% 和 69.5% pass@1。根据 3 月份的官方技术报告,GPT-4 达到了 67%。为了确保结果的有效性,我们将 OpenAI 的净化方法应用于我们的数据集。
8 月 28 日更新:我们训练了一个新模型 Phind-CodeLlama-34B-v2,它在 HumanEval 上实现了73.8% pass@1。
昨天发布的 CodeLlama 模型在 HumanEval 上展示了令人印象深刻的性能。
CodeLlama-34B 在 HumanEval 上取得了 48.8% pass@1 的成绩
CodeLlama-34B-Python 在 HumanEval 上达到 53.7% pass@1