GPT-4:我写的代码你敢用吗?研究表明其API误用率超过62%现在,已经有不少软件开发者在开发软件时让大型语言模型当助手了,但最新的一项研究发出了警示:使用 LL...

贴文 3个月前
1.6K 0

GPT-4:我写的代码你敢用吗?研究表明其API误用率超过62%

现在,已经有不少软件开发者在开发软件时让大型语言模型当助手了,但最新的一项研究发出了警示:使用 LLM 反馈的代码时一定要慎重!根据这项研究新提出的评估框架 RobustAPI,如果不在 prompt 中提供演示示例,GPT-4 的 Java API 误用率超过 62%;而即使提供一个正确的演示示例,整体 API 误用率也接近 50%。

语言建模的新时代已经到来,大型语言模型(LLM)能力非凡,不仅能理解自然语言,甚至能根据用户需求生成定制代码。

因此,越来越多的软件工程师选择查询大型语言模型来解答编程问题,比如使用 API 来生成代码段或检测代码中的 bug。相比于搜索 Stack Overflow 等网络编程论坛,大型语言模型可为编程问题检索到更加合适的定制版答案。

LLM 的速度很快,但这也掩盖了其代码生成中的潜在风险。从软件工程的角度看,即便已经有许多研究成果问世(涉及避免句法错误以及提升对生成代码的语义理解等方面),LLM 的生成代码能力的稳健性和可靠性还没有得到透彻的研究。

不同于网络编程论坛的情况,LLM 生成的代码没有得到社区同行的审查,因此可能出现 API 误用问题,例如在文件读取和变量索引中缺少边界检查、缺少文件 I/O 关闭、交易完成失败等。即使生成的代码样本可以执行或者能正确执行功能,误用也可能导致产品出现严重的潜在风险,比如内存泄漏、程序崩溃、垃圾数据收集失败等。

更糟糕的是,提出这些问题的程序员还是最容易受到攻击的人,因为他们更有可能是 API 新手,无法辨别生成的代码段中的潜在问题。网页链接

暂无评论

暂无评论...