GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7|ai|示例|置信度|gpt-4|软件安装包

微信扫码二维码

分享至好友和朋友圈

【新智元导读】 GPT4终结人工标注AI标注比人类标注效这个开源工具,居然能用GPT-4代替人类去标注数据,效率比人类高了100倍,但成本只有1/7。

大模型满天飞的时代,AI行业最缺的是什么?毫无疑问一定是算(xian)力(ka)。

老黄作为AI掘金者唯一的「铲子供应商」,早已赚得盆满钵满。

除了GPU,还有什么是训练一个高效的大模型必不可少且同样难以获取的资源?

高质量的数据。OpenAI正是借助基于人类标注的数据,才一举从众多大模型企业中脱颖而出,让ChatGPT成为了大模型竞争中阶段性的胜利者。

但同时,OpenAI也因为使用非洲廉价的人工进行数据标注,被各种媒体口诛笔伐。

时代周刊报道OpenAI雇佣肯尼亚廉价劳动力标注

而那些参与数据标注的工人们,也因为长期暴露在有毒内容中,受到了不可逆的心理创伤。

卫报报道肯尼亚劳工指责数据标注工作给自己带来了不可逆的心理创伤

总之,对于数据标注,一定需要找到一个新的方法,才能避免大量使用人工标注带来的包括道德风险在内的其他潜在麻烦。

所以,包括谷歌,Anthropic在内的AI巨头和大型独角兽,都在进行数据标注自动化的探索。

谷歌最近的研究,开发了一个和人类标注能力相近的AI标注工具

Anthropic采用了ConstitutionalAI来处理数据,也获得了很好的对齐效果

除了巨头们的尝试之外,最近,一家初创公司refuel,也上线了一个AI标注数据的开源处理工具:Autolabel。

Autolabel:用AI标注数据,效率最高提升100倍

这个工具可以让有数据处理需求的用户,使用市面上主流的LLM(ChatGPT,Claude等)来对自己的数据集进行标注。

refuel称,用自动化的方式标注数据,相比于人工标注,效率最高可以提高100倍,而成本只有人工成本的1/7!

就算按照使用成本最高的GPT-4来算,采用Autolabel标注的成本只有使用人工标注的1/7,而如果使用其他更便宜的模型,成本还能进一步降低

采用AutolabelLLM的标注方式之后,标注效率更是大幅提升

对于LLM标注质量的评估,Autolabel的开发者创立了一个基准测试,通过将不同的LLM的标注结果和基准测试中不同数据集中收纳的标准答案向比对,就能评估各个模型标注数据的质量。

当Autolabel采用GPT-4进行标注时,获得了最高的准确率——88.4%,超过了人类标注结果的准确率86.2%。

而且其他比GPT-4便宜得多的模型的标注准确率,相比GPT-4来说也不算低。

开发者称,在比较简单的标注任务中采用便宜的模型,在困难的任务中采用GPT-4,将可以大大节省标注成本,同时几乎不影响标注的准确率。

Autolabel支持对自然语言处理项目进行分类,命名实体识别,实体匹配和问答。

支持主流的所有LLM提供商:OpenAI、Anthropic和GooglePalm等,并通过HuggingFace为开源和私有模型提供支持。

Autolabel免除了编写复杂的指南,无尽地等待外部团队来提供数据支持的麻烦,用户能够在几分钟内开始标注数据。

可以支持使用本地部署的私有模型在本地处理数据,所以对于数据隐私敏感度很高的用户来说,Autolabel提供了成本和门槛都很低的数据标注途径。

所以,不论是律所想要通过GPT-4来对法律文档进行分类,还是保险公司想要用私有模型对敏感的客户医疗数据进行分类或者筛查,都可以使用Autolabel进行高效地处理。

如果没有Autolabel,用户需要首先收集几千个示例,并由一组人工注释者对它们进行标注,可能需要几周的时间——熟悉标注方针,从小数据集到大数据集进行几次迭代,等等。

而如果使用Autolabe可以在分钟内就对这个数据集进行标注。

首先安装所有必要的库:

现在,将OpenAI密钥设置为环境变量

下载和查看数据集

将使用一个名为CivilComments的数据集,该数据集可通过Autolabel获得。你可以在本地下载它,只需运行:

接下来,通过运行agent.plan,使用config中指定的LLM对的数据集进行一次标注

定义下面的配置文件:

如果要创建自定义配置,可以使用CLI或编写自己的配置。

最后,进行数据标注:

输出结果为54%的准确率不是很好,进一步改进的具体方法可以访问以下链接查看:

技术细节:标注质量Benchmark介绍

在对Autolabel的基准测试中,包含了以下数据集:

表1:Autolabel标注的数据集列表

表2:用于评估的LLM提供者与模型列表

本研究在三个标准上对LLM和人工标注进行评估:

对于每个数据集,研究人员都将其拆分为种子集和测试集两部分。

种子集包含200个示例,是从训练分区中随机采样构建的,用于置信度校准和一些少量的提示任务中。

测试集包含2000个示例,采用了与种子集相同的构建方法,用于运行评估和报告所有基准测试的结果。

在人工标注方面,研究团队从常用的数据标注第三方平台聘请了数据标注员,每个数据集都配有多个数据标注员。

此过程分为三个阶段:

研究人员为数据标注员提供了标注指南,要求他们对种子集进行标注。

然后对标注过的种子集进行评估,为数据标注员提供该数据集的基准真相作为参考,并要求他们检查自己的错误。

可以看到,与熟练的人工数据标注员相比,最先进的LLM已经可以在相同甚至更好的水平上标注文本数据集,并且做到开箱即用,大大简化了繁琐的数据标注流程。

但由于LLM是在大量数据集上训练出来的,所以在评估LLM的过程中存在着数据泄露的可能。

研究人员对此进行了例如集合的额外改进,可以将表现最好的的LLM(GPT-4、PaLM-2)与基准真相的一致性从89%提高到95%以上。

对于提供对数概率的LLM(text-davinci-003),研究人员使用这些概率来估计置信度。

对于其他LLM,则使用FLANT5XXL模型进行置信度估计。

例如,上图显示,在95%的质量阈值下,我们可以使用GPT-4标注约77%的数据集。

添加这一步的原因是token级日志概率在校准方面的效果不佳,如GPT-4技术报告中所强调的那样:

GPT-4模型的校准图:比较预训练和后RLHF版本的置信度和准确性

95%与基准真相一致的完成率

相比之下,人类标注者与基准真相的一致性为86.6%。

从上图可以看到在所有数据集中,GPT-4的平均完成率最高,在8个数据集中,有3个数据集的标注质量超过了这一质量阈值。

而其他多个模型(如text-bison@001、gpt-3.5-turbo、claude-v1和flan-t5-xxl)也实现了很好的性能:

平均至少成功自动标注了50%的数据,但价格却只有GPT-4API成本的1/10以下。

在接下来的几个月中,开发者承诺将向Autolabel添加大量新功能:

支持更多LLM进行数据标注。

支持更多标注任务,例如总结等。

支持更多的输入数据类型和更高的LLM输出稳健性。

让用户能够试验多个LLM和不同提示的工作流程。

我是一万米高的搞笑女2023-09-1719:21:36

全局中部横幅
LintCode

Powerfulcodingtrainingsystem.LintCodehasthemostinterviewproblemscoveringGoogle,Facebook,Linkedin,Amazon,Microsoftandsoon.WeprovideChineseandEnglishversionsforcodersaroundtheworld.

360AI导航

360AI人工智能商店,精选互联网资源最全的ai人工智能网,搜集并整理人工智能工具的网站、教程、资源,让您能够快速找到适合的工具和内容。收录AI工具网站、公众号、自媒体、书籍、电影等,分类包括AI趣站、AI开放平台、AI资讯、有趣网站、开源项目、AI学习平台等内容,涵盖了AI绘画,AI游戏,AI视频,AI网址大全,AI工具软件,AI搜索、AI写作、AI剪辑、AI动画、AI3D、AI游戏、AI营销等等

无敌版小游戏,4399无敌版小游戏大全,变态版小游戏,4399小游戏

4399无敌版小游戏大全收录了国内外无敌版小游戏,双人小游戏无敌版,变态版小游戏,冒险王无敌版小游戏,无敌版小游戏全集,dnf2.7无敌版小游戏,无敌版小游戏最新版。好玩就拉朋友们一起来玩吧!

硫回收

硫回收|有机废气处理-江苏恒新能源是一家集新材料新技术的研发、工程工艺设计、产品加工制造、工程总承包、合同能源管理运营、股权投资于一体的综合型高新技术企业。公司专业致力于化工、环保领域的酸性气体治理及资源化利用、硫回收、有机废水处理等技术研发和工程化应用,服务于工业生产的安全环保与节能降耗。

八神智能天下zntx.cc

八神智能天下是国内最大的安卓/鸿蒙/Android/Harmony游戏、软件发布网站。这里提供安卓/鸿蒙软件、游戏、主题、电影、BT游戏的下载

北京通联天地科技有限公司

北京通联天地科技有限公司成立于2002年10月,注册资本1000万,是一家专业的移动通信增值服务提供商,也是中国首家专注于向普通百姓提供医疗卫生信息咨询服务的专业公司,是工信部下进行大众中高端医疗服务咨询的公司,拥有强势运营商的优势资源。

四川柴油发电机组,四川发电机,成都发电机组,四川厂用大功率发电机,绵阳附近发电机

四川斯坦福电力设备有限公司专业从事发电机的销售,租赁和维修,咨询电话:028-81463192,欢迎大家来电咨询有关四川柴油发电机组,四川发电机,,四川厂用大功率发电机,绵阳附近发电机四川发电机组的相关详情.

山东裕发食品有限公司

山东裕发食品有限公司山东裕发食品有限公司是一家生产鸡肉泥、鸡肉制品、鹅制品、海鲜制品、调理食品的专业厂家。

秀文资讯

分享各行业用户推荐的各类优质文章,丰富你的生活,同时学习到你所需要的知识。

长沙居居侠自装口碑平台

居居侠APP是隶属于湖南居居时代数字科技有限公司一家以信息智能动态交付技术为核心的口碑自装交付平台公司以工匠服务驱动研发,攻克家装行业最难以解决的施工批量交付难题,同时打通F2C家装全案供应链,结合公司智能可视化预算系统以及DIY选款系统,并通过12年互联网技术沉淀,砍掉90%订单运营成本,为业主打造设计、施工、材料一体化的超高信价比的新型自装模式。

威海华恩橡塑新材料有限公司

威海华恩橡塑新材料有限公司专业生产塑料抗铜剂,橡胶抗铜剂,电缆抗铜剂,线缆抗铜剂,橡胶电缆抗铜剂

◆

我们提供:探矿权,采矿权,金矿,铅锌矿,铜矿,锰矿,矿权拍卖,矿权转让,矿权交易,矿权网,有色金属矿,磷矿,地热矿,国有产权,公司股权,土地,林地,房屋,酒店,水电站,项目转让,产权转让,股权转让。详情请访问http://www.88cc88.cn

全局底部横幅