欢迎来到慕课网

今年高考考试英语人工智能得分134,复旦武大校友这项研究有点意思

来源:www.fuadsafi.com 2024-03-03

在挑战写语文作文后,人工智能目前又盯上了高考考试英语。

结果好家伙,今年高考考试英语卷(全国甲卷)一上手,就拿了134分。

而且不是偶然的超水平的发挥。

在2018-2021年的10套真题测试中,人工智能的分数都在125分以上,最高纪录为138.5分,听力和阅读理解还拿过满分。

这就是由CMU学者提出的,高考考试英语测试人工智能系统Qin。

它的参数目只有GPT-3的16分之一,平均成绩却比GPT-3高出15分。

其背后的诀窍名叫重构预练习(reStructured Pre-training),是作者提出的一种新学习范式。

具体来看,就是把维基百科、YouTube等平台的信息重新提取重构,再喂给人工智能进行练习,由此让人工智能具备更强的泛化能力。

两位学者用足足100多页的论文,深入讲解了这一新范式。

那样,这一范式到底讲了什么?

大家来深扒一下~

什么是重构预练习?

论文题目非常简单,就叫reStructured Pre-training(重构预练习,RST)。

核心看法凝练来讲就是一句话,要看重数据啊!

作者觉得,这个世界上有价值的信息无处不在,而现在的人工智能系统并没充分借助数据中的信息。

譬如像维基百科,Github,里面包括了各种可以供模型学习的信号:实体,关系,文本摘要,文本主题等。这类信号之前因为技术瓶颈都没被考虑。

所以,作者在本文中提出了一种办法,可以用神经互联网统一地存储和访问包括各类型型信息的数据。

他们以信号为单位、结构化地表示数据,这非常像数据科学里大家常常将数据架构成表或JSON格式,然后通过专门的语言(如SQL)来检索所需的信息。

具体来看,这里的信号,其实就是指数据中的有用信息。

譬如在“莫扎特生于萨尔茨堡”这句话中,“莫扎特”、“萨尔茨堡”就是信号。

然后,就需要在各种平台上挖掘数据、提取信号,作者把这个过程比作了从矿山里寻宝。

下面,借助prompt办法,就能将这类来自不同地方的信号统一成一种形式。

最后,再将这类重组的数据集成并存储到语言模型中。

如此一来,该研究就能从10个数据源中,统一26种不相同种类型的信号,让模型获得非常强的泛化能力。

结果表明,在多个数据集中,RST-T、RST-A零样本学习的表现,都优于GPT-3的少样本学习性能。

而为了更进一步测试新办法的表现,作者还想到了让人工智能做高考考试题的办法。

他们表示,目前不少工作办法走的都是汉化GPT-3的思路,在评估的应用场景上也是跟随Open人工智能、DeepMind。

譬如GLUE评测基准、蛋白质折叠评分等。

基于对当下人工智能模型进步的察看,作者觉得可以开辟出一条新的赛道试一试,所以就想到了用高考考试给人工智能练练手。

他们找来了前后几年共10套试题进行标注,请高中老师来进行打分。

像听力/识图理解如此的题目,还找来机器视觉、语音辨别范围的学者帮忙。

最后,炼出了这套高考考试英语人工智能模型,也可以叫她为Qin。

从测试结果可以看到,Qin肯定是学霸级别了,10套卷子成绩都高于T0pp和GPT-3。

除此之外,作者还提出了高考考试benchmark。

他们感觉当下不少评价基准的任务都非常单一,大多没实用价值,和人类状况对比也比较困难。

而高考考试题目既涵盖了各种各样的要点,还直接有人类分数来做比对,可以说是一石二鸟了。

NLP的第五范式?

假如从更深层次来看,作者觉得,重构预练习可能会成为NLP的一种新范式,即把预练习/微调过程视为数据存储/访问过程。

此前,作者将NLP的进步概要成了4种范式:

P1. 非神经互联网年代的完全监督学习 (Fully Supervised Learning, Non-Neural Network)P2. 基于神经互联网的完全监督学习 P3. 预练习,精调范式 P4. 预练习,提示,预测范式(Pre-train, prompt, Predict)

但基于当下对NLP进步的察看,他们觉得可能之后可以以一种data-centric的方法来看待问题。

也就是,预训/精调、few-shot/zero-shot等定义的差异化会愈加模糊,核心只关注一个点——

有价值的信息有多少、能借助多少。

除此之外,他们还提出了一个NLP进化假说。

其中的核心思想是,技术进步方向一直顺着如此的——做更少的事达成更好、更通用的系统。

作者觉得,NLP历程了特点工程、构造工程、目的工程、提示工程,当下正在朝着数据工程方向进步。

复旦武大校友塑造

本篇论文的一作为Weizhe Yuan。

她本科毕业于武汉大学,后赴卡内基梅隆大学读研,学习数据科学专业。

研究方向集中在NLP任务的文本生成和评估。

去年,她被AA人工智能 2022、NeurIPS 2021分别接收了一篇论文,还获得了ACL 2021 Best Demo Paper Award。

论文的通讯作者为卡内基梅隆大学语言技术研究所(LTI)的博士后研究员刘鹏飞。

他于2019年在复旦大学计算机系获得博士学位,师从邱锡鹏教授、黄萱菁教授。

研究兴趣包含NLP模型可讲解性、迁移学习、任务学习等。

博士期间,他包揽了各种计算机范围的奖学金,包含IBM博士奖学金、Microsoft学者奖学金、腾讯AI奖学金、百度奖学金。

One More Thing

值得一提的是,刘鹏飞在和大家介绍这项工作时,直言“刚开始大家就没计划拿去投稿”。

这是由于他们不想让会议论文的格式限制了构思论文的想象力。

大家决定把这篇论文当作一个故事来讲,并给“读者”一种看电影的体验。这也是为何大家在第三页,设置了一个“观影模式“的全景图。就是为了携带大伙去知道NLP进步的历史,与大家所展望的将来是什么样的,让每个研究者都能有肯定的代入感,感觉到自己去带领着预练习语言模型们通过矿山寻宝走向更好明天的一个过程。

论文结尾,还藏了一些惊喜彩蛋。

譬如PLMs主题表情包:

相关文章推荐

02

20

商贸英语|信用基本词语7

Capitalizinginterestcosplayts利息本钱资本化Capitalstrength资本实力Capitalstructure资本结构Cascadeeffect瀑布效应Cash-in-advance预付现金Cashasset

02

20

商贸英语|投资剖析机构财经词典(A-D)

English Terms中文翻译详细情况讲解/例子Accelerated Depreciation1加快折旧任何基于会计或税务缘由促进一项资产在较早期以较大金额折旧的折旧原则 Accident and Health Benefits意料之

02

20

商贸英语|财务比率术语(英文解析)

Accounts Payable1: Sales: Accounts Payable pided by Annual Sales, measuring the speed with which a company pays vendors2

02

20

商贸英语|会计循环Accounting cycle

The sequence of accounting1 procedures used to record, classify, and summarize accounting information is often termed th

02

20

商贸英语|经济生活的斑斓色彩

颜色是在自然界中最灿烂的表象,颜色词是一条贯穿语言王国的彩虹。而语言中的颜色词除去表示大自然的绚丽色彩外,同时也体现着不同文化内涵,使人产生不一样的联想。

02

20

商贸英语|银行英语口语-利率

What's the interest rate for the savings1 account?储蓄存款的利率是多少?Do you pay interest on this account?这种存款付给利息吗?Please tell m

02

20

锦州2024年12月四级成绩查询时间:2月底

同学们都在关注锦州2024年12月英语四级什么时间出成绩,然而官方尚未有正式消息,依据官方消息2024年12月英语四级成绩查询时间会在2月底公布。记者预测是在2月25日,敬请大伙后续关注本网的最新消息。

02

20

商贸英语|社交活动(对话二)

Discussing the Detail1I will be here at a quarter to eight.I will look out for you at three.Shall2 I come with you part

02

20

商贸英语|询问牡丹卡(对话四)

7A:Miss Lin,I'd like to recommend a new bank card to you.I think you will like it.B:really? What's that?A:Peony MoneyLin

02

20

2025上半年大学习英语四级备考词语:电影类

词语是英语学习的核心,特别在四级考试中,丰富的词语量能帮助大家灵活理解题目和准确表达看法。新东方在线为备考同学整理了“2025上半年大学习英语四级备考词语:电影类”,一块儿学习一下吧。

英语学习 热门搜索

更多>