厉害了,“文转理”!学语言的直博人工智能,他们怎么做的?

人工智能
后台-插件-广告管理-内容页头部广告(手机)

文 | 《中国科学报》记者 温才妃

这个夏天,复旦大学汉语言文学专业本科生张向旭、徐凝雨成了同学们口中的“好厉害”“不可思议”。

因为他们做了一件很多人想做,却不敢做或做不到的事——从复旦大学中国语言文学系直博攻读人工智能博士。

更何况,张向旭还是一名“妥妥”的文科生,高中、本科学的都是文科。

今年的秋季学期,他们各自将迎来新的身份——张向旭即将赴中国人民大学高瓴人工智能学院攻读博士学位,徐凝雨以总绩点3.8、汉语言专业排名第二的成绩,成为复旦大学计算机科学技术学院教授黄萱菁的直博生。

厉害了,“文转理”!学语言的直博人工智能,他们怎么做的?

张向旭

素来“理转文”易、“文转理”难,摆在他们面前的坎儿不只是补一门数学、物理课程这样简单。不可思议的背后,他们是怎么做到的?

虽然难,靠努力也能实现

和大部分文科生的想法雷同,张向旭一开始觉得“编程又难又用不上”,多少有些抗拒。但大一修“VB程序设计”时,他竟发现“平时作业得分还挺高”。

到了大二,他阅读了人工智能领域自然语言处理和搜索专家吴军的《数学之美》。

书中的系列文章曾创下百万点击量,“一下子吸引了我对自然语言处理方面的好奇心”。不久后的专业课上,教师又再度提及计算语言学。

在好奇心驱使和前辈建议下,张向旭自学了斯坦福大学知名课程《深度自然语言处理》。

“学习后,我特别兴奋,找到复旦计算机科学技术学院教授邱锡鹏,请他指点该学什么课程,最终确定了由汉语言转向自然语言处理方向的意愿。”

然而,摆在张向旭面前最大的难题无疑是补足数理基础。

正式学习前,他利用假期时间,先在慕课上学习了一遍课程,如国防科技大学的《概率论与数理统计》、西安电子科技大学的《实用大众线性代数》等。

慕课学习时,很多人都有弃课的经历,但他“给自己定‘小目标’,以周为单位,把每周要上哪几门课先定下来,慢慢坚持了下来”。

说到坚持,张向旭曾在大一结束后去参军,新兵连要考核3000米长跑。

考前他不慎崴脚,为了不错过,他喷了云南白药,咬牙坚持跑了下来。

复旦中文系提供12个学分,供学生在全校范围内自由选课。但最后,为了补足《高等数学》《概率论与数理统计》《线性代数》《模式识别与机器学习》《神经网络与深度学习》等理工科基础课程,张向旭选了近30个学分,超了10多个学分。

最多的一个学期,他选修了四门理工科课程,“完成一次作业,要一个下午加一个晚上”。

在跨学科上同样付出超常努力的还有刘勤。

2018年,当时还是复旦哲学学院大三学生的她,在保研时希望选择计算机科学技术学院的自然语言处理方向。

与张向旭有所不同的是,刘勤学的是一个偏理科的文科专业——逻辑与科学哲学,数学的基础训练一直没有断过,高中所学的也是理科。

她更在意的是补足计算机的课程短板,并选择了辅修/双学位来弥补。

然而,辅修的学分要求高,约四五十个学分。

学生一学期通常选25~28个学分,但刘勤上辅修的那两个学期,每学期要选30~32学分才能达到要求,已接近每学期学分的“临界值”——不能超32个学分。

她还要去旁听复旦计算机科学技术学院教授黄萱菁的课。

刘勤在邯郸校区,黄萱菁在张江校区,每周刘勤还要坐半小时校车去另一个校区听课。

“精力上确实有点跟不上,最后我坚持学完了计算机方面的基础课程,但并没有修满获得双学位证书的学分。其实自始至终,我就是想要通过辅修课程打下计算机基础。”她最终如愿保研,师从复旦计算机科学技术学院教授张奇,今年正准备前往美国南加州大学继续攻读博士。

不一定成功,但也无须“破釜沉舟”

说到文转理,很多人觉得难度爆表。但黄萱菁所在的自然语言处理实验室,却通常鼓励学生“努力试一试”。

实验室中有多位来自中文、哲学、外语专业的文转理研究生。

厉害了,“文转理”!学语言的直博人工智能,他们怎么做的?

徐凝雨 复旦大学供图

徐凝雨就是其中一名。而徐凝雨的本科师兄钱鹏也是从这个实验室毕业,后赴美国麻省理工学院脑与认知科学系读博,他也是黄萱菁口中“近10年来最满意的三名学生之一”。

国外不少高校都有语言学系,自然语言处理与语言学不分家。

黄萱菁在境外高校任职的同行好友中,既有本科中文系出身的,也有不少计算机出身的知名教授。

而国内高校的自然语言处理散落在计算机系、中文系、外语系等院系中。

“文转理有一道坎儿,但迈过去了,只会越做越好。”她告诉《中国科学报》,自然语言的语法规则都是由语言学家书写,有语言学背景的学生更容易发现机器不能识别的错误。

中文系同事经常给她推荐学生,她也鼓励计算机专业的学生去修中文系课程。

钱鹏、徐凝雨本科初期就找了黄萱菁。“他们的特点是口头、笔头的表达能力很强,无论是写论文还是做演讲,表达能力都很重要。”

考核钱鹏,她用了两年;轮到徐凝雨,只用了一年。“这就是‘前人种树后人乘凉’的好处吧!”黄萱菁笑道。

即便这样,也没有人敢打包票,文转理一定可以成功。

除了补足理工科课业外,黄萱菁给钱鹏、徐凝雨的要求是通过机考。因为能不能把想法变成程序语言,必须通过上机测试才能明确。

每年都有各专业的尖子生折在最后的机考中。

而这两人正是在机考中拿到合格成绩,且本专业绩点名列前茅,才得以跨学科成功。

张向旭也一样。“整个过程中,我都没有下‘破釜沉舟’的决心。如果能转过去,我会朝这个方向继续努力;如果转不过去,我会考虑在本系开展计算方向相关研究。唯一下定决心的是一定要做学科交叉。”

能够直博人工智能,张向旭直言“有一定偶然性”,中国人民大学高瓴人工智能学院给了文科生测试的机会。

但很多高校对直博的学科要求都限定在计算机、通信等理工科专业,并未对文科生敞开大门。

唯一让张向旭感到遗憾的是自己在本科期间没有参与学生实践。

有一次,邱锡鹏实验室里的研究生想找几名本科生组队参加比赛,他赶紧报了名,可惜后来发起者因种种原因弃赛。

他把自己的遗憾告诉了邱锡鹏,“邱老师鼓励我说,比赛固然锻炼人,但其实把课程设计认真做好,也是一种动手能力的训练”。

同样的遗憾并没有发生在徐凝雨身上。本科期间她就进入黄萱菁实验室。接受《中国科学报》采访当天,黄萱菁正在帮徐凝雨修改论文,这篇论文准备投给自然语言处理的顶会。

靠着自身灵气,徐凝雨发现了一个好问题。还没正式读博就已有所产出,这让黄萱菁很为她骄傲。

学程探索,为跨学科提供更多可能

学业负担重、上课与实践冲突、不一定能转成功……文转理暴露的问题,促使复旦迅速反思跨学科教育。

2017年,复旦开始探索“2+X”本科培养体系。

“2”是指从通识教育和专业培养两方面入手,夯实个人发展基础;“X”是指基于学生个性化成长需求,在学分制下提供专业进阶、跨学科发展、创新创业等多种发展路径。

其中,通过“学程”建设为学生提供交叉融合发展路径,“2+X”方案已在2020年覆盖复旦所有院系。

何谓学程?学程源于德国,发展于美国。我国台湾地区上世纪70年代开始在高校尝试学程,后来学程多用于学科交叉、创新创业教育。

复旦大学教务处副处长胡波解释道,我国高校多采用辅修实现学科交叉,学程与辅修有相似之处,也有不同之处。

复旦的做法是,当某个交叉需求尚不足以单独开设一个新专业,学校鼓励不同院系、学科的一流师资交叉融合,围绕新兴、交叉的学科方向,组建一组有主题、系统的课程模块,供全校学生选择。

学生被要求修读15~20个学分,远低于辅修的四五十个学分。

学程课程来自于专业课、基础课和通识课等现有课程,与开课院系的学生同堂授课、同标记分,既保证了教学质量,也给学生带来了极大的挑战。

2018年,由复旦哲学学院、数学科学学院和计算机科学技术学院联合推出的数理逻辑学程是该校的较早一次探索。

这是一门在哲学、数学与计算机科学之间的学科,单独的院系、第二专业都达不到开课的要求。

该学程中包括了《集合论》《可计算理论》《数学分析原理》等一系列课程。

“学科基础是一系列课程的组合,做好课程组合,才不至于让学生在跨学科选课中‘东一榔头西一棒槌’。相同、相似课程的学分可相互替换,如数学学院的《数学分析》课程可替换数理逻辑学程中《数学分析原理》,才不至于给学生增添额外的选课压力。”复旦哲学学院副教授杨睿之说。

截至目前,复旦陆续推出西方古典学、神经语言学、数据智能与商业决策等8个跨学科学程。

此外,各院系还针对本专业课程,推出供外专业学生跨学科修读的学程,目前学程总数已达上百个。

“文科生中逻辑性比较强的学生,是可以通过学程尝试转向理科的。”胡波强调。

事实上,数理逻辑学程的确吸引到了历史学系、法律、保险、医学等专业的学生选修,他们是未来跨学科的苗子。

特别是新高考取消了文理分科,考生高中阶段的数学能力考核一视同仁,将给大学阶段的文转理带来更多的可能。

没有赶上学程,刘勤、张向旭、徐凝雨有点遗憾,但想到“自己的经历多少与学程的思路吻合,还为后来的改革提供了参考”,心里安慰了不少。

事实上,国内类似的教学改革还有南京大学的“三三制”,本科分为大类培养、专业培养和多元培养三个阶段。

其中,多元培养又分为专业学术、复合交叉和就业创业三个途径。

部分国内高校还借用了慕课中“微专业”的名称,在学生主修专业之外,进行学科交叉或创新创业。“其内涵与学程类似。”胡波补充道。

而在国外,斯坦福大学在2014年就试图建立14个“CS(计算机科学)+X”的联合本科专业,实现计算机科学与人文学科间的“重混”,并授予学生“人文与科学联合学位”。

但是,2019年该项目终止。

北京大学教育学院研究员卢晓东认为,该项目失败的可能原因是,选课人数下降、核心课程难以满足、学生负担太重。

学生如果在4年内完成课程,需要放弃其他学习机会。

“更主要的是,学生需要自己去发现计算机科学与另一个学科‘烟涛微茫信难求’的微妙关系,学生对此不胜其烦。”

他提醒道,只有少数人能够发现上述微妙关系,批量培养会给大多数学习者带来沮丧,必然包括“牺牲”。

学科交叉是当下新文科、新工科建设的要义,而这些也是新工科、新文科天然附带的风险和必要的“牺牲”。

复旦采取了“宽进宽出”的态度,降低学程风险值。“未来学程的发展有两条路径:一是逐渐形成一个新的交叉学科;二是就算无法开设新学科,也可以满足学生未来研究生阶段发展的需求,帮助他们建立基本的思考能力。”胡波告诉《中国科学报》。

2020年,数理逻辑学程第一届学生毕业。此后,每年实际毕业的学生并不算多。

“这符合我们的预期,在自由进出的环境下,学生无论是否完成整个培养过程,都能有所收获。”杨睿之说。

胡波补充道,文转理仅是通过修课的形式达成,并不是高校应该鼓励的。“只有通过课程与实践的穿插,学生才能不断发现问题,激发对新知识的学习欲望。”

新挑战,有限时间传授核心内容

本科教育应厚基础还是重交叉?对此,尽管当下国内高校仍有不同声音,但一个不争的事实是,该问题的解决不再依靠数学、物理等单一学科知识。

例如,美国欧林工学院颠覆传统大学的做法,不设置院系,学生有专业,但教师无院系,以问题为导向配备师资,进行跨学科学习。

“所谓‘基础’,并不能与学生的本专业知识简单画等号,更重要的是发现问题、分析问题、解决问题的能力,如逻辑思维的培养;以及创新能力,如能否用新途径解决问题。这些能力的培养更多依赖于学科交叉,或者借鉴其他学科的知识。”胡波说。

比如,数理逻辑学程看似跨学科,但实际上却是计算机、数学、哲学的基础,培养的是逻辑思维能力,可谓“多学科的基础”。

为了做好跨学科设计、鼓励学生实践,复旦将总学分压缩至150分左右,其中通识课与专业基础课的学分控制在115个学分左右。

如果学生不准备跨学科,还可以选择约35个学分的专业进阶课或创新创业课。

对于高校而言,选择的多样化其实是“给自己增加难度”。

从前选一门课的人数固定,如今每年都在变化,教室、师资安排需要逐年调整。

从前学生的底子相差无几,而现在有外专业过来的学生,还没学基础课程,教师该怎么上课?从前中文系本科生培养有统一的标准,如今变成了“中文+X”,标准还需要重新建立……但这些操作层面的问题,都不是阻挡开设学程、培养跨学科人才的理由。

“尤其是高等教育普及化阶段的主要特征之一 ——大学生群体的内在差异不断扩大。大学教改的主要取向之一是,形成‘课程数量大、类型多,学程短’的格局,扩大学生在学习中的选择权。”不久前,清华大学文科资深教授谢维和在《课程与学程》一文中写道。

他指出,学程改革的一大难点,便是能否在尽可能短的时间内,让学生掌握一个学科的核心知识、基本逻辑和主要框架等。

尽管学了三年计算机,编程水平也不亚于计算机专业大四学生,但刘勤坦言自己写代码的能力依旧有欠缺。那么,她是否建立了跨学科能力?

卢晓东认为,能够把代码写出来、跑出来,尽管不那么漂亮,但足以说明该生已建立了跨学科能力,至于是否要精进,则取决于个人未来职业的实际需求。事实上,“输出”倒逼“输入”,刘勤也在尽量提升自己的编程能力。

况且到了研究生阶段,基础依然可以“补课”。黄萱菁建议徐凝雨在直博期间再系统选修一遍本科自学的编程类课程。

在杨睿之看来,学程改革“难在既要打好基础,又要快速接近前沿研究”。现代数理逻辑发展迅速,与十分有限的课时形成了矛盾。

杨睿之和同事们尝试拓展课堂的空间,在课外开设“集合论进阶”“模型论进阶”等进阶课程,每年举办数理逻辑暑期学校、每个月组织数理逻辑讨论班等。

“兴趣是最好的老师,用前沿知识吸引学生进入新领域,才能为跨学科培养更多好苗子。”杨睿之如是说。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。