一篇發(fā)表于 ASE 2007 的經(jīng)典論文,讓 ASE 2021 將「最有影響力論文」獎(jiǎng)項(xiàng)頒給了北京大學(xué)教授謝濤和當(dāng)時(shí)的博士生 Suresh Thummalapenta。
近日,軟件工程國(guó)際頂級(jí)會(huì)議 ASE 2021 公布了「最有影響力論文」獎(jiǎng)項(xiàng)(Most Influential Paper Award),北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系講席教授謝濤和他早年指導(dǎo)的前北卡州立大學(xué)博士生 Suresh Thummalapenta 共同獲獎(jiǎng)。
ASE 是軟件工程領(lǐng)域的頂級(jí)國(guó)際會(huì)議,創(chuàng)辦于 1986 年。一般來(lái)說(shuō),年度 ASE 最有影響力論文獎(jiǎng)是從之前 15 年左右(包括 14、15、16 年前)在 ASE 會(huì)議上所發(fā)表所有論文中選出最具影響力的論文。本次獲獎(jiǎng)的論文是謝濤與 Suresh Thummalapenta 合作的 ASE 2007 年論文《PARSEWeb:A Programmer Assistant for Reusing Open Source Code on the Web》。
論文鏈接:https://taoxiease.github.io/publications/ase07-parseweb.pdf
這一研究是從 ASE 2006、ASE 2007、ASE 2008 三年 181 篇被錄用論文(三年共 713 篇投稿)中選出來(lái)的獲獎(jiǎng)?wù)撐摹?/p>
在軟件工程三大國(guó)際頂會(huì) ICSE、ESEC/FSE、ASE 的歷年最有影響力論文獎(jiǎng)(ICSE MIP Award,ESEC/FSE Test of Time Award, ASE MIP Award)獲獎(jiǎng)作者中,謝濤是三位華人之一(另外兩位是 Hongjun Zheng 和 Amy J. Ko),也是迄今獲得 ASE 最有影響力論文獎(jiǎng)的唯一華人作者。
在今年 11 月將線上舉行的 ASE 2021 會(huì)議中,謝濤教授和 Suresh Thummalapenta 博士將在特邀大會(huì)報(bào)告中對(duì)該論文及其影響力進(jìn)行分享。
獲獎(jiǎng)?wù)撐慕榻B
程序員通常重用現(xiàn)有的框架或者數(shù)據(jù)庫(kù)來(lái)減少軟件開(kāi)發(fā)工作量,其中的常見(jiàn)問(wèn)題是,程序員知道他們需要什么類(lèi)型的對(duì)象,但不知道如何使用特定的方法序列獲得該對(duì)象。
為了解決這個(gè)問(wèn)題,謝濤和 Suresh Thummalapenta 開(kāi)發(fā)了一種方法,以「 Source object type → Destination object type」形式的查詢(xún)作為輸入,并推薦常用的 Method-Invocation Sequence(MIS),MIS 可以將 Source 類(lèi)型的對(duì)象轉(zhuǎn)換為 Destination 類(lèi)型的對(duì)象。該方法使用代碼搜索引擎(CSE)來(lái)收集相關(guān)的代碼樣本,并對(duì)其進(jìn)行靜態(tài)分析以提取所需的序列。由于代碼樣本是通過(guò) CSE 按需收集的,因此該方法并不局限于任何特定框架或庫(kù)的查詢(xún)。
他們使用一個(gè)名為 PARSEWeb 的工具實(shí)現(xiàn)了該方法。PARSEWeb 與 GCSE 協(xié)同,以搜索具有給定 Source 和 Destination 對(duì)象類(lèi)型用法的代碼示例,并下載代碼示例結(jié)果以形成本地源代碼存儲(chǔ)庫(kù)。PARSEWeb 分析本地源代碼存儲(chǔ)庫(kù),使用序列后處理器提取不同的 MIS,并聚集類(lèi)似的 MIS。提取的 MIS 可以作為給定查詢(xún)的解決方案。PARSEWeb 使用幾個(gè)排序啟發(fā)式方法對(duì)最后一組 MIS 進(jìn)行排序。此外,PARSEWeb 還使用一種叫做查詢(xún)分割的額外的啟發(fā)式方法,它有助于解決給定查詢(xún)的代碼示例被分割到不同源文件中的問(wèn)題。
在實(shí)驗(yàn)階段,研究者進(jìn)行了四種不同的評(píng)估,表明該方法在解決程序員的查詢(xún)需求方面是有效的,此外還證明了 PARSEWeb 比此前的相關(guān)工具(Prospector 和 Strathcona )表現(xiàn)更好。
PARSEWeb 這項(xiàng)研究首次把數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)所用的軟件制品數(shù)據(jù)源從單個(gè)或幾個(gè)開(kāi)源系統(tǒng)拓寬到整個(gè)互聯(lián)網(wǎng)上的軟件制品,成為大代碼、軟件大數(shù)據(jù)重要產(chǎn)業(yè)和學(xué)術(shù)方向的先驅(qū)「開(kāi)荒者」。這個(gè)范圍的拓寬是基于代碼搜索和代碼挖掘的有機(jī)結(jié)合,有效地解決了在輔助軟件工程任務(wù)時(shí)相關(guān)數(shù)據(jù)點(diǎn)不足的問(wèn)題。
這篇獲獎(jiǎng)?wù)撐囊彩菙?shù)據(jù)驅(qū)動(dòng)的智能化軟件開(kāi)發(fā)領(lǐng)域的最早期經(jīng)典代表作之一,以大代碼挖掘的手段來(lái)實(shí)現(xiàn)智能「程序員助手」。其所貢獻(xiàn)的技術(shù)首次有效地解決了在一個(gè)特定軟件開(kāi)發(fā)問(wèn)題上的數(shù)據(jù)驅(qū)動(dòng)軟件自動(dòng)化:如何自動(dòng)地合成方法調(diào)用序列來(lái)獲取一個(gè)給定類(lèi)的對(duì)象。
根據(jù) Google Scholar,該論文當(dāng)前引用數(shù)超過(guò) 510 次。盡管該論文比其它歷年獲獎(jiǎng)?wù)撐囊l(fā)表得晚,該論文在歷年獲得 ASE 最有影響力論文獎(jiǎng)的 13 篇論文之中引用數(shù)排名第 4。
關(guān)于謝濤教授
謝濤 1997 年本科畢業(yè)于復(fù)旦大學(xué),2000 年在北京大學(xué)獲得計(jì)算機(jī)科學(xué)技術(shù)的碩士學(xué)位(師從梅宏教授),并于 2002 年和 2005 年在美國(guó)西雅圖華盛頓大學(xué)獲得計(jì)算機(jī)科學(xué)技術(shù)的碩士和博士學(xué)位(師從 David Notkin 教授),目前是美國(guó)伊利諾伊大學(xué)香檳分校有終身教職的正教授。之前他從 2010 年 8 月到 2013 年 6 月為美國(guó)北卡州立大學(xué)有終身教職的副教授 (提前一年晉升),2005 年 8 月到 2010 年 7 月為美國(guó)北卡州立大學(xué)助理教授。他曾在微軟亞洲研究院和微軟研究院(雷德蒙)擔(dān)任訪問(wèn)研究員,并常年擔(dān)任微軟研究院和華為公司的咨詢(xún)顧問(wèn)。
謝濤是美國(guó) AAAS Fellow、IEEE Fellow、ACM 杰出科學(xué)家、CCF 杰出會(huì)員,曾獲 2020 年科學(xué)探索獎(jiǎng),國(guó)家自然科學(xué)基金委海外杰出青年科學(xué)基金以及其延續(xù)資助、美國(guó) NSF Faculty CAREER Award、ACM SIGSOFT 杰出服務(wù)獎(jiǎng)、IEEE 計(jì)算機(jī)協(xié)會(huì)軟件工程技術(shù)委員會(huì)(TCSE)杰出服務(wù)獎(jiǎng)等。
謝濤的主要研究領(lǐng)域包括軟件工程,系統(tǒng)軟件,軟件安全,做出了一系列對(duì)軟件產(chǎn)業(yè)有高影響的研究工作,曾獲微軟研究院杰出合作者獎(jiǎng)(全球 32 位獲獎(jiǎng)教授之一)、微軟研究軟件工程創(chuàng)新基礎(chǔ)獎(jiǎng)、谷歌教授研究獎(jiǎng)、Facebook 研究獎(jiǎng)、IBM Jazz 創(chuàng)新獎(jiǎng)、IBM 教授獎(jiǎng)等。
獲獎(jiǎng)?wù)撐牡墓餐髡?Suresh Thummalapenta 現(xiàn)為微軟研究員。Suresh 在印度安得拉大學(xué)獲得學(xué)士學(xué)位,后在北卡羅來(lái)納州立大學(xué)獲得碩士學(xué)位,并于 2010 年獲得北卡羅來(lái)納州立大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位。在加入微軟之前,Suresh 在印度 IBM 研究院擁有三年的工作經(jīng)驗(yàn)。