人工智能帶來的科學(xué)革命:seo推廣軟件分享資訊這是在給科學(xué)家打下手,比博士生還高效哦。
人工智能(AI)正在革命所有的行業(yè),包括科研,這個(gè)看上去最“人類智能”的領(lǐng)域。不過,與憂心忡忡、擔(dān)心被搶飯碗的卡車司機(jī)或數(shù)據(jù)分析師不同,科學(xué)家們看到AI簡直兩眼放光:人工智能的計(jì)算能力與工作效率不知比博士生高到哪里去了,還不用吃飯和睡覺,真是最理想的“壓榨”對象。唯一的問題是,如果未來人工智能看得懂也寫得了論文了,要不要加上它的署名呢?
近日,著名學(xué)術(shù)期刊《科學(xué)》上刊登了一系列報(bào)道,記錄人工智能帶給科學(xué)的革命。
大數(shù)據(jù)與深度學(xué)習(xí)
踏過各自的風(fēng)雨歷程,科研與人工智能在大數(shù)據(jù)時(shí)代這個(gè)路口,注定相遇。從千變?nèi)f化的染色體與蛋白質(zhì)結(jié)構(gòu)、恒河沙數(shù)的宇宙星體數(shù)據(jù),到互聯(lián)網(wǎng)上每天批量誕生的文字視頻,自然和社會(huì)科學(xué)家的煩惱終于逐漸從數(shù)據(jù)不夠,演變?yōu)閿?shù)據(jù)太多,多到超出人類目力和腦力的極限。
而在另一邊,“深度學(xué)習(xí)”(deep learning)賦予了算法“智能”的雛形,恰好為大數(shù)據(jù)而生。在前深度學(xué)習(xí)時(shí)代,研究員們需要依靠自己的智慧建立某種關(guān)系,設(shè)定計(jì)算機(jī)如何由一個(gè)輸入值,得出一個(gè)對應(yīng)的輸出值。深度學(xué)習(xí)則解放了人類:“喂”給程序大量相匹配的輸入值和輸出值,由程序自身摸索出其中的關(guān)系。
科學(xué)家們就亟待這種解放。對普通人來說神秘而高深的科研工作,其實(shí)包含了無數(shù)對海量數(shù)據(jù)的機(jī)械性處理,不僅枯燥,而且博士生的一個(gè)馬虎,就可能毀掉一個(gè)團(tuán)隊(duì)幾年的心血。
粒子物理
早在1980年代,粒子物理學(xué)家們就看上了人工智能。畢竟,粒子物理學(xué)家們很多時(shí)候在做的工作,就是一次又一次地把粒子放在加速器里對撞,期待在這些看起來很相似的實(shí)驗(yàn)數(shù)據(jù)里發(fā)現(xiàn)一點(diǎn)點(diǎn)不同的跡象——那可能就是新粒子的魅影。這個(gè)工作連篇累牘,枯燥透頂,卻是人工智能最擅長的領(lǐng)域。人工智能善于通過給定的幾個(gè)變量,從龐大的背景數(shù)據(jù)中找出有用的信號。
歐洲大型強(qiáng)子對撞機(jī)(LHC)
2012年,歐洲大型強(qiáng)子對撞機(jī)(LHC)終于“撞”見了預(yù)言中的“上帝粒子”——希格斯玻色子。這是標(biāo)準(zhǔn)模型中最后被發(fā)現(xiàn)的粒子,它的發(fā)現(xiàn)就有人工智能的一份功勞。畢竟,每對撞10億次質(zhì)子,才可能會(huì)產(chǎn)生1個(gè)希格斯玻色子,而它產(chǎn)生10^-22秒后就會(huì)衰變?yōu)槠渌W印2浑y想象,閱讀這些數(shù)據(jù),是怎樣浩大的工作量。
正在解讀LHC數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò) 來源:CERN(歐洲核子中心)
當(dāng)然,在現(xiàn)階段,人工智能只能這樣給物理學(xué)家們打打下手,找找數(shù)據(jù)。具體怎么找,還是基于物理學(xué)家們對物理學(xué)的理解。但人工智能會(huì)變得越來越重要。在未來的幾年內(nèi),歐洲大型強(qiáng)子對撞機(jī)的對撞速度將提升至目前的10倍。面對洶涌而至的數(shù)據(jù),人工智能不可或缺。
尋找自閉癥基因
盡管生物學(xué)家們不斷通過基因解開疾病的奧秘,但自閉癥卻令他們有些為難。自閉癥具有明顯的遺傳傾向,而目前找到的自閉癥基因,只能解釋其中20%的病例。更多的自閉癥疑兇,藏在人類剩下的25000多個(gè)基因中。
美國普林斯頓大學(xué)的計(jì)算生物學(xué)家歐嘉·特洛楊斯卡婭(Olga Troyanskaya)收集了大量基因在特定人類細(xì)胞中活動(dòng)的數(shù)據(jù),比如蛋白質(zhì)互動(dòng)的方式,轉(zhuǎn)錄因子結(jié)合位點(diǎn)和其他關(guān)鍵染色體性質(zhì)。她的團(tuán)隊(duì)運(yùn)用人工智能,將已知自閉癥基因的活動(dòng)數(shù)據(jù),與其他未知的基因?qū)Ρ龋瑢ふ蚁嗨菩浴K麄冏罱K找到了2500個(gè)疑似基因。
幫助自閉癥患者 來源:BSIP
不過,基因并不是唯一的兇手。遺傳學(xué)家們最近才意識到,基因周圍的染色體非編碼片段也在助紂為虐。找出這些從犯,比找出自閉癥基因本身還要困難多了,更需要人工智能的幫助。
大眾心理
對于社會(huì)科學(xué)家來說,人工智能則是一把理性的鑰匙,能解開隱藏在人類語言中的性格密碼。
每天發(fā)在社交網(wǎng)絡(luò)上的狀態(tài),是蕓蕓眾生日常情緒的記號。但是,這些看似雜亂無章的數(shù)據(jù),真的能成為照見大眾內(nèi)心的有用信息嗎?美國著名心理學(xué)家馬丁·塞利格曼(Martin Seligman),和他的同事們成立了一個(gè)“世界幸福項(xiàng)目”,試圖透過社交網(wǎng)絡(luò)數(shù)據(jù)捕捉公眾心理和生理健康的信號。比起傳統(tǒng)的問卷調(diào)查,這種方法廉價(jià)、自然,數(shù)據(jù)量也多,就是很雜亂——這就需要人工智能的幫助了。
研究員們使用了29000名做過線上自我抑郁評估的Facebook用戶的數(shù)據(jù)。算法成功地在抑郁程度,和平時(shí)狀態(tài)里使用的語言之間建立了關(guān)聯(lián)。通過分析一個(gè)Facebook用戶平時(shí)的狀態(tài),人工智能就能得出他/她的抑郁程度。
另一項(xiàng)研究則顯得更令人驚奇:通過推特內(nèi)容,人工智能可以預(yù)測一個(gè)郡的心臟病死亡率。這些隱藏在文字中的因素甚至比排在前10位的主流因素,比如抽煙與否或患糖尿病與否,更能準(zhǔn)確地預(yù)測。
而得克薩斯大學(xué)奧斯汀分校的詹姆斯·彭尼貝克(James Pennebaker)發(fā)現(xiàn),看一個(gè)學(xué)生申請入學(xué)時(shí)的文章,就能預(yù)測他/她的成績。冠詞和介詞用得好的,分析性思維強(qiáng),成績一般比較好;愛用代詞和副詞的偏向于敘述性思維,成績一般差一點(diǎn)。
硅谷里的人工智能
高校里的科學(xué)家們看到了人工智能這個(gè)優(yōu)秀的勞動(dòng)力,科技企業(yè)更不會(huì)錯(cuò)過這個(gè)商機(jī)。位于硅谷的生物技術(shù)公司Zymergen,就由人工智能承包了實(shí)驗(yàn)。
人類正在驅(qū)使各種微生物生產(chǎn)有用的成分:生物燃料、塑料、藥品等等。而Zymergen的業(yè)務(wù),就是通過改造微生物的基因,提高這些“勞工”的生產(chǎn)效率。
那么,如何找到那些可以提高生產(chǎn)效率的基因,并改變它們呢?Zymergen的員工金波爾(Kimball)舉例說:“比如原來的微生物有5000個(gè)基因,每個(gè)基因你可以做出10種改變,那你就可以做出50000個(gè)變種?!?Zymergen先做出1000種不同的變種,也許會(huì)發(fā)現(xiàn)其中25種的生產(chǎn)效率有那么一點(diǎn)點(diǎn)提高,那這25種就留待第二輪實(shí)驗(yàn)。
人工智能大大加速了這一過程。之前,人力每周大約能完成10次試驗(yàn),而機(jī)器每周就可以完成1000次。
基因序列
當(dāng)然,想要得到最好的基因變異并不容易,因?yàn)檫@不是一個(gè)簡單的加法問題。你得到了25個(gè)有輕微提高的變異,如果把它們?nèi)拥酵粋€(gè)微生物上的話,那么你大概不會(huì)得到一個(gè)超強(qiáng)的微生物,而是病蔫蔫的微生物。這仿佛是在一個(gè)25維的坐標(biāo)上尋找方向,計(jì)算機(jī)仍依賴人類判斷力的導(dǎo)航。
目前,Zymergen能將目標(biāo)微生物的生產(chǎn)效率提高10%以上。這聽起來只是微小的工作,但依賴微生物發(fā)酵的化學(xué)產(chǎn)業(yè)規(guī)模達(dá)到每年1600億美元,這10%產(chǎn)生的效益,比國家科學(xué)基金(NSF)的經(jīng)費(fèi)還要多。
“黑箱”
并不是所有科研人員都完全放心人工智能。一個(gè)博士生雖然會(huì)犯錯(cuò),但他能思考并告知自己如何犯了這個(gè)錯(cuò)誤。比起來,深度學(xué)習(xí)就是一個(gè)高效而沉默的黑箱。略顯可怕的是,人類無法知道深度學(xué)習(xí)如何得出它的結(jié)論,因而也無從知道它是如何犯錯(cuò)的。
在過去,數(shù)據(jù)之間的特征是由開發(fā)者提取,并“教會(huì)”程序的?,F(xiàn)如今,從海量輸入值到海量輸出值之間,人工智能到底提取了哪些特征,建立了哪些關(guān)系,都隱藏在一個(gè)黑箱中。視覺識別方面的主流“卷積神經(jīng)網(wǎng)絡(luò)”,就是將每一層提取的特征作為下一層的輸入值,進(jìn)而提取到更為抽象的特征。隨著深度的增加,人工智能的輸出越發(fā)趨向完美,但其中的“原理”也越發(fā)沒有頭緒。
打開黑箱的嘗試已經(jīng)演變成了一門新的學(xué)科。有些人試圖窺探“黑箱”里到底發(fā)生了什么。華盛頓大學(xué)的馬爾科·里貝羅(Marco Ribeiro),想要通過不斷調(diào)整輸入值,觀察到底是哪些變化影響到了輸出。譬如,不斷調(diào)整一段電影評論文字,讓一個(gè)文本分析的人工智能鑒定其評價(jià)是正面的還是負(fù)面的。而谷歌的研究員桑德拉拉楊(Mukund Sundararajan)則并非隨機(jī)調(diào)整輸入值,而是引入了一個(gè)空白干擾,一步步向目標(biāo)值漸變,以觀察輸出值特定的“跳躍”變化軌跡。
另一些研究者則想繞開黑箱,開發(fā)一些效果媲美深度學(xué)習(xí),但透明度更高的框架。微軟的里奇·卡魯阿納(Rich Caruana)就被深度學(xué)習(xí)“坑”過。1990年代,他剛從卡內(nèi)基梅隆大學(xué)畢業(yè),加入了一個(gè)通過機(jī)器學(xué)習(xí)幫助肺炎患者的團(tuán)隊(duì)。通常來講,普通的肺炎病患更宜在家休養(yǎng),避免交叉感染,而那些帶有哮喘等復(fù)雜病情的病患則應(yīng)立即住院治療。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了78家醫(yī)院提供的癥狀和結(jié)果數(shù)據(jù)后,出現(xiàn)了一個(gè)很難解釋的漏洞:它建議那些帶哮喘癥狀的病患回家。
為了繞開神經(jīng)網(wǎng)絡(luò),卡魯阿納回到統(tǒng)計(jì)學(xué)中線性回歸的老路,來尋找靈感。1980年代就存在的廣義加性模型(GAM)不僅能處理簡單的線性回歸,也能通過復(fù)雜的計(jì)算,將更復(fù)雜的數(shù)據(jù)進(jìn)行擬合。卡魯阿納運(yùn)用機(jī)器學(xué)習(xí)方法升級了GAM。在圖像和聲音處理上,神經(jīng)網(wǎng)絡(luò)占有絕對優(yōu)勢。但針對所有能放進(jìn)表格里的數(shù)據(jù),升級版的GAM表現(xiàn)得都不差。最重要的是,這中間的運(yùn)算都是透明的。
用GAM跑了一遍肺炎的記錄,卡魯阿納終于找出了當(dāng)年的漏洞是如何產(chǎn)生的:那些患上肺炎的哮喘病患常規(guī)上會(huì)被醫(yī)院安排進(jìn)重癥監(jiān)護(hù)病房,重點(diǎn)治療,而人工智能只看到了病人病情的迅速好轉(zhuǎn),因此建議病人回家。
最后,還有一部分研究者即不想法設(shè)法窺探黑箱的內(nèi)部,也不會(huì)繞開黑箱。他們專心讓“深度學(xué)習(xí)”更深度,也許,這樣就離黑箱的真相更近了一步。
來源: 澎湃新聞網(wǎng)(上海)