計算機大數據為迎接大量天文信息做準備
Mario Juri?曾說正如數學將物理學從哲學轉變為科學一樣,數據和計算正在轉變當今科學, Juri?正在領導推動天文學為即將到來的數據流做好準備。在南斯拉夫時Juri?會翻閱祖父的物理學書,他了解到恆星不同的顏色,代表了不同溫度。八年級科學展覽項目時,Juri?想捕捉光譜光;於是他向老師借了一個三稜鏡,使用紙板廁紙管和膠帶將稜鏡和老式相機連接起來,然後打開快門幾分鐘,讓星光穿過稜鏡,在膠片上捕捉光線。他居住的薩格勒布大約有100萬人,在一般情況下,城市的光污染會淹沒他的測量值。然而在南斯拉夫解體的殘酷戰爭中,Juri?正在中學讀書,在爆炸的影響下,城市已經停止供電了。
Mario Juri?在華盛頓大學。圖片:Chona Kasinger for Quanta Magazine
博科園-科學科普:整個城市都陷入一片黑暗。回想起來,那時父親對我已經非常寬容,因為在沒有電的情況下,他還讓我在後院安裝設備,拍攝天空的照片,科學計劃成功使他有信心繼續研究恆星。壞事也有可能變成好事,在談話中Juri?多次提及這句話。高中時當地的一台40厘米的望遠鏡在他眼裡變成了一台小行星探測機。2002年對天文學的強烈熱愛將他帶到了美國,當時他在普林斯頓大學(Princeton University)讀物理研究生。現在他已經是西雅圖華盛頓大學的教授,並且花費大量時間來弄清楚如何管理大量數據,這些數據將很快從大型天氣測量望遠鏡(LSST)流入。LSST是一種寬視場望遠鏡,是世界上最大的具有32億像素的相機,該望遠鏡預計每晚能產生約20兆位元組的數據。Quiqa與Juri?交談數據膨脹將如何改變成為天文學家的意義如下:
圖中顯示的是Juri?在茲威基瞬態設施(ZTF)的警戒流前面。ZTF是一個觀測台,用來觀察小行星或超新星等移動或亮度變化的物體。如果有所發現,ZTF會在20分鐘內向天文學家發出警報,並每晚發送100萬個警報。大型巡天望遠鏡將在一分鐘內向檢測點發送警報,並預計每晚將產生約1000萬個警報。圖片:Chona Kasinger for Quanta Magazine
1、數據變化如何改變天文學?
從古希臘開始,我們面臨的最大挑戰就是收集數據。天文學是一種數據有限的科學。現在具有代表性的研究調查會產生數億恆星信息。通過使用LSST將進入某一制度體系內,觀察大約400億個物體。突然間大量數據湧入了一個信息非常有限的科學領域。基於理論和對宇宙的理解,應該面對的是幾百個研究對象,然而現在卻要處理幾百萬的對象。數據量急劇上升給數據處理帶來了巨大挑戰。現在我們必須想出辦法把這些東西轉化成一些有用的東西來構建理論,從而進行推論。如果我不能用代碼來表達我需要計算機為我做什麼,或者為我測量什麼,那麼我就沒有辦法把收集到的任何數據轉換為可以用來推理理論的形式。
2、所以計算和編程變得至關重要?
我認為當物理學從哲學中分支出來時,是數學讓兩者產生區別,用一組方程和嚴格的規則寫下邏輯,這些規則會以一種自洽方式把你從A點帶到B點 。如果物理要邁出下一步,就必須這樣做,這樣物理學就與數學聯繫在一起,數學也就成為物理學的語言。現在我們也正在面臨相同的事情,我們要用這些大數據集來說明,軟體工程必須在這方面做同樣的事情,它正成為我們需要的語言,為了推想周圍的世界。我們正處於自然科學發展的另一個轉折點,編程真的和數學做科學一樣重要。
3、如何將大量數據轉化為有用數據?
現在我們必須開始學習如何指導計算機進行各種測量。比如觀測一張圖像時,計算機可以輕而易舉觀測到人眼難以看到的星系。我們已經花費幾十年時間來研究如何做到這一點——如何指導計算機看天文圖像,正確識別所有物體,並在沒有任何人類幫助的情況下也可以正確測量所有物體。我認為這個領域已經過渡到現在計算機可以處理這些數據並給我們目錄的領域。在大數據的下一步演化中,將要指導計算機獲取圖像輸出,編錄所有目錄,然後為我們找到一系列有意義的事物。計算機甚至可能根據事物的趣味程度為我們排列一份表格。
4、有什麼例子呢?
在天體物理學的許多領域,物體可能會改變亮度等,但它們不會移動。然而,太陽系卻表現出了獨一無二的特性——太陽系的物體會移動。當你拍攝天空的圖像時,你會發現一顆小行星,但它看起來又像一顆恆星;當你再拍另一張照片時,你會注意到它移動了。所以現在你需要想出一些演算法來真正地連接這些點。利用LSST,黃道上的每個圖像中包含著像5000個小行星一樣的東西。這轉化每晚發生幾百萬次,每晚上都有一百萬個點在移動,然後你要知道哪一個與哪一個互相匹配。因此現在關注的是確保我們知道如何構建正確連接的DOTS演算法。
5、你怎樣才能找到你不知道的東西,如果你還沒有把這個程序寫進你的演算法里,那個發現會丟失嗎?
這取決於演算法如何構建,根據我們今天掌握的知識,很認真地思考,對於那些具有本不應該具有屬性的對象,這將會如何表現。我們試圖使演算法儘可能廣泛地捕捉所有這些對象,並且試圖理解演算法的盲點。
圖片:Chona Kasinger for Quanta Magazine
6、你對天文學和計算機科學雙重的興趣來自哪裡?
我是那種永遠無法決定自己是想學計算機科學還是天文學的人。電腦之所以美妙,是因為它沒有創造邊界。當你輸入一段代碼時,就好像是在電腦里建立一個新世界。對我來說,這幾乎是藝術創作。另一方面我想了解這個世界如何運作。當我到普林斯頓大學攻讀博士學位時,斯隆數字天空調查才剛剛開始。我想:哇,大量數據襲來,並且人們很難理解這些數據;在那一刻,我意識到我的夢想成真了:我不需要再為學習計算機相關還是與天文學相關的事情做出決定,因為在這種環境下,兩者皆需。
7、你所有的天體物理學工作都與演算法和計算機編程有關嗎?
我認為這是達到目的的一種手段,花了很多時間關注演算法本身,但我更喜歡用這些東西來找到有趣的結果。我被天文學上的問題所驅使,但想確保我的方式可以讓下一個人在我所做的基礎上繼續研究。
8、你提到了斯隆數字天空調查,LSST是如何建立的?
我認為斯隆在它的歷史上總共產生了10到20兆位元組的成像,LSST在一個晚上就能做到。就物體的數量而言,斯隆中有5億顆恆星。在LSST中大約有200億顆恆星,每顆都可能被看到825次。我們將要關注體積巨大的時域。另一個問題是,當提及問題時只要把它想成是機遇LSST就會測量每個物體的幾十甚至上百個潛在的東西。
21世紀初人們意識到,與其建造一個單獨望遠鏡來完成天文學的這一部分,不如為這一部分建造一個單獨望遠鏡。我們要做的就是建造一個望遠鏡,來觀測整個天空。但你仍然需要將這些數據處理成一種形式,使太陽系的科學家們能夠專註於太陽系的物體,研究暗能量的人們做弱透鏡映射。數據處理成為LSST的頭等大事。這是天文學中罕見的項目之一,我負責的數據系統和望遠鏡以及照相機一樣昂貴,一樣巨大。
9、雖然我們還沒有接觸到,但在天文測量中絕對重要的是統計學
當你收集到所有需要收集的數據後,剩下的唯一事情就是更好地分析它。有一些統計方法允許進行測試,以適應模型。統計就是從數據中提取知識,根據擁有的數據對知識進行量化。我們非常規範地使用統計學,比如這是一本統計學烹飪書。你必須查看配料,選擇正確的烹飪順序,正確的烹飪方法。如果一個數據集需要符合某些標準,而你能很好地應用這個規則,好事就會發生。我們已經達到了幾乎可以測量所有東西的程度,唯一要做的就是正確地分析數據。人們認為統計數據很無聊,但它就是科學的基本要素,並且科學家能在數據中發現知識。
10、你所說的大數據進化不僅僅發生天文學領域,對嗎?
粒子物理學家研究它已經有一段時間了,可能比我們早研究5到10年。海洋學、生態學現在也正在進入同一區域,需要的基本工具僅僅是研究正在改變的科學。
博科園-科學科普|文:Liz Kruesi/Quanta magazine/Quanta Newsletter
博科園-傳遞宇宙科學之美
※又有小伙玩耍啦!新發現四個銀河系鄰居星系
※這個新工具可更好地瞄準尋找外星生命的目標
TAG:博科園 |