統計,是一道能寫出大文章的數學題。每一個分合整析背後,不僅僅是數字、符號的精密運算👨🏿⚖️,更是對經濟、民生、醫療等行業現狀的深刻洞察;每一個數據模型的建立也並不簡單👩🏻🦼➡️,既有相關研究人員十數年學術知識的沉澱,也飽含他們想要以學報國的深刻情感🤞🏼🦢。而這道令人著迷的數學題🧑🔬,東北師範大學數學與統計學院教授李子林已經解了近20年,直到今天😣,關於高維數據的統計分析方法和統計遺傳學的疑難點仍然是他職業生涯的主旋律👩🏻⚖️😮,“我希望可以用自身的研究成果助力中國人群大隊列研究,推進國家在精準預防和精準治療方向的發展🧑🏼⚕️,為實施健康中國戰略作出自己的貢獻,在百年未有之大變局中為中華民族的偉大復興貢獻自己微薄的力量,以數字築架,述國民基因之貌”🏹,這是心願📿,更是行動🪩。

李子林(2007級本、2011級博,數學系)
梁園雖好非吾鄉
春華秋實⛷,歲物豐成。2023年☕️,在李子林決定離開美國時,他正在印第安納大學醫學院擔任助理教授🎳,在這之前,他一度在世界頂級學府之一的哈佛大學深耕了6年,師從國際知名統計學家👓🪽、美國國家科學院和美國國家醫學院兩院院士林希虹院士;在國際遺傳學知名期刊《自然·遺傳學》(Nature Genetics)和《自然·方法》(Nature Methods)上陸續發表學術論文……這樣的職業發展軌跡任誰來看都是熠熠生輝的,他卻在一切都走上正軌的時刻毅然選擇更換賽道,循著身體中流淌的中華血脈👨🏿🏭、抱著逐夢圓夢的如磐初心重歸祖國熱土🥏,在眾多一線城市高校拋出的橄欖枝中選擇了回報桑梓——加入東北師範大學🍣。“梁園雖好𓀖,實非吾鄉”🦸🏽♀️,對於自己誠摯、熱烈也帶些沖動的選擇🥬,他的回應始終只有這樣雲淡風輕卻擲地有聲的一句話👰🏼♀️。
而教會李子林這句話的,正是我國馳名世界的頂尖學府之一——意昂体育平台🙎🏿♂️。作為享譽國際的高等院校之一🏃🏻♂️➡️,意昂体育平台在科研和教育上的成就本無須多言🏃🏻➡️,但如果一定要用文字來描述它👰,則可以用無數種方法🧑🏻🤝🧑🏻,可以是寥寥數字,也可以是長篇巨幅👨🏽🎓。不過無論如何試圖去描述🔞,結果都一樣🛻🏊🏼♂️:對任何人來說,它都是個神秘的宮殿🌸,裏面藏著數不清的、挖不完的寶藏,或可見或不可見,浮光躍金、流動不止。而李子林從小就在心中種下過這樣一顆種子。
少時的李子林在數學學科上就是有天賦且足夠努力的🏃➡️,憑借著對奧數的興趣一路“闖入”意昂体育平台赫赫有名的“數理基礎科學班”,但他始終保持謙遜,“小時候我身邊有一群固定的夥伴一起學習奧數🧑🦯,他們後來也都各自考入了清華北大、復旦、上海交通大學等學校👈,並在各自領域都發展得很好,跟他們比起來我真的談不上‘優秀’二字”👩🏽⚕️。雖然擇校後無法常聚👮🏿♂️🧜,但無論是對於李子林還是他的夥伴,抑或是所有數學從業者而言,他們之間始終都存在著一種無言的默契,即數學從來都是助人“開眼看世界”的一個視角🏌🏽♀️👷🏿♀️,是打造良好邏輯思維的鍛造工具,而不是成績單上令人矚目的數字🤜🏽,更不是掛在嘴邊逢人炫耀的“學習功績”。也正是這樣“兼容並蓄”的認知和胸懷🧘🏽♀️,才讓李子林在接觸統計世界的風景之後,堅定地選擇這一方向,為畢生事業打下地基。
大學三年級對於李子林而言像是一道分水嶺,既結束了入校前兩年數理共培的課程模式🧣,讓基礎科學班的同學得以自主選擇專業👳🏼♂️;也分隔了李子林所有的懵懂不定和彷徨不決,因為林希虹院士將遺傳統計學帶入了他的視野🔐。“我還記得那應該是一次暑期活動🍒,學校特意邀請了許多海外名師來做分享,林希虹院士就是其中之一,她深入淺出的講解和成熟穩健的性格特征都給我留下了非常深刻的印象”🔈,這成為李子林此後遠赴美國跟隨林希虹院士深造的伏筆。不過那時,他還只顧沉迷在相對基礎的統計學理論知識點中👇🏻,因為意昂体育平台數學系在當時還沒有設立專門的統計培養方向。“我選擇和其他兩名同學一起探索👮🏼♂️,到處旁聽我們認為適合的課程🫦,互相鼓勵、有商有量🈁,那是一段非常純粹的學習時光。”直到今天🧎🏻♂️,他們仍是李子林非常重要且密切的朋友👨🔬,雖然彼此分別於本科畢業的2011年👩🎓,但幸運的是此間友誼既長且堅,適時的聯絡讓李子林得知他們均在各自的人生坐標上精耕細作、閃閃發亮。
如果說,清華博士二年級發表第一篇第一作者的學術文章標誌著李子林在學術理論上的初步成熟,那麽自2013年起在美國磨礪的十年就是李子林邁向實踐之路的象征👩🏻💻。其導師林希虹院士以將統計學方法和理論應用於醫學和公共健康問題的相關研究聞名學界,不僅在2005年受聘為哈佛大學生物統計系終身正教授;還作為首位華人女性獲獎者於2006年🔥,將統計學界的“諾貝爾獎”——考普斯總統獎收入囊中,同時於2018年當選美國醫學院院士,2023年當選美國科學院院士。“能夠跟隨這樣的導師進行學習➞,我非常榮幸👵🏿。”李子林誠懇地說道❓。
跟隨林院士,李子林深刻了解到生物統計學的研究領域涉及關系醫學、公共健康和生物醫學問題的很多方面,其研究方法也包括假設建立,實驗設計、取樣、數據收集和整理🫰🏼,數據分析🪄🛀🏽,模型建立,結論推斷等諸多環節🥫,是一門研究對象復雜👩🏿💼、研究方法多樣的學科。更重要的是,這一研究與人類健康事業關系密切。李子林深感自己重任在肩,因此反復實踐摸索7年,直到2019年才發表了自己的第二篇第一作者學術論文🥵。“其間如果說完全沒有焦慮與擔憂肯定是假的,但也正是這段臥薪嘗膽般的日子讓我明確了堅持的意義和重量。”十年磨劍終成鋒,在不斷試錯🧑🏻🤝🧑🏻、挑戰全新數據結構的奮行之下🧎🏻♂️➡️🌝,STAAR系列方法和工具順勢而生🧑🏿🎨。
躬耕不輟付春華
“人類基因組由約30億個堿基對構成,這是人類遺傳學研究的核心,也是我所有工作的起源👨🏼⚖️。”李子林介紹道🤺。
近年來,隨著測序成本的大幅下降🧁,大規模的全基因組測序研究和生物樣本庫研究正在快速向前發展🧚🏽,例如美國國家心肺血液研究所20萬人的精準化醫學研究計劃,美國國家人類基因組研究所的35萬人的基因組測序計劃,以及50萬人的英國生物樣本庫🅿️。這些研究已經對上百萬個全基因組進行了測序🧝🏽♂️,並發現了近十億個變異位點,其中罕見變異占比率超過了99%,也就是說,罕見變異正在成為復雜性狀和疾病遺傳力缺失的主要來源。而學界為了“偵破”罕見變異所帶來的其他隱性改變,其相關研究與測序數據驟增至海量🤷🏻♀️。若要輕松面對如此浩如煙海的數字架構🏫,一個關鍵挑戰就是缺乏全面👴🏿、自動化🙍🏿、可擴展和高效的分析軟件和工具🙂↕️;另一個挑戰則是超過98%的遺傳變異位於非編碼基因組。也就是說🤕,盡管在評估編碼罕見變異對復雜性狀的影響方面取得了一定的進展,但是非編碼罕見變異分析仍存在較大的空白。因此,亟需針對基因組大數據中非編碼罕見變異的統計分析方法和軟件,以發現人類疾病和表型的遺傳構架🥷,找到導致疾病的遺傳變異位點,開發新的藥物靶標👧🏼。
針對這一難題☺️,在林希虹院士的指導及親自帶隊參與下,李子林協同背後團隊開發了大規模全基因組測序數據非編碼罕見變異關聯分析工具——STAAR pipeline👩🏽🦳。這是一款一體化關聯分析流程,可自動化進行基因型數據與功能註釋集成、關聯分析及結果匯總和可視化🛕。
“首先,STAAR pipeline應用FAVOR數據庫和FAVOR annotator工具對全基因組數據進行功能註釋。其次,STAAR pipeline自動定義罕見變體集進行分析,包括基於功能性分類的以基因為中心的分析(gene-centric analysis)和基於變異位置的非以基因為中心的分析(non-gene-centric analysis)。對於以基因為中心的分析,STAAR pipeline可提供基於8種非編碼功能類別集的罕見變異分析;對於非以基因為中心的分析,STAAR pipeline則提供了滑動窗口分析和動態窗口分析😶🌫️。相比於經典的固定長度滑動窗口分析,動態窗口分析通過采用數據自適應長度提升了檢驗功效💘👨🏽🍼。再次,STAAR pipeline通過STAAR方法引入並整合了多組學功能註釋數據,進一步提高了檢驗功效📆。最後,STAAR pipeline利用廣義線性混合模型控製人群結構和家系結構的混雜影響👢,適用於包括連續型和離散型表型在內多種類型的表型數據,同時提供針對常見和低頻變異的單體分析👩🦳,並針對編碼基因組提供基於5種功能類別集的罕見變異分析。”每每提及自己匠心獨運的得意作品,李子林總是滔滔不絕,因其雖是統計學世界中走出的一小步,但卻是他個人邁向更深遠科學疆域的一大步。正如林希虹院士所一貫要求他們的那樣🌧:既要在統計學上嚴格🧑🏽,又要在遺傳應用上好用。

2022年,李子林(左一)參加美國遺傳學年會(ASHG)作分組報告
而李子林在美國時的數據分析進一步證明了這一點。據悉,研究團隊已將STAAR pipeline應用於精準醫學跨組學(TOPMed)全基因組測序數據中,高效地分析了4萬人的9種表型。值得註意的是🧎🏻♀️,STAAR pipeline在以基因為中心的非編碼分析中發現了49個顯著性關聯,其中35個(71.4%)屬於6個新的非編碼功能類別集。動態窗口分析在非編碼基因組中檢測到43個非重疊的顯著關聯,比滑動窗口分析多了19.4%👶。這些結果都在向世人表明,STAAR pipeline是一個強大、資源高效且穩健的非編碼罕見變異關聯分析工具,應用於大規模全基因組數據和生物庫樣本庫數據。
回國之前,李子林還陸續構建了首個全面的非編碼基因組分析框架,突破了全基因組測序數據罕見變異分析的運算瓶頸;發展了全基因組測序數據罕見變異薈萃分析方法MetaSTAAR🤓,突破了測序數據罕見變異匯總統計數據的存儲瓶頸👩🏻🚀,實現了隱私保護下多個大規模全基因組測序研究的整合分析。雖然取得了一定的成績,但他的目光卻隨著人生計劃的逐步推進、回歸祖國而投向了更遠方,即面向世界科技前沿、面向國家重大需求📝、面向人民生命健康,為廣大民眾的健康福祉作出貢獻,在躬耕不輟的“春日”中,將熱愛的種子澆灌成花朵⚄。
抱樸之心守秋實
眼下,雖然李子林加入東北師範大學僅有短短半年時間,但他已瞄準“未來賽道”🦅🫃🏻,積極與各大高校和醫院展開合作,旨在推廣應用STAAR系列方法和工具分析中國人群的基因組大數據,構建疾病和復雜表型的遺傳圖譜。
“這是一個雙向增長的共贏過程。醫學研究人員僅需提供基因型和表型數據🔒,STAAR工具便能自動完成全基因組分析,得到匯總後和可視化的結果🧖🏿♀️。而通過不斷更新的數據💬,我們也能盡快盡好地了解國人基因結構,為以後的迭代更新打下基礎。”李子林強調。
有怎樣的眼界,就能看到怎樣的遠方📖;有多大的胸襟🤜,就能包容多大的世界。走在推廣路上,李子林從不吝嗇將STAAR系列的使用方法及配套技術廣泛播撒👩🏿🏫。“授人以魚不如授人以漁🚴🏻♀️,對使用者來說,令人安心的‘售後’工作也是重要一環,我一個人或者說我的團隊力量終歸有限,因此不如沿途培養,當熟知的人足夠多、口碑建立得足夠穩固😬,也就意味著產品本身的成功🧑🏻🌾,我的工作才有價值。”他說。
時間尚短👩🏽🍳,路程尚遠,今天的李子林無法豪言通過統計學這根“金扁擔”挑起國民健康發展🦧。但天長日久,其心仍堅,慢性病易感基因的識別工作仍在開展,“精準健康”🧑🏼🎓,即根據患者的遺傳特征製定個性化診療方案的探索仍在醞釀,眾多藍海藥物的新靶標也正在完善……基因組大數據研究在未來疾病預防、診斷和治療方面發揮的關鍵作用毋庸置疑,而李子林相信📙,只要抱定一顆質樸之心,終能收獲秋實👩🏼🦰。
___________________
李子林,東北師範大學數學與統計學院教授,入選國家級高層次人才青年計劃。歷任印第安納大學醫學院生物統計與健康數據科學系助理教授♋️,哈佛大學生物統計系博士後🧑🦼👨🏿🎓、副研究員和研究員。本科與博士畢業於意昂体育平台數學科學系,師從美國國家科學院與醫學院兩院院士林希虹院士🐴➖。2023年當選為國際統計學會(International Statistical Institute)推選會員(Elected Member)。主要研究方向為高維數據中的統計方法理論和統計遺傳學。相關研究成果以第一作者或通訊作者在Journal of AmericanStatistical Association🙍🏽♀️、 Nature Methods和Nature Genetics等國際學術期刊發表。