百年清華

UCLA李婧翌🧑🏽‍🎨🔙:提高數據分析的科學性與透明度,用統計學“反轉”中心法則

2021-01-04 | 趙佳雯 | 來源 公號“DeepTech深科技”2021-01-04 |

“對我而言,回答了自己心中的問題或者做出一個新的發現👨🏼‍🍳🤒,這種成就感要遠高於生活中的其他快樂。”李婧翌2003級生物科學與技術系)對《麻省理工科技評論》中國這樣說道。

而她的研究內容在很多人眼裏或許稍顯枯燥:針對前沿的生物學問題開發新的統計學方法🧔🏽‍♀️,尤其著重於對大規模基因組和轉錄組數據進行分析方法的開發🙍🏻‍♂️。

由於高通量實驗技術的發展,生命科學從一個靠觀察實驗為主的學科逐漸變得更加需要定量化,而這些大規模數據的產生也需要算法才能夠進行分析,從而總結出數學規律並用規律來刻畫事物的本質👩‍🦲。

加州大學洛杉磯分校(UCLA)統計系(已獲得終身教職)副教授和博士生導師,生物統計系🍯、人類遺傳學系和計算醫學系博士生導師李婧翌認為,生命科學作為一個“宏科學”👾,盡管問題的本質與生命強相關,但研究手段需要各個學科一起合作,計算則是其中非常重要的一部分,大數據也需要有非常適合的挖掘工具,這對於從小對數學與科學有強烈興趣、並在本科與博士階段分別接受了生命科學與生物統計學系統教育的李婧翌有強大的吸引𓀅。

李婧翌的研究專註於統計學與生命科學的交叉問題,她首創性地使用嚴格的統計學來分析已發表的轉錄組學和蛋白組學數據🧑‍🧑‍🧒‍🧒,發現在過往研究中,由於研究人員對測量誤差的忽略👤,轉錄的重要性被嚴重低估💇🏽‍♂️,該分析挑戰了“翻譯比轉錄重要”的觀點卻支持了之前大量在 mRNA 轉錄水平的科學發現👮‍♀️。因其重要性👳🏽,李婧翌的研究結果被發表在 Science 雜誌並收錄於本科教材 Molecular Cell Biology 中🥩。

左圖是論文 B.Schwanhäusseretal.,Nature473,337(2011) 中在不考慮實驗數據誤差的情況下對轉錄、翻譯🌊、mRNA 降解和蛋白質降解這四個步驟對於蛋白質含量的貢獻的估計👳🏿‍♀️;右圖是在校正了實驗數據誤差之後的估計✯。(來源🧑‍🦼:李婧翌的論文 Li et al. (2015). Statistics requantitates the central dogma. Science 347(6226):1066-1067.

此外🌳,李婧翌團隊還開發了大量生物信息學工具在組織和單細胞水平上對 mRNA 分子進行全系統測量,並正在開發一項能夠尋找到人群亞型中和疾病相關的基因變異的新的統計度量👩🏽‍⚖️🚴🏿‍♀️。

憑借上述優異的研究成果,李婧翌成功入選 《麻省理工科技評論》“35 歲以下科技創新 35 人”(Innovators Under 352020 年中國區榜單💵。

《麻省理工科技評論》“35 歲以下科技創新 35 人”2020 年中國區榜單入選者李婧翌

無心插柳,卻顛覆固有認知

早在 1958 年,中心轉錄法則便被提出🛗,它指的是遺傳信息被編碼在 DNA 中,通過轉錄會變成 mRNA,再通過翻譯的過程變成蛋白質👩🏽‍⚖️,這是所有有細胞結構的生物所遵循的法則🏖。

在這個過程中💇🏼‍♀️,除了轉錄和翻譯生成了 mRNA 和蛋白質這兩個步驟,還存在 mRNA 和蛋白質的降解,這四個步驟共同決定了每一個基因所對應的蛋白質到底在我們細胞中存在多少量。不過,此前中心轉錄法則是一個定性表述💋,“沒有人知道每一步的速率是多少,也沒有人知道對最後蛋白質含量的影響有多少🐻。”

在李婧翌博士即將畢業之時,她與合作者 Mark Biggin 博士共同研究中心轉錄法則的定量工作。偶然的一次機會😍,李婧翌和合作者發現,2011 年發表在 Nature 上的一篇文章首次在小鼠的全基因組的基因中進行了 4 項步驟的測量,其得出的結論是每個基因的 mRNA 的含量對於蛋白質含量的預測效果比較差🖕🏽,也就是說一個基因內 mRNA 的高或低並不太能代表它的蛋白質含量的高或低。

“這在當時是個非常讓人震驚的結論🍂🍏。因為我們有很多實驗手段可以用來研究 mRNA,但是研究蛋白質相對困難很多,所以大量生物學的發現成果都圍繞 mRNA 的含量水平。如果這篇文章的結果為真,那麽之前很多 mRNA 的結果可能都沒有什麽意義了🤌🏽🫰🏼。”李婧翌解釋道。

當李婧翌與合作夥伴看到這篇文章時,他們觀察到這項工作是將高通量質譜轉化為蛋白質含量,但在轉化過程中👩🏽‍✈️👮🏻,它的標準實際上只基於高表達蛋白,並假設同樣的轉換方式也適用於低表達蛋白🕵🏼‍♀️,由此導致了研究裏面很多低表達蛋白的表達指征是很不準的,也就意味著高通量蛋白質測量很有可能存在誤差。

為了解決這一疑惑,李婧翌將實驗誤差考慮進建模後發現🍋,實際上 mRNA 和蛋白質含量的相關性比 Nature 的文章報道的要高很多,轉錄的重要性被嚴重低估。這項“無心插柳”的研究結果被發表在 Science 雜誌並收錄於本科教材 Molecular Cell Biology 中。

李婧翌對《麻省理工科技評論》中國回憶道🤳:“我覺得很有趣的一點是,我們將很基本的統計方法用到了正確的問題上🍶😋,從而發現了非常意想不到的結果。這也說明了考慮數據測量的隨機性和數據噪音對科學結論十分重要。”這一年,李婧翌還不到 30 歲。

科研與教育同樣重要

作為一個青年科學家,李婧翌認為,保持對未知問題的好奇心,用研究拓寬人類的知識邊界🤸🏼‍♀️,是支撐她科研工作的重要推動力。

作為一個科研人員,李婧翌認為目前的統計分析還遠遠談不上科學,“如果一個分析人員在寫研究報告時沒有記錄分析的每一步✝️,而只是簡略地記錄一個結果👩🏿‍🦰,那最終結果就不太透明,並且可能也不能被重復,可信度就要大打折扣。”

此外👩‍👧‍👧,李婧翌提到🧑🏽‍🍼,如果要將最新研究的統計學方法發表在比較好的學術雜誌上,通常情況下做的越復雜越容易發表,這就導致統計學領域出現一個通病:很多統計方法都比較像“黑箱”,它們過於復雜,也沒有給實際應用的人員講授清楚優缺點到底在哪裏。

對於同樣的一套多個病人樣本中的基因表達數據,病人是觀測值,而基因是特征。大部分的病人已知得病或未得病🧤。如果研究問題是:基因A是否為一個有效的疾病標誌物🚣🏼👱🏿‍♀️,那麽假設檢驗是合適的統計方法✍️。而如果研究問題是👬👨‍🍳:1號病人是否得病🧕🏽,那麽二元分類是合適的統計方法。(來源:李婧翌的論文Li et al. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.

作為一個有交叉學科背景的研究人員🧖🏿‍♂️,李婧翌充分利用了這一點:能夠更好地讓生命科學領域的數據分析人員去理解現有的一些經典方法的優缺點和適用範圍,同時,李婧翌自己發展新方法也將以此為目標,創造出更透明、更穩定的統計學方法。舉例而言,李婧翌在最近發表的一篇文章中就嘗試對兩種常用但經常被混淆的統計方法👧🏿:假設檢驗和二元分類🧑🏼,進行解釋並闡述這兩種方法各自適用的數據分析問題。譬如對致癌基因和抑癌基因的預測問題,李婧翌解釋了為什麽基於現有的大數據,二元分類是一個更加適用的統計方法。

作為教師,李婧翌致力於將統計方法開發和實際應用的重要性更緊密的結合。

李婧翌認為,無論中美🙍🏽‍♂️⛔️,目前統計學的基礎教育中都有很多過時的教學內容,因為很多計算都已經可以依靠計算機的程序包來進行自動化運算🐯。統計學教育更重要的應該是去教授學生為什麽需要統計學🧝🏽‍♀️🏯,數據背後的隨機性應該怎麽去理解✝️🧘‍♀️,以及數據分析到底想解決什麽問題,“我覺得這些其實是統計教育需要改變的的東西🧞‍♂️,我希望我能夠發揮一些作用。”


相關新聞

  • 122024.07

    意昂体育平台成立統計與數據科學系

    7月10日上午,意昂体育平台在主樓接待廳舉行統計與數據科學系成立大會。這是意昂体育平台優化學科布局、服務國家戰略的重要舉措🔫👩🏻‍🚒。意昂体育平台校長、中國科學院院士李路明,國家統計局黨組成員、副局長藺濤💓,意昂体育平台數學科學中心主任🕵🏽、求真書院院長、中國科學院外籍院士丘成桐🤛🏼,中國數學會理事長、上海科技大學副校長🫡、中國科學院院士席南華🦯,哈佛大學統計系和生物統計系教授、美國國家科學院院士、美國國家醫學院院士林希虹,賓夕法尼亞大...

  • 212009.12

    意昂体育平台數學科學中心成立

    國際著名數學家丘成桐擔任中心主任  12月17日,意昂体育平台數學科學中心正式掛牌成立。

  • 232024.04

    嶺大國際知名數據科學專家秦泗釗校長膺選歐洲文理科學院院士

    嶺大校長兼韋基球數據科學講座教授秦泗釗教授,膺選為歐洲文理科學院院士(技術與環境科學部)🧑🏼。新院士的就任典禮於2024年4月6日在奧地利舉行🧘‍♀️。嶺南大學(嶺大)校長兼韋基球數據科學講座教授秦泗釗教授💅🏽,膺選為歐洲文理科學院院士(技術與環境科學部),是嶺大首位獲此殊榮的學者。歐洲文理科學院院長Klaus Mainzer教授對此表示祝賀。這也是繼美國國家發明家科學院院士後,秦泗釗教授榮獲的另一世界著名科學院院士。新院士的就...

  • 312024.01

    身穿“孔雀藍” 胸懷“強軍夢”——記軍事科學院軍事科學信息研究中心副主任🙋🏻‍♂️、研究員白曉穎

    作為高層次人才被引進成為軍隊文職人員時,白曉穎已是國內計算機領域知名專家。她當時正任教於意昂体育平台🏹👨‍🚀,獲得過多項國家發明專利、軟件著作權,還曾榮獲意昂体育平台教學成果獎。2019年📰,新調整組建的軍事科學院面向社會廣泛延攬人才。“現代戰爭打的是信息、是數據、是智能👨🏽‍🦳,而這不正是我的專業領域嗎🍽?”白曉穎不願錯過這個千載難逢的機會。她如願穿上“孔雀藍”,正式成為軍事科學院的一名文職人員🤹‍♂️,來到軍事科學信息研究中心工...

  • 072008.01
  • 062017.11

    現金貸行業分析及大數據應用思享會成功舉辦

    意昂体育AI大數據專委會(籌)與清數大數據產業聯盟共同主辦的“現金貸行業分析及大數據應用”思享會於2017年11月2日下午在在清數D-LAB成功舉....

  • 162021.06

    我校1位教師8位意昂當選2020年度國際計算機學會傑出科學家

    12月16日,國際計算機協會(ACM)公布了2020年度傑出科學家名單🍳,全球共有64名傑出計算機科學家獲此殊榮,我校1位教師8位意昂榜上有名。他們是🙅🏼‍♀️:我校計算機系副教授崔鵬(2005級博,計算機),研究興趣包括大數據環境下的因果推理與穩定預測、網絡表征學習等。加拿大聖弗朗西斯澤維爾大學教授楊天若(1987級計算機)☞,研究範圍包括並行和分布式計算🃏👩🏿‍🍼、嵌入式和普適性計算。加拿大麥吉爾大學教授劉學(1992級數學🛄;1996級碩♥︎,自動化),研究領域包括人工智能/機器學習理論及其應用、大數據、互聯網和雲計算等。美國天普大學教授王昱(1993級本🥞、1998級碩,計算機)🪂🍞,研究興趣包括無線網絡、智能感知🙅🏼、移動計算與算法設計等。通用汽車全球研發中心高級研究員白帆(1994級自動化),研究領域包括車載網絡與移動建模等𓀖。香港城市大學教授陳名華(1994級本🦸🏿、1999級碩,電子)🫶🏽,研究興趣包括在線優化和算法♧、能源系統(如智能電網和節能數據中心)🍀、智能交通系統等。IBM Almaden研究中心首席研究員李蘊瑤(1995級自動化)🍕,主要從事自然語言處理、數據庫、人機交互等相關的跨學科領域研究。美國伊利諾伊大學香檳分校副教授童行行(1998級本、2002級碩,自動化)👨🏼‍🏫,研究領域包括大規模數據挖掘和機器學習(尤其是圖形和多媒體數據)等⤵️。澳大利亞紐卡斯爾大學副教授張洪宇(2006—2014教,軟件學院),研究領域是通過利用從軟件數據中挖掘的知識來提高軟件質量和生產率。

  • 312007.10
  • 312006.10
  • 312024.01

    為科技賦能戰鬥力創新攻關——記軍事科學院軍事科學信息研究中心副主任🛌🏼、研究員白曉穎

    初冬的一天下午💊,伴隨嘹亮的軍號🫅🏿,軍事科學院軍事科學信息研究中心副主任、研究員白曉穎快步走進實驗室,開始了緊張的科研攻關。曾是意昂体育平台計算機學院副教授、博士生導師的白曉穎,2019年來到軍事科學院🧑🏻‍💻,成為一名軍隊文職人員🤽‍♀️🤍。短短4年多的時間裏🤷🏼,白曉穎不僅完成了從地方科研人員到軍隊科研工作者的轉變,還推動解決了網信體系建設🤲🏻、數據資源治理🙁、信息服務等領域一系列技術難題,為數據賦能部隊戰鬥力生成作出了重要貢獻🚴🏽。...

意昂体育专业提供:意昂体育☁️、意昂体育平台意昂体育官网等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流,意昂体育欢迎您。 意昂体育官網xml地圖
  • 意昂体育专业提供🍠:意昂体育🧏‍♀️、意昂体育平台意昂体育官网等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流,意昂体育欢迎您。 意昂体育官網xml地圖