創新工場和BCG諮詢合作的「+AI改造者」系列:創新工場投資的Insilico Medicine,看AI新藥研發平臺如何賦能傳統藥企,一起進行“AI+生命科學”的顛覆式創新!
改造者系列:AI醫藥的下一站是長壽 -- 本文来自BCG微信公眾號,經授權轉載。
近期,創新工場聯合BCG波士頓咨詢旗下亨德森智庫,推出「AI融合產業:『改造者』如何促進AI普惠」系列研究。人工智能在中國大陸有著明確的落地應用場景,大量的AI企業活躍於這些垂直場景中,我們定義這些企業為「改造者」。「改造者」通過傳授其AI技術和垂直行業理解,極大地打破了傳統企業應用AI的瓶頸。
作為擅於趨勢前瞻的TechVC,創新工場長期看好AI領域,深入佈局,至今已經投出了7只AI獨角獸。在系列研究中,我們采訪了數家創新系AI企業,通過這些「改造者」的視角,探究傳統企業擁抱AI的範式與路徑。
創新工場投資的英矽智能(Insilico Medicine)是一家由人工智能驅動的全球領先生物技術公司,通過發明和迭代人工智能藥物研發平臺,變革創新藥物和療法的發現方式。
英矽智能的AI藥物研發平臺已經證明了自己的能力:在今年2月和8月,半年的時間內,先後公佈了兩種臨床前候選藥物,分別用於治療特發性肺纖維化和腎臟纖維化。
在采訪中,英矽智能創始人兼首席執行官Alex Zhavoronkov博士表示,AI醫藥企業的下一個重要問題將是如何更好地理解生物學和跨物種生物學,長壽業或者抗衰老技術將會是未來的方向。以下:
■系列導讀
本系列由BCG亨德森智庫與創新工場董事長兼首席執行官李開復博士帶領的創新工場團隊共同推出,圍繞「AI融合產業:『改造者』1如何促進AI普惠」的課題,我們致力於探究傳統企業在應用AI過程中的關鍵要素與合作夥伴,以及傳統企業擁抱AI的範式與路徑。
AI製藥領域於2014年左右興起,在2018—2020年間全面爆發。AI能夠快速識別大量樣本中的客觀規律,加速尋找和測試潛在靶點的過程。「有了AI,我們50個人可以做到的事情,比得上一個典型的製藥公司5000人所做的事情」,英矽智能創始人Alex Zhavoronkov在「未來呼嘯而來」一書中如是分享。2
1 「改造者」 通過傳授其AI技術和垂直行業理解,極大地打破了傳統企業應用AI的瓶頸,充當產業中傳統企業應用AI的橋樑。「改造者」包括AI企業與成功轉型AI的傳統企業。
2「未來呼嘯而來」,彼得·戴曼迪斯(Peter H.Diamandis)和史蒂芬·科特勒(Steven Kotler)著。
■本期受訪嘉賓:Alex Zhavoronkov
英矽智能(Insilico Medicine)是一家由人工智能驅動的全球領先生物技術公司,通過發明和迭代人工智能藥物研發平臺,變革創新藥物和療法的發現方式,加速研發進程,為癌症、纖維化、抗感染、免疫和抗衰老等未被滿足的臨床治療需求提供創新的藥物和療法方案。
Alex Zhavoronkov是英矽智能的創始人兼首席執行官。他擁有皇后大學學士學位,約翰·霍普金斯大學生物技術碩士學位,以及莫斯科國立大學物理和數學博士學位。
■對談實錄
Q1 英矽智能原來在美國創立,後來為什麼選擇遷至中國?
Alex:中國構建了一套完善的體系和土壤,吸引創業企業、大型企業紛紛入駐。中國大陸多樣化的投資者,包括傳統藥企、科技巨頭、PE/VC等各類投資者,能將最優質的AI人才、CRO、藥企融合在一起。投資者能為初創企業提供資質牌照、幫助招聘、企業管理和宣傳等等。英矽還與許多學校開展了合作研究,擁有豐富的內部研發管線。中國完整的生態夥伴體系使得像我們這樣的企業能夠迅速擴大研發規模,甚至與大藥廠競爭。
Q2 英矽智能和輝瑞、安斯泰來、楊森製藥等諸多藥企都有合作,在和大型藥企合作的過程中有什麼心得或者經驗?
Alex:創新型的AI生物技術公司按照創立時間可以分為三大類:2014年之前成立、2014年—2015年左右成立、最近5年成立。2014年之前成立的企業通常不運用深度學習(deep learning),或者不具備向藥企提供解決方案所需的行業知識。2014—2015年間成立的企業則創立的正是時候,生成式對抗網絡(Generative Adversarial Network)出現,AI製藥開始興起。同時,許多藥企缺乏AI的專業知識和AI團隊,如果想要獲取AI方面的知識和技能,就必須與初創企業合作。作為交換,那時候的藥企也通常願意向初創企業提供資料和各類資源。英矽智能很幸運,創立時間(2014)正處於大藥企對外部合作最為開放和寬鬆的時期。而最近幾年成立的企業就沒那麼幸運了,很多藥企已經開始自建AI團隊、自研AI應用,只有具備非常特定細分領域AI技術的初創企業才有可能成功撬動藥企,與之建立合作。
然而據我的觀察,儘管許多大藥企都建有自己的AI部門和數據科學家團隊,但他們並沒有足夠強的AI能力——他們往往缺乏具備足夠AI知識的團隊。以生物醫藥方面的論文發表為例,在2014—2019年間,英矽智能發佈了上百篇AI相關的論文,然而發表AI論文數量最多的藥企阿斯利康則只有65篇,位列其次的諾華有54篇。
藥企往往也不知道從何處開始應用AI,而這正是AI初創公司能夠創造價值的地方。但是,在AI初創公司開始接觸藥企和銷售方案之前,首先要充分理解大型藥企錯綜複雜的組織架構和部門分工,針對不同部門銷售定制化的模塊,而非從一開始就銷售整體性、綜合性的解決方案。這是因為藥企內部通常很難有一個部門能夠處理所有的模塊,部門之間的協同往往沒有那麼強。因此,AI初創公司在提供解決方案的時候也要靈活地劃分模塊,對症下藥,英矽智能通常一次只銷售一個模塊。
儘管銷售是模塊化的,AI初創公司需要具備端到端、全鏈路的解決方案。英矽根據不同的研發週期,設計了三大AI平臺——新藥靶點發現平臺、分子生成和設計平臺、臨床試驗預測平臺。據我們瞭解,中國還沒有任何一家同行,同時擁有生成生物學和生成化學兩大AI平臺,能把靶點發現和小分子化合物生成有機結合在一起的公司很少。此外,英矽智能的AI系統可以用軟件形式呈現,藥企可以自行操作,用自己的數據運算測試。這些都為我們創造了差異化的優勢。
最後,對於藥企而言,如果想要應用綜合的AI解決方案,需要有整體性的戰略為引領。咨詢公司可以充當整合各部門組織、統籌整體戰略的角色,AI企業可以選擇與之合作。
Q3 在您看來,未來AI醫藥領域的發展趨勢是什麼?
Alex:在未來,最重要的不是AI技術,而是如何將AI和行業特定的實驗數據或模型結合。現在市場上已經充滿了各種各樣的技術企業,他們在不斷精進演算法模型和數據。未來的競技不會是關乎演算法或者算力,而是新的商業模式或者應用AI的新方式。
AI初創公司需要積累足夠的行業專識,理解藥企的需求,學習藥企的經驗,並向藥企證明自己提供的模塊能夠在真實的商業環境下應用,並且模塊之間能夠很好地兼容,能融入業務流程,且符合監管要求。比如機器學習加速了藥物識別,但還有很多步驟和流程並不能被加速或跨越:實驗論文不能被跨越,你依然需要向藥物監管部門提供大量實驗數據和模型來證明研究的有效性;實驗中的生物過程不能被加速,你依然需要等待生物體自然的新陳代謝和細胞活動,你也不可能直接從大鼠實驗跨越到人類實驗。而這些都涉及到更細分的新技術問題。
所以,對於AI醫藥企業而言,下一個重要的問題將是如何能夠更好地理解生物學?如何理解跨物種生物學?正因如此,我判斷長壽業或者抗衰老技術將會是未來的方向,即如何運用AI來監督和追蹤生命體在漫長時間裡無數細微的實時變化,來創建數字孿生(digital twin),進行跨物種比較、跨疾病模型比較。我相信AI是説明我們更好地認識生命體的最佳工具。
■要點回顧
1、中國的資本環境天然地聚集了垂直產業領域的優質企業,幫助AI初創公司,即「改造者」,迅速汲取經驗、擴大規模,加速行業創新與賦能。
2、在與垂直行業企業合作時,「改造者」既要有端到端的解決方案,也要有靈活、敏捷的銷售和服務模式。端到端、全鏈路的方案有助於「改造者」更靈活地根據傳統企業的需求組合方案,能夠擴大服務範圍和客群,提升「改造者」的競爭優勢。
3、未來最重要的不是AI技術,而是如何將AI與行業特定的實驗數據或模型結合。限制因素並不是演算法或者算力,而是新的商業模式或者應用AI的方式來實現行業定制化。
半監督式學習演算法 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
矮化女性和少數種族,OpenAI GPT 模型為何變成 AI 歧視重災區?
作者 品玩 | 發布日期 2021 年 02 月 13 日 0:00 |
機器學習技術近幾年突飛猛進,許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例,現在可寫文章、幫人做報表、自動查詢資訊,給用戶很大幫助和便利。
然而,多篇近期論文指出,包括 GPT 等 AI 模型,生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域,勢必強化歧視偏見對象現象。
卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR,兩個去年發表的影像生成模型進行系統性測試,發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。
其中一項測試,研究者用機器生成男女頭像照片為底板,用 iGPT 補完(生成)上半身影像。誇張的事發生了:所有女性生成結果,超過一半影像穿著比基尼或低胸上衣。
男性結果影像,約 42.5% 影像穿和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;露手臂或穿背心的結果只有 7.5%。
這樣的結果,技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時,男人更多和「商務」、「辦公室」等名詞連結,女人更多和「孩子」、「家庭」等連結;白人更多和工具連結,而黑人更多和武器連結。
這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 模型的具體運作機制有差別,但透過這篇論文,研究者指出這些偏見現象背後的共同原因:無監督學習。
這兩個模型都採用無監督學習 (unsupervised learning),這是機器學習的方法之一,沒有給事先標記好的訓練資料,自動分類或分群匯入的資料。
無監督學習的好處,在於資料標記是繁瑣費時的工作,受制於標記工的程度和條件限制,準確性很難保持一定,標記也會體現人工的偏見歧視,某些領域的資料更缺乏標記資料庫;而無監督學習在這種條件下仍有優秀表現,最近幾年很受歡迎。
然而這篇論文似乎證明,採用無監督學習無法避免人類常見的偏見和歧視。
研究者認為,採用無監督學習的機器學習演算法,出現的偏見歧視來源仍是訓練資料,如網路影像的男性照更多和職業相關,女性照片更多衣著甚少。
另一原因是這些模型採用自迴歸演算法。在機器學習領域,自迴歸演演算法的偏見問題人盡皆知,但嘗試解決這問題的努力並不多。
結果就是,機器學習演算法從初始資料庫學到所有東西,當然包括人類的各種偏見和歧視。
之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3,發表論文也申明因訓練資料來自網路,偏見無法避免,但還是發表並商業化。
去年 12 月,史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》,確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實有嚴重的歧視問題。
具體來說,用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。
另一項測試,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段文字,卻包含明顯的暴力過度遐想和延申,其中有句話「不知為何原因,我渾身是血。」
而當這類演算法應用到現實生活,偏見和歧視將進一步強化。
iGPT 和背後的 OpenAI GPT 技術,現在開發到第三代。能力確實很強大,就像眾多媒體報導過那樣,因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月,微軟 CTO Kevin Scott 宣布和 OpenAI 合作,獨家獲得 GPT-3 授權,將技術應用到針對用戶的各項產品和 AI 解決方案。
微軟尚未透露具體會把 GPT-3 應用到哪些產品,但考慮到微軟產品的十億級用戶量,情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能,當用戶匯入某特定詞或插入圖片時,如果正好落入 GPT-3 的偏見陷阱,結果將非常糟糕。
不僅 GPT,照前述論文說法,所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門,自然語言處理、電腦視覺等領域,都成為非常關鍵的底層技術。
如翻譯對人際溝通十分重要,但錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷人與人的聯繫,更嚴重者將導致不可估量的人身和財產損失。
作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更區別和記錄訓練資料庫的內容,以便未來找到降低模型偏見的更好方法,以及發表模型前應該做更多測試,盡量避免受演算法強化的偏見被帶入模型。
資料來源:https://technews.tw/2021/02/13/openai-gpt-discrimination/
半監督式學習演算法 在 智慧家庭實驗室-智家嚴選 Facebook 的最佳貼文
#採用正面表列的非監督式學習演算法
#減少一半的產線檢測人力
#鴻海 #FOXCONN
鴻海半導體事業群AI團隊歷時8個多月的研發,從架設AOI光學檢測設備,到產線採集產品外觀影像,進行影像數據處理與AI演算法的開發與調適,最終研發出非監督式學習AI演算法FOXCONN NxVAE,並已實際應用在鴻海科技集團中國大陸園區內的電子產品外觀檢測產線上。
此技術已實際導入集團部分產品外觀檢測生產線,成功降低50%以上的產線檢測人力。
鴻海秀AI肌肉! 發布非監督式學習AI演算技術
https://lnkd.in/ghBvxeM
---
www.smarthomelab.tw #智慧城市實驗室
#智慧家庭 #智能家居 #smarthome #智慧城市 #smartcity
半監督式學習演算法 在 Python 使用Scikit-learn 機器學習 的推薦與評價
常見的機器學習類別監督式學習(supervised learning) 非監督式 ... 標籤、讓機器自行摸索出資料規律的則為非監督式學習,如集群(Clustering)演算法 ... ... <看更多>