四兩撥千斤! 創新工場首席科學家AI大牛周明博士率瀾舟團隊刷新CLUE新紀錄,輕量化模型孟子一鳴驚人!
本週,中文語言理解權威評測基準CLUE榜單,被「低調」刷新。
不同的是,不是大公司、不是超大模型……
一個新面孔,一個輕量化模型,首戰即登頂,四兩撥千斤。
CLUE榜單近年來由巨頭——騰訊、搜狗、華為、阿里達摩院輪番霸榜的格局,被首次打破。
瀾舟科技-創新工場推出的孟子模型,以十億參數完成了此前百億、千億參數模型刷新的紀錄。
這也是瀾舟科技首次對外曝光,背後團隊負責人,正是創新工場首席科學家、全球AI大牛周明博士。以下文章解釋了這個模型的原理,文章來自《量子位》微信公眾號,經授權轉載。
▎輕量化模型孟子?
孟子,基於瀾舟團隊自研技術研發的大規模預訓練語言模型。
包括創新工場、上海交通大學、北京理工大學等單位參與聯合研發。
可處理多語言、多模態數據,同時支持多種文本理解和文本生成任務,能快速滿足不同領域、不同應用場景的需求。
孟子模型基於Transformer架構,僅包含十億參數量,基於數百G級別涵蓋互聯網網頁、社區、新聞、電子商務、金融等領域的高質量語料訓練。
但誰也沒想到,小模型卻有大智慧,一經登場,打破格局。
CLUE,中文語言理解領域最具權威性的測評基準,涵蓋文本相似度、分類、自然語言推理、閱讀理解等共10項語義分析和理解類子任務。
該榜單競爭激烈,幾乎是業內所有自然語言理解玩家必爭之地。
騰訊、搜狗、華為、阿里達摩院等更是輪番霸榜刷新紀錄。
而且隨著大參數模型愈演愈烈,CLUE還漸有巨頭壟斷之勢。
因為百億、千億甚至萬億參數的大模型,已然不再是創業或其他玩家可與之爭鋒。
萬萬沒想到,瀾舟科技-創新工場團隊出手,四兩撥千斤。
因為孟子,走的是基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。
孟子預訓練模型性能比肩甚至超越千億大模型,在包含文本分類、閱讀理解等各類任務上表現出色。
相對已有的中文語言模型,孟子模型實現了多項突破性進展:
1) 堅持「小而精」的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的性能。作為精巧的小模型,對標「巨無霸」,小模型性能超越千億規模模型。
2)使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威CLUE中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,刷新三項榜單世界紀錄。總排行榜分數突破84分,逼近人類基準分數(85.61)。
3)靈活的領域和場景適應能力,方便快速定制和應用。基於T5-style的端到端生成的訓練範式,同步適配BERT-style的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。
當然,隨著孟子一鳴驚人,也必然能讓輕量化模型研究來到聚光燈下。
▎原理方法和應用?
在輕量化模型算法研究方面,基於自研的基於語言學知識、知識圖譜和領域數據增強等技術,從模型架構(包括基礎層Embedding表示和交互層Attention機制)到預訓練策略進行了全方位改進。
具體有四方面:
1) 模型結構方面,將語義角色、詞性標註等語言學特徵融合到Embedding表示中,基於句法約束引入註意力機制中,從而提升模型對語言學知識的建模能力。
2) 訓練策略上,引入基於實體知識和Discourse的Mask機制,強化模型對語言成分和語篇關係的表徵。
3) 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。
4) 為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域數據繼續訓練並構造相應的提示模版(Prompt),取得了明顯的性能提升。
基於以上算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義信息能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。
另外,在Finetune的進展方面,如何將預訓練模型用於各項任務?
瀾舟團隊也有總結,從數據增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的性能:
1) 數據增強:使用領域相關數據;
2) 知識蒸餾:基於Teacher-Student自蒸餾提升訓練效率;
3) 遷移訓練:結合課程學習的思想,由易到難訓練下游模型;
4) 訓練優化:使用多種訓練目標,多角度提升模型能力;
而且孟子還已經展開了垂直化領域應用。
基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:
1) 通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。
2) 通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。
瀾舟方面還透露,孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文本生成、行業搜索、機器翻譯等諸多領域。
並且毫無疑問的是,因為輕量級模型具有的模型參數較少、快速推斷的特點,更易於線上部署和推廣到移動設備中,自然不會局限於現有應用和場景,接下來還會有更廣泛的研究和應用場景中。
▎瀾舟團隊?
最後,也簡單介紹本次一鳴驚人的新面孔瀾舟科技。
瀾舟科技是創新工場孵化的一家認知智能公司。公司創始人——周明博士。
AI領域內,周明已不用過多介紹,他是公認的世界級AI科學家,自然語言處理領域的代表性人物。
周明博士在2020年加盟創新工場,擔任創新工場首席科學家。
而瀾舟科技則針對商業場景的數字化轉型,基於大數據、知識圖譜和行業模型,提供新一代的信息檢索、知識推理和商業洞見技術和相關產品。
據稱目前已與國內外幾十所著名高校和十餘個相關領域的頭部企業建立了穩定的合作關係。
值得注意的是,瀾舟科技除了大牛坐鎮,其實也是行業趨勢的體現。
引用創新工場董事長兼CEO李開復最新分享來說:
AI的發展可以按照兩個時間點劃分。
第一個時間點是2015年,以CNN為核心的計算機視覺技術讓機器超越了人類,帶來了人臉識別、智能質檢、無人零售、智慧城市、無人駕駛等商機。
而第二個時間點出現在2019年,以大模型為代表的自然語言方向取得突破性進展,讓NLP從數據、信息走向知識和洞見成為可能,將會在翻譯、語音識別、法律、金融、新聞、廣告、醫療、娛樂等大賽道帶來機遇。
「如果說CNN造就了今天計算機視覺領域的突破和眾多應用,預訓練大模型+微調也將帶來自然語言的百花齊放的發展,用數據智能驅動各類業務的升級。瀾舟科技在周明老師的帶領下取得了今天的成果,在新機遇面前躬身入局,一起發掘NLP領域的黃金發展期」,李開復說到。
「分數計算機線上」的推薦目錄:
- 關於分數計算機線上 在 Facebook 的最佳解答
- 關於分數計算機線上 在 鋼鐵 V 。 薇琪職場學 Facebook 的最佳貼文
- 關於分數計算機線上 在 Fintech 金融科技趨勢分享 Facebook 的最讚貼文
- 關於分數計算機線上 在 分數計算機及計算過程2023-在Facebook/IG/Youtube上的焦點 ... 的評價
- 關於分數計算機線上 在 分數計算機及計算過程2023-在Facebook/IG/Youtube上的焦點 ... 的評價
- 關於分數計算機線上 在 (37)異分母分數的減法計算練習 - YouTube 的評價
- 關於分數計算機線上 在 研究所板 - Dcard 的評價
分數計算機線上 在 鋼鐵 V 。 薇琪職場學 Facebook 的最佳貼文
👉 抽書活動:2021 想要好好學習投資嗎?《拿鐵因子》告訴你三個觀念,輕鬆累積財富
蠻常聽到別人開始學投資的第一句話就是:「要是我可以早在 10 年前懂投資,我可能人生可以過得更加輕鬆」。
如同大家知道 2020 相當特別的一年,股市也是高潮迭起,從年初的低點後續持續飆升。今年最初的目標也是學會「投資」,當初在商業思維學院研究了「迪士尼的財報」,那時才的知道原來可以這樣了解一家公司,透過財務報表到後續判別市場價值,在利用廣泛的資訊來源,決定是否要投入資金進場。
最近讀到《一位投機者的告白》,書中作者柯斯托蘭尼:「偉大的投機家是有遠見的戰略者。」,於是乎跟身邊一些大神討論如何選股時候,他們有自己的依據來決定是否將資金投入,可能是看財報,可能是看這家公司的老闆是否有遠見,開始慢慢培養這些關鍵洞察。
雖然看完了財報和一些書籍,但總覺得自己一知半解,所以在線上平台買了一些投資課程,像是 M 平方 Rachel 的課程「15 分鐘看懂經濟運行,掌握全球投資趨勢」到王伯達的「動盪時代的資產配中:王伯達人生財務規劃學」。從年初講了很久要開戶,終於在年底前把這個願望完成!Rachel 講述總體經濟學時候,加上國際觀點頗析,是我近期非常喜歡的課程。
汗顏的說,大學的我念了「經濟學」,可是總是對於這門學科興趣缺缺,當初上了這個科系其實就是志願選填,大概跟不少人一樣,就只是因為我分數到點,但我並不知道我適不適合。也是懵懵懂懂把考試考完,畢業之後,卻一點無法把過去所學所用上。我也以為我一輩子用不上了!
從年初講了很久要開戶,終於在年底前把這個願望完成了。當自己開始想要好好了解「投資學」,才發現過去學習的記憶都湧上來了。突然覺得對於總體經濟學,能貫穿到國際政治、經濟到文化來了解局勢相當感興趣。
就如同「蝴蝶效應」所說:「一隻亞馬遜熱帶雨林的蝴蝶,偶爾煽動擠下翅膀,可能在兩週後在美國薩克斯引起一場龍捲風。」,也開始學著使用這些原則,觀察和思考國際的脈動。
大家或許覺得「投資學」非常遙不可及,其實我也跟書中的主人翁一般,怕數字我搞不來,怕會輸掉很多錢。因為這些恐懼,我覺得我要懂很多知識,再來實際操作,或者是當我累積更財富時候,再來思考這些事情會更好。然後隨著我閱讀完這本書,卻有些改觀。
故事中,27歲的小資女柔伊,是位優秀的旅遊雜誌編輯,工作資歷有6年。但身為旅遊雜誌編輯,她卻從未出門旅行,甚至沒有護照。她跟許多上班族一樣,為了生活開支、卡費、學貸,拚命賺錢,但始終無法存到錢,支出反而越來越多。
大家可能會好奇說,為何這本書要叫做「拿鐵因子」,很多時候我們覺得我們賺得太少,於是乎常常希望可以透過加薪,或者是找到更好的工作。卻不知道當我們賺得更多的時候,卻會花得更多。如果能好好檢視每天的花費,或許會發現有些花費是不需要的。
書中提到三個重要的觀點,幫助大家思考自己的財富狀態:
1. 先付錢給自己:每天付1小時時薪給自己,妥善讓錢增值,獻給未來的自己
2. 不做預算,讓財務自動化:設定一領到薪資,就一部分錢轉到另一個儲蓄帳戶
3. 揪出沒必要花費的拿鐵因子:咖啡、香菸、糖果、酒、包包、鞋子、訂閱會員……
假如說,每天上班前需要來一杯「星巴克」,是因為我們需要「星巴克」的咖啡來提神,還是因為購買「星巴克」咖啡感覺不錯?當每天可以省下 135(咖啡價格)*5(一週上班天數)*52 (一年週數)=35,100。這些每天省下來的 135 塊,假設複利 10% ,十年之後會是多少呢?
透過線上複利系統計算會是 900K,而多出來金額會是 550K,這就是大家常說:「與其賺錢,到不如學會存錢,有存款之後再透過錢滾年的方式賺錢。當然這些錢最好是『多出來的閒錢』。」
在中間透過故事方式,娓娓道來這些要點為何如此重要,每次聽完如何有意識管理自我財富,都會冒出很多問題,藉由主人翁之口,也把這些問題解釋的更加清楚。書中也一步步教學說如何規劃財富存款,像是是可以額外開幾個帳戶,來儲放自己的夢想基金,以免自己在不知不覺把錢都花光了。
如同作者提到一件重要事情:「解決財務的問題,並不需要更多錢,而是要養成一個新習慣。」
最後曾經在 CMX 讀書會中曾經聽過前輩說:「大家都想要『財務自由』,但是我發現我每投資都失利,所以後來我清楚認知到我不適合『搞投資』,而且我也不想要不工作。不工作會是怎麼樣的生活呢?書中說到多少趴數的利率,只要每個月逼自己儲蓄,但是或許這些數字只是『書商的行銷手段』,給大家賣一個夢想,希望哪天可以不用工作。」
或許如果前輩說的,每個人都要找到適合自己的方式,『投資學』是一門需要長期學習,且需要有耐心。預祝大家在 2021 都有養成好的習慣,為未來的自己儲蓄。
複利計算機:https://reurl.cc/e8jm0Q
書籍推薦:https://reurl.cc/XkvlOR
👉👉👉 《LUCKY DRAW 抽獎辦法》感謝 采實文化
1、抽出「2本」《拿鐵因子》送給「鋼鐵V」粉絲們!有興趣的朋友請在底下「按讚留言」,「公開分享」到個人頁面。
2、留言寫下:為什麼想要得到這本書?例如:「想要學會投資?」、「如果現在薪水不夠多,是否能進入投資市場?」
3、活動時間:即日起至2021/01/5(二)晚上 11 點截止,隔天在留言中公布名單,隨機抽出2名正取。
4、中獎人:請私訊小編,提供姓名、你的電話以及聯絡地址。就會安排新書到你家!
---------------------------
《2021 一個嶄新的開始:鋼鐵V。商業讀書會》
鋼鐵 V 的商業讀書會將帶領大家透過「目標設定」、「閱讀」、「分享」、「共享」、「目標覆盤」五大元素,一起成長突破。
1. 目標設定: 透過 OKR 目標設定法,幫助大家訂定一年的讀書計劃。
2. 閱讀: 透過領讀人來說書導讀,或是一群人共讀一本書籍,提煉出書中的知識要點。
3. 分享: 通過與他人分享觀點、交流討論,將所學習到的知識點,在腦海中沉澱。
4. 共享: 從「知道」到「做到」。把學習到的知識,連結到生活或工作上,讓你與知識產生連結。
5. 目標覆盤: 探討目標與實際結果的差異,並總結經驗。
若你對此計畫有興趣的話,歡迎填寫下列表單,幫助鋼鐵 V 團隊更了解你們,以設計出更符合參與者期待的讀書會,同時更可以獲得第一手資訊唷!
報名連結:https://forms.gle/HhABwcrfdLnRhopr8
分數計算機線上 在 Fintech 金融科技趨勢分享 Facebook 的最讚貼文
🔹CB Insights-2018 AI 100年度榜單
研究機構CB Insights從全球上千家企業中選出2018年最有發展前景的100家人工智慧公司。
此榜單由大數據演算而來,涵蓋網絡安全、物聯網、金融科技、醫療保障等26個行業的人工智慧應用,評判標準包含融資情況、市場潛力、投資人、技術創新、團隊實力等。
🎈詳細榜單,請見CB Insights官網:
https://www.cbinsights.com/…/artificial-intelligence-top-s…/
—
▪️榜單入選-5家金融科技公司
上榜5家金融科技公司分別為Affirm、Cape Analytics、Numerai、Upstart、ZestFinance,加起來總融資額接近14億美元。
🔻Affirm(總融資額:5.25億美元)
這家為消費者提供網購融資服務的金融公司,由PayPal創始人Max Levchin創辦,目前已完成E輪融資。Affirm的平台會以AI運算,為符合標準的用戶墊付消費金額,消費者再以每月分期還款付息,並將開發教育工具來幫助人們管理財務。
CB Insights稱其有助於促進消費模式的轉變,擴大市場規模,提升消費者購物幸福感。
🔻Cape Analytics(總融資額:1400萬美元)
Cape Analytics於2014年在加州成立於,致力於環境規劃與使用,Cape Analytics利用地理空間圖像、計算機視覺和機器學習來即時抓取業主的財產數據,並通過APP提供綜合性數據和分析方法。
該公司所開發的平台與Google Earth類似,包含家庭可使用面積、屋頂狀況等房產資訊,保險公司能借此提供快速準確的報價。
🔻Numerai(總融資額:750萬美元)
該公司為投資者提供對衝基金的短期或長期股權策略,由資料科學家協助將金融數據轉換成機器學習來提供,目前已完成A輪融資。其運作機制是將加密數據開放給用戶,數據加密後不會洩露企業機密,任何人都可以匿名參加建模和分析,一旦數據模型預測市場成功,用戶將會獲得相應的數字貨幣獎勵。
🔻Upstart(總融資額:5.85億美元)
這家借貸平台創立於2012年,利用人工智慧和機器學習將借款流程自動化,公司已獲得D輪融資。除了直接提供顧客服務,還通過軟體向銀行、信用社及其他合作機構提供技術。該平台審核貸款申請時,除了申請人的個人信用FICO分數外,還會將其教育水平、工作經歷等納入考量。
創始人Dave Girouard曾為Google管理階層,表示創立Upstart的初衷,不是為了線上借貸,而是想以天使投資人的方式投資那些有前途的借款人。
🔻ZestFinance(總融資額:2.68億美元)
Google公司前CIO Douglas Merrill於2009年在洛杉磯創立的借貸平台ZestFinance,該公司2017年發佈Zest自動機器學習平台,透過分析大量非傳統信貸數據,增加信貸審批通過率,降低信貸決策風險,尤其針對徵信資訊不足或沒有徵信記錄的借貸者。
ZestFinance採用不少「弱」數據構建模型,比如在催收場景下,平台會將用戶搬家次數納入評估模型,學生在畢業後搬家次數越多,還款意願就越低。此外,ZestFinance還對外提供信貸審批和反洗錢等服務。
👉🏻翻譯參考 #AI金融評論
分數計算機線上 在 分數計算機及計算過程2023-在Facebook/IG/Youtube上的焦點 ... 的推薦與評價
這是免費、又方便的線上分數計算機手機應對模式! 透過加, 減, 乘, 除法在日常生活中需要使用分數來計算的時候、就可以隨時使用它. 分数 ... ... <看更多>
分數計算機線上 在 (37)異分母分數的減法計算練習 - YouTube 的推薦與評價
小學五年級數學「 分數 」教學,本影片讓學生練習異分母 分數 的減法 計算 。 ... <看更多>
分數計算機線上 在 分數計算機及計算過程2023-在Facebook/IG/Youtube上的焦點 ... 的推薦與評價
這是免費、又方便的線上分數計算機手機應對模式! 透過加, 減, 乘, 除法在日常生活中需要使用分數來計算的時候、就可以隨時使用它. 分数 ... ... <看更多>