家電網-HEA.CN報道:在近日舉辦的第六屆北京智源大會上,中國互聯網協會理事長尚冰指出,高質量數據的生成速度遠低于AI大模型訓練數據需求量的增長速度,數據短缺問題已初現端倪。
繼去年“百模大戰”之后,今年國內大模型產業應用進入爆發元年。
然而,大模型產業發展如火如荼的同時,其訓練數據規模的增長速度跟不上、語料質量參差不齊,尤其是高質量中文語料短缺的問題日益凸顯,成為各方關注焦點。
阿里研究院5月發布的《大模型訓練數據白皮書》(以下簡稱《白皮書》)顯示,互聯網上中文語料和英文語料占比存在顯著差異:在全球網站中,英文占比高達59.8%,而中文僅占 1.3%。
同樣,語料的質量會顯著影響大模型的性能。在大模型領域,輸入低質量數據,必然會輸出低質量結果。
在近日舉辦的第六屆北京智源大會上,中國互聯網協會理事長尚冰指出,高質量數據的生成速度遠低于AI大模型訓練數據需求量的增長速度,數據短缺問題已初現端倪。
如何獲取規?;哔|量中文數據?建設高質量中文數據集的難點和堵點是什么?加速數據流通,推動中國特色大模型創新發展與應用的意義何在?對此,科技日報記者進行了采訪。
高質量中文語料供給嚴重匱乏
語料即大模型訓練所需數據,是大模型訓練的基礎,也是決定大模型性能和專業性的關鍵因素。商湯科技大裝置事業群高級總監張行程告訴記者,中文高質量語料相對缺乏是國內外大模型面臨的共同問題。中文語料庫不僅規模較小,且其電子化和網絡化程度明顯不足。此外,受版權、隱私等限制,許多優質中文語料庫也無法公開獲取。
其中,有一類型的中文語料極為重要,但又非常短缺——中式價值觀類語料?!栋灼分饕帉懗蓡T、阿里研究院數據經濟研究中心副主任王崢解釋說,為了更好理解客觀世界和掌握客觀規律,大模型需要學習大量知識和價值觀層面的數據,這些數據深受人類主觀意志的影響。
在王崢看來,文言文、古漢語、電子書等反映優秀傳統文化的內容,以及主流媒體發布的反映本土價值觀的內容,都可視為具有中式價值觀的高質量語料。
“訓練中融入更多這類中式價值觀語料,有助于大模型深入理解和反映中文使用者的文化背景和價值取向,從而在全球化背景下保持中國文化的獨特性。”王崢說,“更重要的是,能更好地服務中國本土用戶,滿足行業發展的需要。”
但目前面臨的實際困難是,這類語料開放共享與開發利用的程度遠遠不夠,且無法通過機器翻譯彌補其短缺問題?!栋灼分赋?,中文語料量的短缺尚有可解決方案,但中式價值觀類語料的短缺,則會成為制約我國大模型發展的短板。
高質量中文語料的供給是中國大模型本土化的關鍵。“我們希望行業能加強企業間合作以及產業上下游協同,共同推動高質量中文數據集的共享、開放,鼓勵數據提供方將高質量中文語料庫在一定范圍內公開,為各行各業大模型技術創新和應用奠定堅實的基礎,形成中國特色的AI大模型創新路徑,不斷提高國際競爭力。”張行程說。
供需雙方合作機制尚待完善
一方面,大模型廠商需要高質量數據支撐,以解“巧婦難為無米之炊”的困境;另一方面,高質量中文語料庫的數據擁有者,如擁有各類圖書、文獻的出版商等,也期望在智能化時代實現數據增值。因此,探索數據供需雙方合作模式是關鍵。
然而,要推動數據供需雙方建立合作并非易事。“攔路虎”到底是什么?
當前,大模型數據獲取主要有合理爬取、版權采購等途徑。
張行程透露,商湯目前的解決方案是聯合各機構盡量挖取、尋找現存的中文高質量語料,比如精心編校過的書本、論文等,以及向供應商購買版權語料。“雖然購買數量有限,但質量很高。”張行程說。這是以前置協商付費方式來獲取版權類語料的傳統商業模式。阿里巴巴“通義千問”大模型也采取了類似做法。
王錚還提到第二種潛在的方式,即與版權方協商,以訓練后的模型為版權方提供服務的方式進行對價。
然而,關于版權類語料使用,數據提供者和大模型廠商持有不同見解。王崢認為,大模型對版權類訓練語料的使用屬于轉換性使用,而非復制式拷貝,應構成“合理使用”或“法定許可”。
上海世紀出版集團數字出版部副主任劉寅春對此持有保留意見。她指出,大模型的深度學習機制與人類學習有相似之處,使用版權類數據進行訓練,類似于人類閱讀文獻后撰寫論文而不標注參考文獻。“從學術規范上來說,這種做法很難說沒有瑕疵。”她說。
此外,大模型廠商訓練大模型的最終目的是商用,這與“合理使用”的初衷和前提并不相符。“法定許可”需要滿足一定條件,包括說明作品的出處、作者姓名,并支付報酬。如果這些條件無法滿足,那么在顯性法律釋義下,這種行為很難構成“法定許可”。
在人工智能時代,高質量數據集是出版行業的核心資產。劉寅春認為,在有利于行業健康、可持續發展的前提下,切實保障知識產權,對高質量數據集進行有效開發和高質量轉化,是出版行業的核心。
“出版行業為大模型提供語料,相應地,大模型的技術進步、功能提升,也應惠及包括出版行業在內的更廣泛群體。”劉寅春提倡以合作共贏的方式與大模型廠商開展數據交易,通過訂立授權協議,明確授權范圍和條件,實現共同發展。
“如何將出版物進一步加工為數據要素并有效、有序流通,是擺在出版人面前的新問題。”中國出版傳媒股份有限公司副總經理張紀臣說,“但我認為這同樣是新機遇,因為我國出版行業一直強調知識服務這一理念。將出版物作為語料使用,從而提供產品和服務能力,正是出版知識服務的產品化體現。”
數據開源分享動力不足
目前,我國可供大模型訓練的優質數據資源呈碎片化、分散狀態。
“特別是語料和科研成果等中文高質量數據集開放程度低,企業在訓練大模型時使用的語料來源不透明、權屬不明確,開源后存在合規風險,這導致企業更傾向于自行采集和使用數據,大模型數據流通機制尚未形成。”王崢說。
北京理工大學管理學院副研究員尹西明認為,需要構建一個市場化、互利共贏的數據共享機制,以促進高質量中文數據的積累和有效利用。
“確立清晰的數據要素市場制度對于激發高質量數據集構建至關重要。”在復旦大學教授、上海市數據科學重點實驗室主任肖仰華看來,只有當市場機制能夠確保數據貢獻者獲得合理回報時,才能吸引更多的數據流入市場,充分挖掘并實現數據共享的巨大潛力與價值。
2023年12月31日,國家數據局等部門印發《“數據要素×”三年行動計劃(2024—2026年)》,強調堅持需求牽引、注重實效,試點先行、重點突破,有效市場、有為政府,開放融合、安全有序4方面基本原則。
該行動計劃進一步明確,要提升數據供給水平,在科研、文化、交通運輸等領域,推動科研機構、龍頭企業等開展行業共性數據資源庫建設,打造高質量人工智能大模型訓練數據集。
事實上,作為數據流通領域中最大的“富礦”,公共數據開放的步伐正不斷加快?!度珖鴶祿Y源調查報告》顯示,2023年,我國公共數據開放量同比增長16%;省一級政府的開放數據量同比增長了18.5%,北京、浙江等15地數據管理部門開始探索公共數據授權運營機制。
今年初開始實施“數據入表”政策。張紀臣認為,隨著“數據入表”政策的實施,出版企業的數字資源經過確權、評估、標準化后入表,成為出版企業的數據資產。在此基礎上構建大模型訓練使用方與出版企業共贏的商業模式,能發揮中國價值核心數據在人工智能時代的智能服務話語權。“這樣一來,‘數據入表’可能成為加速數據有效流動、共享并實現共贏的關鍵一步。”他說。
數據流通環節問題突出
算法、算力、數據和場景是大模型發展的4個核心要素。當前,我國大模型算力算法能力顯著提升,高質量發展取決于數據和場景,應構建“供得出、流得通、用得好”的高質量數據集。
尹西明表示,大模型變強用好,前提是建立以場景驅動創新的思維,引領高質量數據持續在各種應用場景中發揮價值。那么,解決數據“供得出”難題后,應重點確保高質量數據“流得通”,真正面向場景釋放數據乘數效應和大模型對新質生產力的引擎價值。
數據要素在生產中的地位愈發重要,數據要素流動帶來的開放性與動態性問題,為傳統數據理論與相應技術帶來新挑戰和新要求。
“其中之一便是數據確權。”肖仰華表示,相比其他生產要素,數據要素在流通過程中主體更加多樣,涉及數據生產者、采集者、加工者、使用者、運營者和其他產權人,權屬界定復雜。
北京智源人工智能研究院理事長、中國互聯網協會人工智能工作委員會主任委員黃鐵軍指出:“當前普遍存在一種誤解,即將數據視為傳統意義上的物理資產。其實,數據并非物理資產,作為數字形態產品,它可以被無限次使用,且不會導致數據損耗。”
他提倡在確保使用合規的前提下,大模型訓練階段可以免費獲取數據資源。如果使用數據的過程中并未產生商業利益,則無需支付任何費用;反之,一旦通過數據使用獲得了商業收益,便應按照既定比例支付相應的數據使用費用。
“雖然這一模式背后還涉及到數據確權、費率設定、監管機制等復雜問題,這些還有待深入探討和解決,但‘先使用后收益’更有利于大模型的健康發展。”黃鐵軍說。
王崢則認為,確保數據流通需政府與企業、開源或非盈利組織、學界、多類型機構等社會力量協同推進。
他建議,在政府側,對可用于模型訓練的公共數據鼓勵“應開盡開”,避免在數據開放過程中因為預設特定場景限制了應用范圍;在社會力量側,應堅持“應試盡試”原則,通過不斷迭代,探索數據的有效搭配,尋找發揮最大價值的“配方”。
標注專業化、規?;嵘先粘?/strong>
從2022年《關于構建數據基礎制度更好發揮數據要素作用的意見》出臺以來,數據要素建設和市場改革正穩步推進。今年5月,國家數據局提出建設國家級數據標注基地,這一舉措對人工智能發展至關重要。
中國信息通信研究院人工智能研究所高級工程師、中國人工智能產業發展聯盟數據委員會主任李蓀表示,數據標注是推動人工智能進步的核心環節,它能夠提升數據質量,挖掘數據核心價值,形成高質量數據集,持續為AI提供數據支持。
也就是說,在一定程度解決數據供給、促進數據共享和打通流通機制后,如何讓大模型學習到高質量數據,是接下來各界面臨的另一個新挑戰。
數據標注的專業性和規?;脖惶嵘先粘?。
李蓀指出,當前國內數據標注產業還比較初級,大部分標注工作以人工為主,勞動密集型特點比較突出。但是,在通用人工智能時代,傳統手工標注或簡單自動化標注方法無法滿足大模型對大規模、高質量、多樣化數據的需求,特別是具備模型訓練知識、行業領域知識的專業化數據標注人才也相對匱乏。
“大模型訓練數據標注人員的學歷要求比以前更高,很多是本科畢業。”王崢表示,行業大模型數據標注凸顯了專業知識的重要性。
機器在對語言水平這一抽象概念進行評估時,必須依賴預先設定的人類價值判斷和標準。電子科技大學智能語言學習與測評實驗室與字節跳動合作開發了一款語言水平考試產品。實驗室負責人陳大建說,在研發階段,實驗室負責對自行收集的用戶音頻數據進行標注,其標注內容主要是基于音頻所體現的英語能力水平進行分類和標記。標注人員由學校四五十名大學英語教師組成,且均為應用語言學專業的碩博士。
“吃”得好、“吃”得香,還要“吃”得夠。只有最終實現了規?;哔|量標注,才能切實提升大模型理解中文、傳遞中國傳統文化價值的能力。中國大模型的蓬勃發展也將助力中華優秀傳統文化海外傳播,架起一座連接古今、溝通中外的橋梁。
中國出版集團中國圖書進出口總公司下屬中圖科信數智技術(北京)有限公司總經理李沄沨認為,從正式出版物如文獻、學術專著等入手,依托先進的提取工具和解析技術,將出版物語料化、碎片化、標準化,加工成高質量的語料數據,有別于一般的數據加工。“我們已經實現了大規模和批量開展數據語料化的技術和工具軟件,能夠更深層次地解析數據,并形成獨立的圖片、表格、公式數據集,為大模型人工智能服務提供價值更高、標準程度更好的語料供給,使出版數據在人工智能時代煥發出新活力。”他說。
在數字經濟大潮中,數據要素的放大、疊加、倍增作用日益顯著,成為推動相關產業高質量發展的必然要求。張紀臣認為:“我們正站在新一輪產業科技革命的門口。這是一個不進則退的時代。”
(家電網? HEA.CN)
責任編輯:編輯K組