日前,國際數據公司(IDC)最新報告顯示,字節跳動旗下的豆包大模型在中國公有云大模型市場份額排名第一,占比高達46.4%,且多模態能力處于全球領先水平。
越來越“聰明”的豆包,是AI技術團隊持續訓練的結果。這其中,就有一支來自貴陽經開區的算法團隊——貴州網絡數據融合創新實驗室團隊,在豆包算法團隊中實力排名前列。
去年以來,人工智能發展日新月異。就在算力和應用高歌猛進之際,一個關鍵環節的短板日益凸顯:作為訓練AI的關鍵,算法供應鏈支撐率不足10%,成為制約AI發展的桎梏。
面對巨大的市場缺口,貴陽經開區依托貴陽大數據安全靶場對數據的安全保障優勢,引進貴州網絡數據融合創新實驗室,支持實驗室打造AI算法供應鏈,破解行業“算法荒”困局。
破局:布局算法供應鏈賽道
據了解,人工智能發展包括三個層面:第一個層面是作為上游的算力層,包括各類算力中心;第二個層面是作為下游的應用層,比如各種大模型。還有一個中游的算法層容易被市場忽視。
“經過這兩年的發展,應用層、算力層的規模和能力都跑到了算法前面。全國各地都在建算力中心,市場大模型層出不窮,但按照現有算力和應用的規模,算法供應鏈完成率卻不到10%。”貴州網絡數據融合創新實驗室副主任容崧瓊告訴記者。
AI行業面臨全國性“算法荒”,但也潛藏著巨大的市場空間。基于對行業需求的觀察,2023年開始,貴州省相關部門與廣西科學院進行深入交流后得出一致結論,不管是數字經濟發展情況,還是政策對大數據產業的支撐力度,貴州都更有優勢。先機即商機,2024年8月,兩地共同成立貴州網絡數據融合創新實驗室,并落地貴陽大數據安全產業示范區。
每個行業都有供應鏈,都需要原材料,人工智能行業也不例外。實驗室落地貴陽經開區以來,緊緊聚焦“算法荒”行業短板,專注于做算法供應鏈,通過匯聚數據、治理數據,為AI發展提供所需數據“原材料”。
算法供應鏈涉及生產數據、加工數據等環節,且每個環節都有著極高的數據安全需求。落地貴陽大數據安全產業示范區,依托貴陽大數據安全靶場,很好地保障了實驗室的數據安全。
“貴州孵化大模型雖沒有發達地區有優勢,但這邊的數據供應鏈較強,依托這種優勢,我們專注于做好算法供應鏈。”容崧瓊說,算法供應鏈的前提是擁有海量數據支撐,這也恰恰是貴州發展大數據產業多年來形成的先發優勢。
得益于這種優勢,實驗室成立后,與相關單位打通渠道,增強數據生產、治理能力,將數據資源優勢轉化為算法供應鏈支撐能力。目前,實驗室每天生產數據達到300億條。
強基:千人團隊解題“喂”AI
海量數據本身并沒有價值,如何“沙里淘金”,把無效數據變成有效資產?
容崧瓊介紹,實驗室猶如一個“原料生產工廠”,實驗室組建的人才團隊是“工人”。實驗室按照訂單需求,將相應數據給到“工人”,“工人”對數據進行“加工提純”后,通過貴陽大數據交易所輸送到全國各地。
隨著AI的發展,大模型訓練已經不再局限于語言訓練,而是包括語言識別、圖像識別等在內的多模態大模型訓練。因此,數據雖是資產,但真正將數據變成資產的關鍵是人才。
2023年年初,大模型應用尚未全面推廣時,實驗室團隊便預判人工智能的競爭本質是知識庫的競爭,率先啟動人才庫儲備。實驗室成立后,迅速聯合貴州大學建立貴州省數據標注實驗室,構建專業人才梯隊,以人才為核心支撐,將高校知識庫轉化為算法供應鏈的核心驅動力。
對人才的選拔,實驗室設立嚴苛篩選機制,優中選優。學生要先報名,根據想做的算法訓練參加培訓和考試,考試合格后試標,試標成功率達到95%以上的,才能進入數據標注實驗室參加數據治理。
高水平人才,解高難度題目。前兩天,一個奧數題難住了解題人。兩名學生緊密配合,一人負責解題,一人用程序把解題步驟寫成機器語言。兩人花了4小時,一共解了50多個步驟,才把題目解答出來。
目前,實驗室已在貴州大學組建1000人的人才團隊,其中50%以上是碩士研究生,有幾十名博士研究生。今年,在貴州大學的人才團隊計劃擴展到1萬人,碩士研究生要占到60%以上,博士研究生要占到300人至500人。數理化專業學生比例預計占90%以上。
此外,實驗室還與蘭州大學、安徽大學、桂林電子科技大學等高校完成簽約,下步將繼續加強與中山大學、中國科學技術大學等高校合作。每家合作高校計劃組建2000人的團隊。
為強化AI算法人才可持續供給,實驗室構建了“實訓-就業”的人才發展閉環。通過加強與企業合作,字節跳動等企業直接提供內推名額,團隊優秀人才可獲得入職大廠的機會。
開拓:數據交易規模達2000萬元
在貴州大學數據標注實驗室內,學生們正忙著解題,將解題步驟和答案轉換成機器人能夠識別的語言訓練AI,讓豆包變得更“聰明”。
“訓練AI的核心邏輯很清晰:誰能給它灌注更多知識,誰就能讓它更聰明。”容崧瓊解釋道,實驗室通過與高校合作,對高校知識庫深度挖掘,將數據供給師生進行“加工”后,再將“加工”好的數據“材料”喂給AI。
今年高考后,實驗室做了一項測試:將高考語文全國一卷的作文試題,讓目前全球最頂尖的幾款人工智能大模型進行解題作答,發現豆包的解題精準度最高。
人工智能算法供應鏈市場空間巨大,單一大模型平臺每年的算法訓練費用可達數十億元。實驗室正在為豆包等大模型提供算法支撐,為豆包提供的算法支撐力位居全國前三。
截至目前,實驗室在全國的服務單位達30余家,包括10余家上市公司,以及多家科研院所。治理好的數據主要通過兩條通道輸出:對于豆包等有自有平臺的單位直接輸送給對方;其余客戶通過貴陽大數據交易所進行交易。
實驗室已在貴陽大數據交易所發布十余款數據產品,數據集日均交易量達數千條至數萬條。實驗室成立不到一周年,已成功躋身西南地區算法供應鏈第一梯隊,截至今年6月,數據交易規模達2000萬元。
今年上半年,實驗室完成產值近800萬元。2025年,實驗室將繼續深化與重點高校合作,建強人才隊伍,努力成為豆包大模型算法供應鏈團隊的全國第一,致力于成為西南地區算法供應鏈龍頭。
(記者 黃菊)