立足智能文本垂直行業 國産曹植大模型能“七步成詩”
  • 新華網無人機
正文

立足智能文本垂直行業 國産曹植大模型能“七步成詩”

2023-09-05 09:39:04 來源:解放日報

  上海正在加快向具有全球影響力的科技創新中心進軍。

  提升關鍵核心技術競爭力、打造産業高質量發展新動能是強化科創策源功能的題中應有之義,可以為上海建設具有全球影響力的科創中心提供強大引擎。

  即日起,在上海市科委指導下,本報推出“科技元實力·創新源動力”主題宣傳活動,圍繞區塊鏈、Web3.0、數據技術、人工智能等重點方向,全景展現上海匯聚要素的向心磁場和産業應用的廣闊空間,進一步激發內生動力,為上海推進具有全球影響力的科創中心建設書寫生動注腳。

  以“科技,創造可持續未來”為主題,第二屆外灘大會將於9月7日至9日,在上海世博園召開。外灘大會是上海金融科技創新的新名片,也是觀察上海以及全球科技創新的重要窗口。

  外灘大會組委會&&,本屆大會包括人工智能與大模型、創新産業實踐、人文特色、數據技術、展會與集市五大亮點,設1場主論壇、36場見解論壇、8000平方米科技展區、3000平方米綠色集市和“明日之城”數字空間展區。一場科技盛宴即將來襲。

  以“科技,創造可持續未來”為主題的2023inclusion外灘大會即將在上海召開,屆時將重點關注大模型技術在産業的落地和數據技術的未來探索。上海知名AI企業達觀數據在今年發布國産“曹植”大語言模型,並將在外灘大會的科技人才招聘會上開放多個科技人才崗位的招募。達觀數據董事長兼CEO陳運文&&:“大模型應用將走向垂直化發展,高質量的數據也會成為最核心的競爭力。”

  扎根智能文本分析的垂直賽道

  “作為建安七子之一,曹植不僅能七步成詩,還寫下了《洛神賦》,這是我國古代文學作品中的經典長文。”7月7日,曹植大模型發布會上,陳運文坦言,曹植大模型的特長就是文檔資料智能化的分析和寫作。

  目前,國內正面臨着“百模大戰”,有數據顯示,全國有至少130家公司研究大模型産品,其中做通用大模型的有78家,做垂直大模型的有52家,而曹植大模型是國內首個垂直行業專用的自主可控的GPT大語言模型,從誕生之日起立足於垂直領域,借助公司在自然語言處理(NLP)、光學字符識別(OCR)、機器人流程自動化(RPA)、知識圖譜等技術優勢,可完成多類型、複雜結構的長文本寫作,自動起草多種類型的文檔,未來將實現多模態內容生成,如長文檔中的表格、圖表、圖片等。

  由於選擇了“長文本”賽道的應用落地,曹植大模型的呈現形式不是一問一答的簡單短文本生成,而是完成複雜結構的長文本寫作,自動起草多種類型的文檔,同時具有自動排版、智能糾錯、文本潤色、自動生成摘要等特色功能,還支持數十種語言的寫作和實時翻譯。

  這也是國內大規模語言模型中首批可落地的産業應用級模型,目前已在金融領域AIGC多場景投入應用。基於“曹植”系統,曹植大模型進一步夯實了達觀數據産業應用智能化基座,全面增強AI全産品矩陣能力。

  達觀數據還敏銳地觀察到大模型落地過程中的“痛點”。“一些企業在部署大模型的時候,不僅需要專門的技術人員調試,還會擔心數據的保密性,同時還無法買到合適足量的GPU芯片。”陳運文&&,達觀數據推出的私有化曹植大模型一體機,不僅內置曹植大模型,支持三方開源模型庫,可在企業內部一鍵部署大模型應用,能同時為多種垂直大模型業務提供服務。此外,大模型一體機還提供了英偉達A100、華為昇騰、燧原雲燧等國內外主流GPU,從芯片、操作系統、AI軟體&&、算法、數據等多維度滿足大模型應用需求。

  高質量數據是大模型訓練的關鍵

  當前,大模型正進入高速發展期。近幾日,國內首批大模型正式獲批面向用戶開放,OpenAI也宣布提供ChatGPT企業版,爭取更多商用市場。但是大模型在落地應用中仍然面臨不小的瓶頸。

  陳運文&&,大語言模型雖然有非常強大的語言理解能力,但會産生“幻覺”,偏好“一本正經地胡説八道”。“一旦真實性和準確性不足,模型就無法保證回復結果的真實性,從而給出錯誤的結果。”他指出,在專業領域,所有數據都必須非常嚴謹準確,大模型必須解決這一矛盾。

  同時,大模型的偏好性也會帶來合規性的難題。陳運文&&,大模型訓練文本選擇如果有偏向性,經過訓練的大模型也會産生不同的“三觀”,給出帶有偏向性的結論。據了解,曹植大模型採用混合訓練數據的方案,即包括50%高質量的各行各業混合語料和50%垂直專用語料,能兼容大模型的通用基座能力和垂直行業的專業能力。

  “在大模型的文本訓練中,論文、報告、新聞、書籍等各類文檔資料是主要的訓練數據。”陳運文認為,高質量的數據將會成為最核心的競爭力。

  無論是數據獲取還是模型訓練,人才都會成為高質量大模型發展的主要競爭力。“我們很期待能在外灘大會的科創人才招聘會上尋覓到優質的數據技術人才。”陳運文&&,達觀數據作為中國智能文本處理領軍企業,也將參加本屆外灘大會的科技人才招聘會,屆時將開放多個科技人才崗位的招募,包括自然語言處理、文本智能處理以及目前大熱的大模型領域等相關技術與研發人才。

  

[責任編輯: 佘靈]
掃一掃

掃一掃,分享手機新華網上海頻道

Copyright © 2000- XINHUANET.com All Rights Reserved.

製作單位:新華網上海頻道 版權所有:新華網上海頻道