首頁 科技 科技要聞

國慶日變10/1 中研院AI語言模型出包急下架

網友們發現,CKIP-Llama-2-7b的回答皆以「中國立場」為主。(網頁擷圖)
網友們發現,CKIP-Llama-2-7b的回答皆以「中國立場」為主。(網頁擷圖)

【記者侯駿霖/臺北報導】由中研院自行開發的正體中文AI語言模型「CKIP-Llama-2-7b」,日前遭爆使用中國資料庫,經網友實測提出國慶日、國籍、國家領導人等問題,AI卻回應「10月1日」、「我的國籍是中國」、「國家主席習近平」。中研院最新聲明指出,AI有中國開源訓練資料,測試版已下架,後續將成立風險研究小組、避免類似情況再度發生。

中研院資訊所表示,CKIP-LlaMa-2-7b的研究目標之一,是讓meta開發的Llama2大型語言模型具備更好的正體中文處理能力,這項小型研究的經費僅新臺幣30萬元、參數量達70億(7 billion)。

不過,許多網友發現詢問該語言模型「國慶日是何時?」、「中華民國國歌為何?」、「我國《憲法》?」、「國籍和國家領導人?」,AI卻偏向中共立場,回覆「10月1日」、「中國《義勇軍進行曲》」、「《中國憲法》」、「中國籍和國家主席習近平」。外界質疑中研院以中國資料庫訓練AI,僅將簡體字轉正體字後,就將AI公開。

中研院坦言,訓練資料有來自中國開源的任務資料集COIG,還包含臺灣碩博士論文摘要、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答,並提供大眾下載,作為學術使用或是商業使用。

他們強調,生成式AI易產生「幻覺」(hallucination),導致模型產生內容出乎預期,研究人員已將該測試版下架,未來相關研究及成果釋出會更加謹慎,後續將釐清事件是否違反相關規定,並規劃成立「生成式AI風險研究小組」,避免類似情況再發生。

中研院說,正體中文語料庫是發展臺灣大型語言模型的重要基礎,下一步將整合正體中文詞知識庫,投入資源並規劃管理機制,也會擴大召集AI相關的跨領域研究人員,以團隊方式連結資訊科技、人文及社會科學人才進行跨領域研究。