中研院语言模型出包事件后:台湾能够建立自己的繁体中文模型吗?我们还欠缺什么?

内容

文:袁如陵(伦敦大学智财管理硕士、台湾大学植病所硕士,台湾专利师,曾任上市医材公司法务主管、英国顾问公司产业分析师、科技业专利工程师)

随着人工智能(AI)技术的快速发展,以及各项应用的快速导入,各国科技巨头、AI新创无不砸下重金,致力于打造最先进的大型语言模型(Large Language Model,LLM)。而台湾也有多个团队正在打造AI模型,目前已有成果的就包括:

国科会:「TAIDE」模型

联发科:「BreeXe」及「BLOOM-zh」模型

台智云:「福尔摩沙大模型」

群创光电:「白龙」模型

台大资工系博士生林彦廷:「Taiwan-LLM」模型

这些模型都是主打以繁体中文语料进行训练,以能产生流利的繁体中文对话为目标,并强化台湾的人文、地理、历史和风俗习惯等知识,以方便台湾人直接使用,或是满足本土企业的生产力需求。

总结
随着人工智能(AI)技术的迅速发展,各国科技巨头和新创公司纷纷投入巨资,致力于开发大型语言模型(LLM)。台湾也有多个团队在打造AI模型,包括国科会的“TAIDE”模型、联发科的“BreeXe”和“BLOOM-zh”模型等。这些模型以繁体中文为训练目标,旨在提升台湾人文、地理、历史等知识的应用能力。尽管TAIDE在某些功能上超越了OpenAI的GPT 3.5,但仍存在使用非台湾习惯用语的问题,主要是因为其基于开源的Llama-2模型开发,混入了简体中文的训练数据。由于资源限制,台湾的AI模型多依赖国外开源模型,难以完全实现本土化。文章指出,训练数据对AI模型的效能至关重要,台湾在繁体中文内容的稀缺性上或许是未来突破的关键。