让沟通无界限 “飞轮”驱动全球智能对话
2025-08-01
新华丝路北京8月1日电(刘婉秋)来自老挝万象的商人通罗·赛亚冯第一次尝试用手机向远在俄罗斯的潜在客户清晰介绍他的手工纺织品时,感到前所未有的兴奋。“以前我的手工围巾只能卖给游客,现在通过手机App,海外客户听到我用老挝语讲述编织故事时,竟能听懂并感动落泪!它让世界听见了我们的文化。”他满脸自豪地说。
过去,语言障碍像一堵高墙,让赛亚冯这样的小企业主难以真正融入全球市场。如今,借助一款集成了多语言AI能力的商务应用,他可以随时在线进行流畅的产品介绍和业务交流。这款应用背后,是海天瑞声打造的“一带一路”数据飞轮智能体,它悄然改变着全球无数用户跨越语言交流的方式。
“一带一路”百国多语种高质量语料库(海天瑞声供图)
为AI“出海”破解千言万语的迷局
不同国家地区的人种在人脸特征、语言表达、行为习惯、图文书写等方面都存在着差异。对于AI企业而言,“出海”首要解决产品与当地目标受众群体的互动问题,即AI能否实现“听音识人”“看脸识人”“识文断字”等功能。
全世界约有7000多种语言,被高频使用的语言有10多种,尽管不少智能翻译设备的在线和离线翻译效果已经达到专业水平,但是小语种存在语言研究不充分、训练数据稀缺、应用场景复杂多样等问题。AI多语种系统的构建与研发面临挑战,小语种在语音识别、语音合成等多项技术的融合上也是困难重重。
“一带一路”数据飞轮智能体及语料在2024世界人工智能大会上发布(海天瑞声供图)
能够清晰而准确地与不同国家和地区用户进行“交流”,是AI应用打开海外市场的第一步。面对“语种多、小语种研究不足”等行业问题,海天瑞声研发的多语种数据产品和服务,延伸至智能语音、计算机视觉、自然语言处理等领域,语音数据库储备已突破1100个,语言覆盖能力扩展至全球205种语言及方言,自建的发音词典体系达到了1400多种语言。
创建安全高效的“数据引擎”
加强国产AI算力突破及智算中心建设,引导企业通过在数据领域积极作为,探索大模型应用场景,对推动国内制造业等产业转型升级意义重大。
“海天瑞声专注于人工智能及大模型数据,以及数据要素相关业务的研发、开拓。”海天瑞声CTO黄宇凯说,依托100%自主研发的国产化技术体系、生产体系,海天瑞声开发“一带一路”数据飞轮智能体,采用本地化部署与领域增强技术,内置多语言大模型及自动化RAG引擎,30分钟即可接入系统,整合基建、贸易、金融等行业多语种知识库,确保跨境合作数据精准决策。
目前,数据飞轮智能体为数据采集、转写、发音词典制作等本地化项目服务提供技术支撑,已在数字政企、智慧医疗、智能制造多种行业应用场景中实现“开箱即用”,使大模型应用成本显著下降。
“一带一路”数据飞轮智能体交互界面(海天瑞声供图)
打造AI普惠及技术平权的基础设施
截至目前,海天瑞声已助力200余家中国AI企业实现产品“出海”,为华为、阿里巴巴、腾讯、百度、字节跳动、小米、科大讯飞、中国科学院、中国科学技术大学、浦江国家实验室等众多中国头部AI科技公司、科研机构在以东欧语系为主的语音识别、语音合成、自然语言处理、机器翻译、手写体及OCR识别等AI技术方向的发展中起到了重要的支撑作用。海天瑞声还助力AI产品实现本地化调整,与上合组织成员国的合作伙伴一同推进智能产业分析、训练和应用,共同推动AI应用于经济、社会、文化等领域的可持续发展中。
“我们与印度企业和俄罗斯企业的语言语料合作项目,为该区域的AI开发者和企业提供了包括语音数据采集、语音识别、语音合成等业务。”海天瑞声工作人员介绍说,公司在欧洲地区组建了一支本地化团队,覆盖数据交付、营销等主要业务方向,辐射多个国家和地区,并与“中国本土研发+技术支持团队”密切协作,形成全方位数据业务能力矩阵。
数据在人工智能中发挥着至关重要的作用,尤其是人工智能大模型的基础设施,关乎人工智能的先进性、准确性、安全性和平等性。海天瑞声“一带一路”数据飞轮智能体是全球人工智能普惠及技术平权的重要基础设施,对实现共同繁荣具有重要意义。未来,将继续探索利智能化能力搭建包容、开放、多样的网络文化交流平台与机制。
来源:新华丝路网