发布信息

谷歌推海豚语言模型,华人团队Traini实现人宠语言互译,聊聊AI跨物种交流那些事儿

作者:软荐小编      2025-05-23 10:01:40     162

近期,谷歌发布了名为DolphinGemma的大规模模型,声称该模型能使人类理解海豚的语言,并有望实现人类与海豚在水下进行实时对话。去年6月,一款由华人团队研发的面向全球英文用户的人狗交流应用Traini问世,成为全球首个实现人与宠物语言互译的AI原生应用。AI技术正逐步涉足跨物种交流领域,不断拓展我们对非人类语言理解的范围。

孙邻家,Traini公司的CEO,一位80后的中国籍人士,他的家乡位于吉林长白山。我们与他进行了深入交流,探讨了人工智能新技术的宠物交流领域应用,以及从无到有的发展过程中所面临的种种挑战,同时分享了他在过去三年间作为行业内部人士的亲身感受。

此外,我们亦想探询:人类若暂时脱离语言的核心地位,着手探索与异类生物语言实现平等沟通的可能性,在新鲜感消退之后,AI与跨物种交流对我们究竟有何价值?

AI原生应用,即是以人工智能技术为核心动力进行设计和开发的应用程序,这类应用并非仅仅是将人工智能作为一项附加功能融入现有的系统架构之中。

翻译狗语的准确率超过80%

_翻译器宠物翻译器_最火宠物翻译器

孙邻家,80后,吉林长白山人

高盛最新发布的报告指出,我国宠物数量已首次突破四岁以下婴幼儿的总数。与此同时,根据艾媒咨询的统计,截至2023年,我国宠物经济市场规模已膨胀至5928亿元人民币。

《2025宠物品牌网红营销生态报告》显示,以年轻一代养宠者为代表,他们往往将宠物当作“孩子”或“朋友”来看待,这一现象反映了情感消费和拟人化宠物养育的潮流。

这种需求促使了相关产业的兴起,例如,几年前曾引起广泛争议的宠物灵媒师。他们借助特定物品与宠物进行跨物种的精神沟通,然后将宠物的状况、话语等信息,以人类的语言形式传达给宠物的主人。

在这种背景下,孙邻家等三位华裔科研人员共同研发的Traini,作为全球范围内首发的AI人犬翻译设备,甫一推出便引发了国内外众多网友的浓厚兴趣和广泛关注。

_翻译器宠物翻译器_最火宠物翻译器

海外用户试用Traini

孙邻家在创业阶段进行的一次用户调查中,萌生了开发人工智能人狗交流应用的创意。

2018年,孙邻家抵达美国,着手为当地亚裔群体打造亚洲美食外卖服务,随后逐步延伸服务范围,涉足宠物狗粮配送领域。

在对一份包含2200名用户参与的意见调查中,他发现高达76%的用户对解读自己家中宠物狗的行为表现出浓厚兴趣,而且这部分人群中,很多人为了这个目的还曾投入资金,参加了专门针对狗狗行为矫正的培训课程。

孙邻家至今仍清晰地记得一条留言。那是在一只患癌的狗狗临终之际,它的主人倾诉了自己当时迫切地想要听懂宠物犬的声音,渴望知晓它临终前想要对他说些什么。

他在夏威夷的一家餐馆里邂逅了一位年长的当地人。那老人的爱犬毛发光泽如金,性情平和,鲜少发出叫声,总是带着一双充满好奇的水亮眼睛四处张望。随着时间的流逝,老人渐渐对狗狗的内心世界产生了浓厚的兴趣,他迫切地想要了解,这只狗狗日复一日地凝视四周,究竟在思考着什么。

这让他不禁回想起幼时在吉林长白山家中饲养犬类的往事。那时,他还是个孩子,在他看来,那些小土狗的吠声仿佛在诉说着什么,“从个人的立场来看,与狗进行交流,也是为了实现儿时与狗狗对话的美好愿望”。

_最火宠物翻译器_翻译器宠物翻译器

Traini的应用界面

历经两年的精心研发,Traini终于问世。用户可以上传自家的宠物狗的音频、图像以及视频资料,从而了解到狗狗所展现出的快乐、恐惧等12种情绪及其细微的行为变化,并获取一段将人类语音与文字结合的富有同理心的口语化翻译内容。

孙邻家向我们介绍,狗狗的交流方式有两种,分别是心智语言和社会语言。心智语言主要源自遗传,其含义可以直接解读;而社会语言则类似于人类儿童时期学习语言的过程,它与狗狗所接受的教育水平紧密相连。

此外,犬种的不同也会产生影响,以边牧为例,它们可能学习速度更快,词汇量也会更为丰富。

借助动物行为学家的协作以及模型训练过程中的多轮验证,本模型在将宠物犬的行为转化为人类语言方面的精确度已提升至81.5%。

在将人类的言语转化为狗吠时,人们能够将诸如“瞧我”、“咱们同行”等共计18个简短的表达转换成狗叫声,而不同宠物犬对此的反应强度各异。

在国内社交平台上,一些爱宠物的人士也对自家的宠物进行了类似的实验。他们中有人风趣地调侃道:“看来是没给它报名英语课程吧,怎么连话都听不懂了。”

孙邻家这样解释道,狗狗其实是有自己独特的“语言”。换句话说,对于这个主要面向英语用户设计的AI原生应用来说,它可能根本无法理解中国狗的叫声。

当然,还有一种情形,可能是狗狗明白了指令,却选择了不执行。这就像一个正在玩电子游戏的小孩,你告诉他别玩了,去写作业,孩子听明白了,可他就是不愿意去。

从0到1的模型突破,最难在模拟情感

翻译器宠物翻译器__最火宠物翻译器

孙邻家参加的是国际消费类电子产品展览会,简称CES,该展会被誉为全球科技创新和消费电子行业的“风向标”。

大约在20年前,人们便开始尝试运用机器学习技术,探索人宠之间的交流方式,这一领域的研究已初见端倪。

在那时,日本的一位声学领域的专家铃木松美,通过搜集了超过5000份来自东京某宠物医院的狗叫声样本,他根据这些声音的音调、持续时长等特性,成功解析出了其中的情感,进而创造了一种可以单方面解读家犬情绪的“宠物犬翻译器”。

现在,伴随着人工智能技术的持续进步,AI与宠物之间的互动交流正逐渐崭露头角,成为一项新的研究领域。孙邻家有幸成为了这一领域的先行者。

2022年,OpenAI推出了GPT,这一大型语言模型(LLM)正式亮相于公众面前。该模型基于Transformer架构,属于深度学习领域,通过自监督学习的方式,从海量的文本数据中提取语言规律。它能够生成符合人类语用习惯的文本,并且具备翻译、对话、推理等多种功能。经过一年的发展,GPT成功实现了对文本、图像以及音频的多模态处理功能,此举使得LLM的应用范围得到了进一步的拓宽。

孙邻家通过LLM认识到了人类与宠物之间技术交流的潜力——“我认为应当采用这种模式来满足用户需求,然而在动物领域,几乎无人涉足,至于专门研究宠物的,更是寥寥无几”。

_翻译器宠物翻译器_最火宠物翻译器

孙邻家(位于右侧)及其合作伙伴Jason(位于左侧)在美籍华人科技团体——华源科技协会(HYSTA)的年度盛会上,Traini于2024年荣获该组织颁发的最受欢迎奖项——观众选择奖。

在2023年,孙邻家于硅谷的一场创业活动中邂逅了现在的公司人工智能部门主管及合伙人Jason。此君过往在OpenAI供职,担任过华人工程师一职。

考虑到在先前任职的公司中,几次产品开发经历并未达到预期效果,再加上他与众多宠物爱好者一样,对将宠物行为和情感通过AI技术具象化并转化为人类语言的新方法产生了浓厚兴趣,Jason最终决定加入这个团队。

目前,该团队自主研制的一款宠物行为理解与情感共鸣模型,已被正式命名为“宠物情绪与行为智能系统(PEBI)”。

简言之,这就像是对其他AI模型进行训练,将来自不同品种、不同地域的狗狗的语音、表情以及行为等多方面的数据输入到PEBI中,经过训练后,模型便能够解读狗的语言了。

科学家们通过分析犬类行为来解读它们的情绪和意图,而PEBI模型则更进一步,能够利用现有数据库来预测宠物犬即将发生的情绪波动。一旦这一预测得以实现,那么在人与宠物之间的情感共鸣和互动体验上,将得到显著提升。

从同理心的视角来看,将宠物犬的行为转化为人类语言的过程中,我们不仅要力求意思的准确传达,还需最大限度地展现人与宠物犬之间那份深厚且独特的情感纽带,而这,自项目研发之初便始终是最大的挑战所在。

狗狗在养宠人士的心中往往被视作孩子的化身,它们各自拥有独特的个性,无可复制。若要模仿与“毛孩子”交流的方式,就必须模仿孩子说话的语气和用语,以此来增强角色代入的体验。

为此,孙邻家及其团队在声音克隆过程中,先后进行了机器语音合成、个人及合作伙伴的试录等多种尝试,然而,无论是声音的质感还是说话的语气,均未能达到预期的理想状态。直至在一次会议中,一位合伙人的儿子不经意间开口,他们的目光瞬间被吸引,仿佛找到了理想的声音。基于孩子所录制的语音素材,他们终于确定了初步的口吻和音调。

最火宠物翻译器_翻译器宠物翻译器_

Traini还能看懂狗狗的面部表情、身体行为等语言

污言秽语亦成为衡量情感共感的标准之一。当狗狗感到不快时,它是否能够使用脏话来表达自己的情绪?

孙邻家认为,鉴于狗狗已被视作与人类无异的家庭成员,尽管它们无法真正运用人类语言,但在把它们的愤怒转化为言语时,或许可以尝试进行语义的拓宽,适当地融入一些人在情绪激动时可能会说的粗话。

人在情绪激动之时,有时也会说出类似的话语,这样的表达方式更能反映我们真实的生活状态。

此外,如何搜集更多种类和数量的数据,以及进行数据标注,成为实现人宠沟通的又一重要挑战。数据样本若不充足,将影响翻译的精确性。Traini的数据主要来源于应用平台的用户社群,涵盖了120种不同的狗类品种。

不仅品种多样,宠物狗在地域分布以及与人交流互动的能力等方面也存在显著差异,这些因素共同影响着它们行为和情绪表达的丰富性。因此,即使是同一品种的宠物犬,其行为表现也可能有所区别,若仅依据单一因素进行解读,所得结论可能存在偏差。

目前,Traini的PEBI模型所收集的宠物狗数据主要来源于北美及欧洲等主要用户群体所上传的宠物资料,但在地域分布和品种多样性方面尚显不足,翻译的精确性仍有待进一步提高。

当人类暂时离开语言中心

最火宠物翻译器_翻译器宠物翻译器_

大西洋斑纹海豚群,图片来源:Google Blog

相较于2022年伊始对人与宠物交流领域的初步尝试,孙邻家明显察觉到周围环境产生了显著的不同。

一开始,人们常向他咨询,市场对于宠物行为方面的认知是否存在需求,然而现在,人们的反应变得更为热烈——“他们会惊叹,哇,你们真是太厉害了,还能做什么呢?甚至能模仿猫的行为吗?”

今年五月初期,我国国家知识产权局对外披露了百度公司的一项关于动物语言转译的专利。这项技术的研究方法与Traini的实验相仿,它采用了大型模型和多模态等人工智能领域的先进技术,通过对动物的声音、面部表情以及行为等数据进行深入分析,以识别它们的情绪和情感状态,并将这些信息转化为人类能够理解的语言。

在更为广泛的AI与跨物种沟通范畴内,特别是在动物福利和饲养环节,利用人工智能翻译技术来解读猪和绵羊的情绪状态及所处环境的研究成果,已经在国际舞台上崭露头角。

翻译器宠物翻译器_最火宠物翻译器_

DolphinGemma能够将海豚特有的叫声转换成可视化的图像,该图片来源于谷歌博客。

近些年,越来越多的科研工作者开始将人工智能技术应用于野生动物领域,旨在拓展对动物行为认知的新领域,同时为动物保护与生态恢复开辟新的方法。

在今年的“世界海豚日”之际,谷歌发布了一款名为“DolphinGemma”的人工智能大型模型,该模型预计将在夏季向公众开放源代码。据悉,这款模型有望实现与海豚在水下进行实时对话,并且能够预判它们接下来的发声。

值得特别指出的是,尽管DolphinGemma整合了长达30年的海豚研究资料,其体积却仅有400M,便于在手机上应用,这样的特性无疑为科研工作者进行探究提供了极大的便利。

_最火宠物翻译器_翻译器宠物翻译器

海洋中的抹香鲸,图片来源:Project CETI官网

与此同时,一支由全球科学家组成的队伍正在推进一项名为“鲸语翻译计划”的研究项目,该计划得到了《国家地理》杂志的赞助与支持。

在项目的研究中,将运用人工智能分支的自然语言处理技术(NLP)对抹香鲸的四十亿个交流信号进行解析,以期解码它们的对话信息。展望未来,研究团队打算研制并投入使用一种能够与野生抹香鲸进行交流的智能聊天机器人。

在《听不见的大自然》这部作品中,作者凯伦·巴克,同时也是牛津大学环境地理学博士,探讨了利用人工智能技术模拟出健康珊瑚礁的声音,以此吸引珊瑚幼虫,进而实现修复珊瑚礁的设想。

书中指出,得益于生物声学、人工智能以及众多数字技术的飞速发展,人类如今能够辨识并理解越来越多的“非人声”,并构建起动物语言的资料库,未来或许真的会出现“动物界的谷歌翻译”。

在与美国科技媒体Recode的交流过程中,凯伦·巴克这样阐述了她为何致力于实现不同物种间的交流。

科学体系与公共话语领域尚存人类例外论的余音,我们渴望坚信人类在特定领域具有独特性……或许随着我们对非人类语言的深入解析,我们将对语言的概念拥有更为宽广的诠释。

相关内容 查看全部