📚 其他·5,194 字

人宠交流-科幻还是科学

人宠交流:科幻还是科学?

2022年,全球数亿网友在TikTok上见证了奇迹。牧羊犬Bunny通过踩下彩色按钮,拼凑出了“我是谁”这样的哲学命题。那一刻,资本疯狂涌入,AIC(增强种间交流)赛道瞬间点燃,所有人都在梦幻般地期待着宠物的“语言觉醒”。

然而,2025年,科学证明那可能只是价值30美元的塑料片拼凑出的“聪明汉斯效应”。2026年,人宠交流赛道可能成为新一轮“资本宠儿”,但行业叙事已经变化,“物种解码器”正借由大模型与多模态AI重新崛起。

一、从“网红狗”到科学困境:按钮交流的兴衰

1. 赛道逻辑

以网红牧羊犬Bunny为代表,增强种间交流设备在2020—2022年间迅速走红。FluentPet等公司凭借“赋予宠物语言能力”的叙事,年营收一度冲破330万美元。

该赛道的核心假设是宠物具备复杂思维,仅因发声器官受限而无法表达。通过建立“按键=发声”的映射关系,人类试图为宠物构建一套模拟语言系统。

2. 认知与硬件的“错位”

2025年两份关键研究的出炉,揭示了该行业“理想丰满、硬件骨感”的困境。

好消息是,加州大学圣地亚哥分校研究发现狗确实有交流意图

加州大学圣地亚哥分校通过对152只狗、数十万次按键记录分析发现,狗并非随机踩踏。它们能将“水”与“外面”组合表达特定需求,并能与主人进行初步的“轮流互动”。表明宠物具备利用工具进行逻辑表达的智力基础。

坏消息是,布达佩斯罗兰大学研究发现按钮音质太差,狗根本听不懂

就在行业欢呼时,2025年4月,布达佩斯罗兰大学的一项研究给硬件厂商泼了一盆冷水。他们测试了狗对不同声音来源的反应,发现了一个惊人的物理缺陷。

研究发现,由于商用AIC按钮音质严重失真,狗很难分清“散步”与“吃饭”的语音差异。许多看似神奇的交互实则是“聪明汉斯效应”——狗并非听懂了单词,而是记住了按钮的空间位置,如左上角那块塑料片=有饭吃。

声音来源狗的听从准确率原因分析
真人现场说话~100%包含完整的声音细节和情感,狗完全能懂。
手机高保真录音~70%声音还算清晰,狗能勉强识别。
AIC按钮发声~30%灾难级表现。现有按钮的扬声器太廉价,切掉了狗识别语音所需的高频信号。

3. 市场反思

硬件缺陷直接引发了市场降温。Reddit等社媒上,用户对“高难度训练、低反馈效果”的抱怨激增,FluentPet等领头羊被迫下架低端线,转向高保真产品。

行业认知出现拐点,AIC按钮这类强迫宠物适应人类的语言工具存在天然瓶颈。既然让狗“说人话”成本过高,那么“听懂狗话”,利用多模态AI直接识别宠物的肢体语言和吠叫,正成为2026年投资的新风向。

二、被动式AI解码:从生物声学到大模型翻译

当AIC设备深陷拟人化泥潭时,计算生物声学(Computational Bioacoustics)正利用大模型范式重构底层逻辑。这是一种利用机器学习算法分析生物声音和运动数据的技术,其核心理念不再是强迫动物学习人类的符号系统,而是利用AI去解码动物原本的沟通方式。

1. 地球物种项目(Earth Species Project, ESP)

在这个领域,总部位于加州的非营利组织Earth Species Project(ESP)扮演了灯塔的角色,其核心路径不再是改变动物,而是通过自监督学习“解码”自然信号。

2024至2025年间,ESP相继发布了BEANS(生物声学分类基准)与BEBE(动物行为基准数据集),为该领域确立了首个全球公认的标准体系。其中,BEBE涵盖了9个分类群、1654小时的生物记录数据,解决了长期以来数据碎片化的瓶颈。更具突破性的是其AVES模型,这是首个基于自监督学习和Transformer架构的动物鸣叫编码器,证明了在人类语音上预训练的AI模型具备跨域迁移能力,能精准提取动物发声中的复杂结构特征,这为跨物种翻译提供了底层算法支撑。

2. 2025年的解码里程碑

在强大的模型支持下,2025年见证了多个具体的解码突破,这些案例不再是实验室的理论推导,而是真实的野外发现。

一是小嘴乌鸦(Carrion Crows)的低声细语。ESP与西班牙莱昂大学合作,通过微型生物记录仪收集了这一物种超过12.7万条发声数据。这些记录仪捕捉到了大量以往在远处录音时被忽略的、仅在家族成员间近距离交流时发出的低声细语(murmurs),揭示了鸟类社会极为精细的“家庭语言图谱”。

二是斑胸草雀(Zebra Finch)的“生成式对话”实验。ESP与麦吉尔大学合作,利用生成式AI合成了斑胸草雀的叫声。在2025年的实验中,研究人员向鸟类播放这些AI生成的叫声,观察它们的反应。初步结果显示,鸟类对AI生成的特定叫声做出了自然的社交回应。

三是白鲸的社交网络。在魁北克圣劳伦斯河口,研究人员利用机器学习处理了数千小时的白鲸录音。AI成功识别并聚类了白鲸的接触叫声,特别是母鲸呼唤幼鲸的特定信号。

3. 从科研到商业的技术外溢

ESP的研究虽然是非营利性质,但它证明了利用AI理解非人类信号的可行性。BEANS和BEBE等开源工具降低了技术门槛,使得商业公司能够基于类似的技术架构开发面向消费者的产品。这就是2025年“宠物情感翻译器”从伪科学玩具转变为高科技硬件的技术背景。

三、独角兽的崛起:Traini与AI项圈的商业化

如果说ESP代表了科学探索的上限,那么硅谷创业公司Traini则代表了商业资本的嗅觉。2025年12月29日,Traini宣布完成750万美元的A轮融资,这一事件成为了人宠交流赛道重新资本化的里程碑。

1. 融资复盘

Traini的A轮融资,标志着人宠交流赛道正式进入资本深水区。除Banyan Tree、Silver Capital等一线基金领投外,小米联合创始人洪锋的参投,预示了Traini在智能硬件生态(类小米手环逻辑)的野心;而来自NVIDIA与Anthropic的技术高管加持,则为其多模态大模型的底层能力提供了技术背书。

资本入局的逻辑非常清晰。在寻找生成式AI落地场景的过程中,宠物市场凭借“高频、高粘性、高付费意愿”成为绝佳试验田。这不仅是一个翻译App,更是通往宠物全生命周期数据监测的入口。

2. 核心产品

Traini推出的“认知智能项圈”定义了第二代人宠交流设备。其核心不再依赖单一的语音分类,而是走多模态情感计算路径,通过整合吠叫频率、心率体温、以及加速度计捕捉的体态数据,实时还原宠物的真实状态。

技术底层依托于PEBI系统(Valence-Arousal情绪模型),将复杂的数据流映射到“效价—唤醒”二维坐标系中,精准定位宠物的压力值、兴奋度与舒适感,并利用生成式AI将其转化为自然语言报告。该模型基于900余项动物行为学研究及200万只犬只的脱敏行为数据训练,完成了从猜想到科学推断的阶段式跨越。

3. 竞争格局

当前,宠物科技市场的生态位已明显分化。纯粹的翻译玩具正在失去市场,具备健康监测能力的工具化设备成为主流。

公司/产品核心技术/模式价值主张市场状态/融资
Traini生成式AI + 多模态传感器情感翻译 + 行为解读A轮融资$7.5M,高增长期
FluentPet物理按钮 + 行为塑造主动交流 + 智力开发增长放缓,转型高端硬件
MeowTalk音频分类(机器学习)猫叫声意图识别病毒式App,高下载量
Sylvester.ai计算机视觉 (猫脸识别)疼痛检测获$20K赠款,B端兽医合作
PetPace临床级生物监测癫痫/心脏病监测高端医疗定位 ($599/套)

市场的关注点已从“我的狗在说什么”转移到“我的狗是否有痛感/隐疾”。用户不再愿意为单纯的娱乐付费,但对能够显著降低宠物医疗成本、识别疾病前兆的“功能性翻译”表现出极高的付费门槛。

四、猫的沉默与视觉解码

在人宠交流的讨论中,狗往往占据主导地位,但猫的市场潜力同样巨大,且技术路径截然不同。猫不善于佩戴项圈,针对猫的AI技术更多依赖于非接触式的手段,特别是计算机视觉。

1. Sylvester.ai与临床级疼痛监测

加拿大初创公司Sylvester.ai开发了一款名为Tably的应用程序,它代表了科学派人宠交流的极致。不同于试图解读猫叫声的意图,Tably专注于一个极具临床价值的单一任务:疼痛检测。

其核心逻辑并非解读主观意图,而是基于“猫科动物面部表情量表”(Feline Grimace Scale, FGS)进行临床级建模。AI通过捕捉猫的耳位、眼眶紧缩度、口鼻张力及胡须姿态等微表情,量化其疼痛指数。

2025年,Sylvester.ai获得了CATalyst Council颁发的2万美元赠款,并与法国兽医疼痛管理公司CAPdouleur达成长期合作伙伴关系。这一合作将Tably的技术整合进兽医诊疗流程中,实现了从C端娱乐应用向B端辅助诊疗工具的跨越。这种深耕临床价值的模式,证明了在垂直赛道中,刚需性痛点识别比通用型意图翻译更具商业防御力。

2. MeowTalk的持续进化

在C端市场,由前亚马逊Alexa工程师主导的MeowTalk则展现了另一种生存哲学。它专注于猫科声学数据的机器学习,将复杂的叫声映射为具体意图。由于猫的叫声是“私人定制”给主人的,应用首先通过预设模型识别“饿了、生气、求关注”等11-13种基础意图,随后通过用户手动标注进行强化学习,建立每只猫专属的“词汇表”。

尽管在科学严谨性上稍逊于视觉检测,但MeowTalk凭借App端无感使用这一极低的准入门槛获得了庞大的全球用户群。2025年,其核心壁垒已不再是单一的翻译算法,而是基于数千万次真实交互形成的全球最大规模猫科声学数据库。这种海量数据积累,为其未来向多模态大模型转型、甚至与智能家居硬件联通提供了核心资产,也使其在人宠沟通App领域维持了极高的市场占有率。

五、市场展望与投资逻辑

1. 市场规模

全球宠物科技市场正处于爆发式增长的转折点。根据2025年的最新测算,全球市场规模已达146.1亿美元,并预计以15.5%的复合年增长率在2035年跨越600亿美元大关。

从区域市场来看,北美的存量市场依然占据全球约54%的份额,但其增长已趋于稳健。真正的战略级增量来自于亚太地区,尤其是中国与东南亚,伴随中产阶级的阶梯式增长,这一区域正从“单纯消费”向“科技渗透”加速转型,成为全球宠物大模型应用的最佳实验场与市场博弈焦点。

2. 从好玩到有用的投资逻辑演变

2026年的投资风向标已经非常明确:去伪存真,基于AI,拥抱医疗。

在投资决策中,市场正加速出清那些缺乏底层算法支持的物理交互玩具以及随机生成语句的娱乐化App,因为这类产品缺乏数据闭环,极易被低成本竞品击穿护城河。

相比之下,资本正高度向多模态AI硬件集聚。以Traini为代表的设备通过整合生物识别与生成式AI,将用户需求从简单的情感连接升级为健康资产管理,从而切入千亿级的宠物预防医疗与保险市场。

同时,被动式监测服务正成为另一个极具商业厚度的蓝海领域。这种隐形科技通过将AI视觉与边缘计算融入智能摄像头、智能猫砂盆等家居环境,实现了对宠物排泄、进食及睡眠数据的无感采集。

用户或许会为“听懂狗说话”的瞬间好奇买单,但绝对会为“提前三周发现猫的肾脏隐疾”这种预警能力持续付费。这种从翻译官到数字兽医的角色演进,正是未来五年宠物科技赛道估值溢价的核心支撑。

结语

回到最初的问题:人宠交流,是科幻还是科学?

答案取决于我们对交流的定义。如果我们期待的是像电影那样,与狗进行关于哲学或政治的对话,那么这依然是科幻。但如果我们将其定义为精准地理解对方的需求、情绪和生理状态,那么这已经是确凿无疑的科学。

UCSD的研究告诉我们,狗有强烈的意愿表达需求。

ESP的生物声学模型告诉我们,AI可以听懂原本只有同类才能听懂的微弱信号。

Traini与Sylvester.ai的产品告诉我们,通过多模态数据的融合,我们可以将模糊的直觉转化为量化的健康指标。

对于投资者而言,机会在于抓住那些利用科学技术去实现科幻体验的公司。那个能“让宠物开口说话”的按钮或许只是一个玩具,但那个能读懂宠物每一次心跳的AI,将是下一个百亿美金的生意。

资料来源:Earth Species Project(ESP)官网;Crunchbase资本数据库;Global Market Insights、ResearchNester、Grand View Research、Euromonitor International、Reddit宠物社区、App Store、Google Play应用评价、相关企业官网及融资公告、学术研究机构公开信息及行业媒体公开报道、宠物投研院整理和分析。

全文完

同分类其他文章