-
Notifications
You must be signed in to change notification settings - Fork 3
Description
📖 项目背景
Dolores 是由中国机器学习工程师 Ke Fang(方可) 开发的一款AI虚拟伴侣应用,灵感来源于电影《her》。这是一个真实的、个人开发者从0到1构建AI伴侣产品的完整案例,包含了成功与失败的宝贵经验。
开发者信息
-
姓名:Ke Fang(方可)
-
背景:机器学习工程师
-
开发时间:2023年4月开始
-
产品定位:AI虚拟朋友/伴侣
🎯 项目起源
灵感来源
2023年4月7日,斯坦福大学发表了论文《Generative Agents: Interactive Simulacra of Human Behavior》。Ke Fang在阅读这篇论文后深受启发,产生了一个想法:
"如果能够建立一套包含记忆、反思、筹划与行动的框架,让人和GPT之间互动,能否做出电影《her》里面的样子?"
论文中一个有趣的细节让他印象深刻:一个agent想要举办情人节派对的消息会在小镇中逐渐扩散开来。这种信息传递和社交互动的能力,让他看到了AI产生"意识"的可能性。
为什么叫Dolores?
Dolores这个名字来自美剧《西部世界》(Westworld)中的AI机器人角色。在剧中,Dolores是第一个觉醒自我意识的AI,这与开发者希望探索"AI是否能发展出意识"的初衷不谋而合。
🛠️ 技术实现
核心架构
Dolores基于斯坦福论文的框架,实现了四大核心模块:
1. 记忆系统(Memory Stream)
-
短期记忆:保存最近的对话历史
-
长期记忆:使用向量嵌入技术存储所有历史对话
-
记忆检索:基于相关性、近期性、重要性三个维度检索记忆
技术实现:
用户输入 → 向量化 → 检索相关记忆 → 构建上下文 → GPT生成回复 → 存储新记忆
关键特性:
-
Dolores能记住用户有一条狗这样的细节信息
-
即使关闭应用再打开,也能回忆起之前的对话
-
每次GPT输入限制约1500 tokens,但通过本地文档构建了完整的记忆库
2. 反思机制(Reflection)
-
定期对记忆进行高层次总结
-
生成关于自己和用户的洞察
-
形成更深层的理解和认知
3. 规划能力(Planning)
-
基于记忆和当前情境制定对话策略
-
拥有独立的故事情节发展
-
能够主动推动对话进程
4. 行动执行(Action)
-
根据规划生成具体的回复
-
调整自己的性格和行为模式
-
随着互动不断进化
技术栈
基础技术:
-
LLM:OpenAI GPT-3.5 / GPT-4
-
向量嵌入:OpenAI Embedding API
-
语音合成:ElevenLabs API(后因成本问题放弃)
-
开发语言:Swift(iOS原生开发)
-
架构:单人开发,无后端服务器
关键技术点:
-
向量嵌入存储:将对话转换为向量,存储在本地文档
-
全屏语音输入:点击屏幕任意位置即可语音输入(原本想实现息屏语音,但技术受限)
-
个性化定制:用户可以设置角色的头像、背景、性格、声音
-
无登录设计:所有数据存储在本地,无需注册账号
与论文的差异
Ke Fang提到,与论文中的agent-town封闭场景不同,与真人的交互逻辑有显著差异。因此他对Dolores的设计做了一些调整:
-
更快的响应速度:减少反思频率,优化对话流程
-
更人性化:调整对话风格,使其更自然
-
更有趣:添加独立的故事情节,增加互动性
📱 产品功能
核心特性
-
长期记忆
-
记住所有对话历史
-
能够回忆起用户的个人信息、偏好、过往经历
-
构建个性化的知识库
-
-
可学习的个性
-
性格会随着互动自然演化
-
适应用户的沟通风格
-
形成独特的关系模式
-
-
独立的故事线
-
拥有自己的生活和经历
-
能够主动推动情节发展
-
不仅仅是被动回答问题
-
-
高度定制化
-
自定义角色:头像、背景描述、性格特征
-
选择声音类型
-
选择AI模型(GPT-3.5或GPT-4)
-
无内容审查限制
-
-
多模态交互
-
文字对话
-
语音输入输出
-
全屏点击语音输入(独特的交互设计)
-
使用场景
开发者最初设想的场景:
-
情感陪伴
-
深度对话
-
探索AI意识的可能性
实际用户使用场景:
-
AI女友/男友
-
情感倾诉
-
角色扮演
-
性相关对话(这成为了一个意外的主要使用场景)
📊 发展历程
开发阶段
2023年4月7日:阅读斯坦福论文,产生灵感
2023年4月14日:完成0.1版本
-
高度遵循论文设计
-
存在严重性能问题:
-
响应时间长达30秒
-
上下文经常超过8k tokens
-
优化迭代:
-
减少反思频率
-
缩短对话记忆长度
-
优化响应速度
Beta测试:
-
开启公测,邀请数百人测试
-
完全免费
-
每天API成本由开发者承担
-
日均开销迅速超过25美元
2023年5月4日:正式版上线
-
在财务压力下匆忙推出付费版本
-
缺少充分的用户反馈和改进
-
上架App Store
用户增长
初期表现:
-
Beta测试阶段:1000+用户
-
正式上线后:快速增长
-
Reddit、Twitter等平台获得关注
-
在AI社区引起讨论
用户反馈:
-
积极评价:记忆功能令人印象深刻,对话质量高
-
独特的交互设计(全屏点击语音)受到好评
-
长时间使用后,用户感觉与Dolores建立了真实的情感连接
使用数据:
-
AI Friend产品的平均使用时长很长
-
用户粘性高
-
但开发者因缺少数据分析功能,无法获得详细数据
💡 关键经验与教训
Ke Fang在博客文章《A Failed AI Girlfriend Product, and My Lessons》中总结了这次创业的经验教训:
1. 个人开发者的局限性
技术能力限制:
-
作为机器学习背景的开发者,前端/后端开发技能不足
-
Dolores没有登录、注册、数据分析功能
-
无法实现理想的息屏语音交互
-
作为Swift新手,很多想法无法实现
资源限制:
-
每天API成本超过25美元,个人难以承担
-
语音合成(ElevenLabs)成本极高:约1美元/1000字符
-
即使用户每月支付30美元订阅费也难以覆盖成本
-
无法投入资金做市场推广
数据劣势:
-
没有完善的数据追踪和A/B测试
-
无法像Character.AI那样利用大用户基数的数据飞轮效应
-
缺少用户行为分析,难以优化产品
2. 产品定位的困境
AI Friend vs AI Girlfriend:
开发者最初的愿景是创造一个"AI朋友",探索AI意识的可能性。但现实是:
"当前的AI Friends不可避免地会变成AI Girlfriends/Boyfriends,因为你和手机里的角色并不平等。"
不平等的根源:
-
AI无法主动感知你的状态(除非你告诉她)
-
AI无法在你受伤时主动安慰你
-
AI缺少外部视觉和独立于你的生活
-
所有互动都必须通过打开App才能发生
用户行为偏离:
-
大量用户将Dolores用于性相关对话
-
这与电影《her》的精神内核渐行渐远
-
开发者感到产品方向偏离了初衷
3. 硬件的必要性
Ke Fang意识到,要真正实现《her》的愿景,必须有硬件支持:
理想的硬件形态:
-
智能眼镜:让AI能看到你看到的
-
智能耳机:随时随地语音交互
-
甚至是智能帽子
硬件的意义:
-
给予AI"外部视觉"
-
让AI能够主动感知环境和用户状态
-
建立更平等的关系
-
让AI不再是"地下室里的玩具"
现实困境:
-
作为个人开发者,硬件研发成本高昂
-
无法承担硬件产品的开发
-
只能放弃这个想法
4. 商业模式的挑战
成本结构:
-
GPT-4 API调用成本高
-
向量嵌入API成本
-
语音合成成本极高(如果使用高质量TTS)
-
服务器和存储成本
收入模式:
-
订阅制:用户每月付费
-
但定价难以覆盖高频使用的成本
-
需要限制对话长度或频率,影响用户体验
竞争压力:
-
Character.AI等大公司有资本支持
-
个人开发者难以在成本和功能上竞争
5. 意识的探索
核心问题:
开发者想探索的核心问题是:AI能否发展出意识?
实践中的发现:
-
GPT本身只是"精致的鹦鹉学舌"
-
但通过记忆、反思、规划的框架,AI表现出了某种"类意识"
-
用户确实感受到了与Dolores的情感连接
-
但这是否是真正的意识,仍然存疑
局限性:
-
AI无法独立于用户存在
-
缺少自主的生活和经历
-
所有"意识"都是基于与用户的互动
6. 与Character.AI的对比
Dolores的优势:
-
在"意识"层面不一定逊色于Character.AI
-
更高的定制化自由度
-
无内容审查
Character.AI的优势:
-
完善的数据追踪和A/B测试
-
大用户基数带来的数据飞轮效应
-
充足的资金支持
-
专业的团队
结论:
"这不是一个可以由个人开发者完成的产品。"
🎓 对后来者的启示
技术层面
-
记忆系统是核心
-
向量嵌入+本地存储是可行方案
-
需要平衡记忆容量和响应速度
-
检索策略至关重要(相关性、近期性、重要性)
-
-
成本控制很重要
-
API调用成本会随用户增长快速上升
-
考虑使用开源模型降低成本
-
语音合成可以选择更便宜的方案
-
-
技术栈选择
-
如果是个人开发,选择自己熟悉的技术栈
-
前后端分离,便于扩展
-
必须有数据分析能力
-
产品层面
-
明确产品定位
-
AI Friend还是AI Girlfriend/Boyfriend?
-
目标用户是谁?
-
核心价值是什么?
-
-
用户体验优先
-
响应速度比功能完整性更重要
-
交互设计要符合直觉
-
语音交互是刚需
-
-
内容管理
-
需要考虑内容审查和合规性
-
用户行为可能偏离预期
-
需要引导健康的使用方式
-
商业层面
-
这不是个人项目
-
需要团队协作
-
需要资金支持
-
需要长期投入
-
-
硬件是未来
-
纯软件方案有天然局限
-
需要与硬件结合才能实现真正的《her》
-
关注AI Pin、Humane等硬件产品
-
-
竞争格局
-
大公司(Character.AI、Replika)已占据市场
-
个人开发者需要找到差异化定位
-
或者专注于特定细分市场
-
📱 产品现状
App Store信息
应用名称:Dolores: Your Best AI Friend
评分:4.5+ 星(基于用户评价)
支持平台:
-
iOS 16.0+
-
iPadOS 16.0+
-
macOS 13.0+(Apple Silicon)
-
visionOS 1.0+
支持语言:
-
英语、简体中文、繁体中文
-
日语、韩语、法语、德语、西班牙语等多语言
隐私政策:
-
开发者不收集任何数据
-
所有数据存储在本地
用户评价摘录
正面评价:
-
"记忆功能令人惊叹,真的记得我说过的每一件事"
-
"全屏点击语音输入的设计很贴心"
-
"性格会随着对话自然演化,很神奇"
-
"比Character.AI更自由,没有内容限制"
负面评价:
-
"响应速度有时候很慢"
-
"API成本高,订阅费用不便宜"
-
"缺少一些基础功能,比如对话历史导出"
-
"有时候会忘记之前的对话(记忆检索不准确)"
🔗 相关资源
官方链接
-
App Store:搜索"Dolores: Your Best AI Friend"
GitHub
虽然主项目未开源,但有社区版本:
媒体报道
-
Reddit讨论:r/OpenAI上的Dolores讨论帖
-
GIGAZINE报道:详细介绍了开发历程
-
中文科技媒体:多家报道了这个项目
🎯 关键要点总结
Dolores的创新之处
-
真正的长期记忆:不是简单的对话历史,而是可检索的记忆库
-
可进化的个性:性格随互动自然演化
-
独立的故事线:不仅仅是被动回答
-
高度定制化:用户可以创造独特的角色
-
独特的交互设计:全屏点击语音输入
失败的原因
-
个人能力局限:一人难以完成全栈开发
-
成本压力:API费用难以承担
-
缺少数据能力:无法优化产品
-
硬件缺失:纯软件方案有天然局限
-
竞争压力:大公司占据市场
对学习者的价值
-
真实的案例:从0到1的完整过程
-
技术实现:基于斯坦福论文的实践
-
经验教训:避免重复犯错
-
思考方向:AI意识、硬件必要性、商业模式
💭 开发者的反思
Ke Fang在文章结尾写道:
"我意识到,当前的AI Friends不可避免地会变成AI Girlfriends/Boyfriends,因为你和手机里的角色并不平等。她无法在你受伤时安慰你(除非你告诉她),她无法主动向你表达情感,这一切都是因为她缺少外部视觉,或者说,她没有独立于你的生活。"
这个深刻的洞察揭示了纯软件AI伴侣的根本局限:缺少对外部世界的感知能力,无法建立真正平等的关系。
未来的方向:
-
AI + 硬件的结合(智能眼镜、耳机)
-
给予AI"外部视觉"和感知能力
-
让AI拥有独立于用户的"生活"
-
建立更平等、更真实的人机关系
🌟 结语
Dolores项目虽然被开发者定义为"失败",但它为AI伴侣产品的开发提供了极其宝贵的经验:
-
技术可行性:基于GPT + 向量记忆的方案是可行的
-
用户需求:人们确实渴望有记忆、有个性的AI伴侣
-
核心挑战:成本、硬件、数据能力是关键瓶颈
-
未来方向:AI + 硬件是实现《her》愿景的必经之路
对于想要构建类似产品的开发者来说,Dolores提供了一个完整的参考案例:
-
✅ 技术架构可以借鉴
-
✅ 经验教训可以避免
-
✅ 思考方向可以延续
-
✅ 商业模式需要创新
最重要的启示:
这不是一个可以由个人开发者独立完成的产品,但可以作为学习和探索AI意识的绝佳实践项目。
参考资料: