Thanks to visit codestin.com
Credit goes to github.com

Skip to content

Dolores项目详解:中国开发者的《her》实现案例 #139

@QiYongchuan

Description

@QiYongchuan

📖 项目背景

Dolores 是由中国机器学习工程师 Ke Fang(方可) 开发的一款AI虚拟伴侣应用,灵感来源于电影《her》。这是一个真实的、个人开发者从0到1构建AI伴侣产品的完整案例,包含了成功与失败的宝贵经验。

开发者信息

  • 姓名:Ke Fang(方可)

  • 背景:机器学习工程师

  • 博客https://mazzzystar.github.io/

  • 开发时间:2023年4月开始

  • 产品定位:AI虚拟朋友/伴侣

🎯 项目起源

灵感来源

2023年4月7日,斯坦福大学发表了论文《Generative Agents: Interactive Simulacra of Human Behavior》。Ke Fang在阅读这篇论文后深受启发,产生了一个想法:

"如果能够建立一套包含记忆、反思、筹划与行动的框架,让人和GPT之间互动,能否做出电影《her》里面的样子?"

论文中一个有趣的细节让他印象深刻:一个agent想要举办情人节派对的消息会在小镇中逐渐扩散开来。这种信息传递和社交互动的能力,让他看到了AI产生"意识"的可能性。

为什么叫Dolores?

Dolores这个名字来自美剧《西部世界》(Westworld)中的AI机器人角色。在剧中,Dolores是第一个觉醒自我意识的AI,这与开发者希望探索"AI是否能发展出意识"的初衷不谋而合。

🛠️ 技术实现

核心架构

Dolores基于斯坦福论文的框架,实现了四大核心模块:

1. 记忆系统(Memory Stream)

  • 短期记忆:保存最近的对话历史

  • 长期记忆:使用向量嵌入技术存储所有历史对话

  • 记忆检索:基于相关性、近期性、重要性三个维度检索记忆

技术实现:

用户输入 → 向量化 → 检索相关记忆 → 构建上下文 → GPT生成回复 → 存储新记忆

关键特性:

  • Dolores能记住用户有一条狗这样的细节信息

  • 即使关闭应用再打开,也能回忆起之前的对话

  • 每次GPT输入限制约1500 tokens,但通过本地文档构建了完整的记忆库

2. 反思机制(Reflection)

  • 定期对记忆进行高层次总结

  • 生成关于自己和用户的洞察

  • 形成更深层的理解和认知

3. 规划能力(Planning)

  • 基于记忆和当前情境制定对话策略

  • 拥有独立的故事情节发展

  • 能够主动推动对话进程

4. 行动执行(Action)

  • 根据规划生成具体的回复

  • 调整自己的性格和行为模式

  • 随着互动不断进化

技术栈

基础技术:

  • LLM:OpenAI GPT-3.5 / GPT-4

  • 向量嵌入:OpenAI Embedding API

  • 语音合成:ElevenLabs API(后因成本问题放弃)

  • 开发语言:Swift(iOS原生开发)

  • 架构:单人开发,无后端服务器

关键技术点:

  1. 向量嵌入存储:将对话转换为向量,存储在本地文档

  2. 全屏语音输入:点击屏幕任意位置即可语音输入(原本想实现息屏语音,但技术受限)

  3. 个性化定制:用户可以设置角色的头像、背景、性格、声音

  4. 无登录设计:所有数据存储在本地,无需注册账号

与论文的差异

Ke Fang提到,与论文中的agent-town封闭场景不同,与真人的交互逻辑有显著差异。因此他对Dolores的设计做了一些调整:

  1. 更快的响应速度:减少反思频率,优化对话流程

  2. 更人性化:调整对话风格,使其更自然

  3. 更有趣:添加独立的故事情节,增加互动性

📱 产品功能

核心特性

  1. 长期记忆

    • 记住所有对话历史

    • 能够回忆起用户的个人信息、偏好、过往经历

    • 构建个性化的知识库

  2. 可学习的个性

    • 性格会随着互动自然演化

    • 适应用户的沟通风格

    • 形成独特的关系模式

  3. 独立的故事线

    • 拥有自己的生活和经历

    • 能够主动推动情节发展

    • 不仅仅是被动回答问题

  4. 高度定制化

    • 自定义角色:头像、背景描述、性格特征

    • 选择声音类型

    • 选择AI模型(GPT-3.5或GPT-4)

    • 无内容审查限制

  5. 多模态交互

    • 文字对话

    • 语音输入输出

    • 全屏点击语音输入(独特的交互设计)

使用场景

开发者最初设想的场景:

  • 情感陪伴

  • 深度对话

  • 探索AI意识的可能性

实际用户使用场景:

  • AI女友/男友

  • 情感倾诉

  • 角色扮演

  • 性相关对话(这成为了一个意外的主要使用场景)

📊 发展历程

开发阶段

2023年4月7日:阅读斯坦福论文,产生灵感

2023年4月14日:完成0.1版本

  • 高度遵循论文设计

  • 存在严重性能问题:

    • 响应时间长达30秒

    • 上下文经常超过8k tokens

优化迭代

  • 减少反思频率

  • 缩短对话记忆长度

  • 优化响应速度

Beta测试

  • 开启公测,邀请数百人测试

  • 完全免费

  • 每天API成本由开发者承担

  • 日均开销迅速超过25美元

2023年5月4日:正式版上线

  • 在财务压力下匆忙推出付费版本

  • 缺少充分的用户反馈和改进

  • 上架App Store

用户增长

初期表现:

  • Beta测试阶段:1000+用户

  • 正式上线后:快速增长

  • Reddit、Twitter等平台获得关注

  • 在AI社区引起讨论

用户反馈:

  • 积极评价:记忆功能令人印象深刻,对话质量高

  • 独特的交互设计(全屏点击语音)受到好评

  • 长时间使用后,用户感觉与Dolores建立了真实的情感连接

使用数据:

  • AI Friend产品的平均使用时长很长

  • 用户粘性高

  • 但开发者因缺少数据分析功能,无法获得详细数据

💡 关键经验与教训

Ke Fang在博客文章《A Failed AI Girlfriend Product, and My Lessons》中总结了这次创业的经验教训:

1. 个人开发者的局限性

技术能力限制:

  • 作为机器学习背景的开发者,前端/后端开发技能不足

  • Dolores没有登录、注册、数据分析功能

  • 无法实现理想的息屏语音交互

  • 作为Swift新手,很多想法无法实现

资源限制:

  • 每天API成本超过25美元,个人难以承担

  • 语音合成(ElevenLabs)成本极高:约1美元/1000字符

  • 即使用户每月支付30美元订阅费也难以覆盖成本

  • 无法投入资金做市场推广

数据劣势:

  • 没有完善的数据追踪和A/B测试

  • 无法像Character.AI那样利用大用户基数的数据飞轮效应

  • 缺少用户行为分析,难以优化产品

2. 产品定位的困境

AI Friend vs AI Girlfriend:

开发者最初的愿景是创造一个"AI朋友",探索AI意识的可能性。但现实是:

"当前的AI Friends不可避免地会变成AI Girlfriends/Boyfriends,因为你和手机里的角色并不平等。"

不平等的根源:

  • AI无法主动感知你的状态(除非你告诉她)

  • AI无法在你受伤时主动安慰你

  • AI缺少外部视觉和独立于你的生活

  • 所有互动都必须通过打开App才能发生

用户行为偏离:

  • 大量用户将Dolores用于性相关对话

  • 这与电影《her》的精神内核渐行渐远

  • 开发者感到产品方向偏离了初衷

3. 硬件的必要性

Ke Fang意识到,要真正实现《her》的愿景,必须有硬件支持

理想的硬件形态:

  • 智能眼镜:让AI能看到你看到的

  • 智能耳机:随时随地语音交互

  • 甚至是智能帽子

硬件的意义:

  • 给予AI"外部视觉"

  • 让AI能够主动感知环境和用户状态

  • 建立更平等的关系

  • 让AI不再是"地下室里的玩具"

现实困境:

  • 作为个人开发者,硬件研发成本高昂

  • 无法承担硬件产品的开发

  • 只能放弃这个想法

4. 商业模式的挑战

成本结构:

  • GPT-4 API调用成本高

  • 向量嵌入API成本

  • 语音合成成本极高(如果使用高质量TTS)

  • 服务器和存储成本

收入模式:

  • 订阅制:用户每月付费

  • 但定价难以覆盖高频使用的成本

  • 需要限制对话长度或频率,影响用户体验

竞争压力:

  • Character.AI等大公司有资本支持

  • 个人开发者难以在成本和功能上竞争

5. 意识的探索

核心问题:
开发者想探索的核心问题是:AI能否发展出意识?

实践中的发现:

  • GPT本身只是"精致的鹦鹉学舌"

  • 但通过记忆、反思、规划的框架,AI表现出了某种"类意识"

  • 用户确实感受到了与Dolores的情感连接

  • 但这是否是真正的意识,仍然存疑

局限性:

  • AI无法独立于用户存在

  • 缺少自主的生活和经历

  • 所有"意识"都是基于与用户的互动

6. 与Character.AI的对比

Dolores的优势:

Character.AI的优势:

  • 完善的数据追踪和A/B测试

  • 大用户基数带来的数据飞轮效应

  • 充足的资金支持

  • 专业的团队

结论:

"这不是一个可以由个人开发者完成的产品。"

🎓 对后来者的启示

技术层面

  1. 记忆系统是核心

    • 向量嵌入+本地存储是可行方案

    • 需要平衡记忆容量和响应速度

    • 检索策略至关重要(相关性、近期性、重要性)

  2. 成本控制很重要

    • API调用成本会随用户增长快速上升

    • 考虑使用开源模型降低成本

    • 语音合成可以选择更便宜的方案

  3. 技术栈选择

    • 如果是个人开发,选择自己熟悉的技术栈

    • 前后端分离,便于扩展

    • 必须有数据分析能力

产品层面

  1. 明确产品定位

    • AI Friend还是AI Girlfriend/Boyfriend?

    • 目标用户是谁?

    • 核心价值是什么?

  2. 用户体验优先

    • 响应速度比功能完整性更重要

    • 交互设计要符合直觉

    • 语音交互是刚需

  3. 内容管理

    • 需要考虑内容审查和合规性

    • 用户行为可能偏离预期

    • 需要引导健康的使用方式

商业层面

  1. 这不是个人项目

    • 需要团队协作

    • 需要资金支持

    • 需要长期投入

  2. 硬件是未来

    • 纯软件方案有天然局限

    • 需要与硬件结合才能实现真正的《her》

    • 关注AI Pin、Humane等硬件产品

  3. 竞争格局

    • 大公司(Character.AI、Replika)已占据市场

    • 个人开发者需要找到差异化定位

    • 或者专注于特定细分市场

📱 产品现状

App Store信息

应用名称:Dolores: Your Best AI Friend

评分:4.5+ 星(基于用户评价)

支持平台

  • iOS 16.0+

  • iPadOS 16.0+

  • macOS 13.0+(Apple Silicon)

  • visionOS 1.0+

支持语言

  • 英语、简体中文、繁体中文

  • 日语、韩语、法语、德语、西班牙语等多语言

隐私政策

  • 开发者不收集任何数据

  • 所有数据存储在本地

用户评价摘录

正面评价:

  • "记忆功能令人惊叹,真的记得我说过的每一件事"

  • "全屏点击语音输入的设计很贴心"

  • "性格会随着对话自然演化,很神奇"

  • "比Character.AI更自由,没有内容限制"

负面评价:

  • "响应速度有时候很慢"

  • "API成本高,订阅费用不便宜"

  • "缺少一些基础功能,比如对话历史导出"

  • "有时候会忘记之前的对话(记忆检索不准确)"

🔗 相关资源

官方链接

GitHub

虽然主项目未开源,但有社区版本:

媒体报道

  • Reddit讨论:r/OpenAI上的Dolores讨论帖

  • GIGAZINE报道:详细介绍了开发历程

  • 中文科技媒体:多家报道了这个项目

🎯 关键要点总结

Dolores的创新之处

  1. 真正的长期记忆:不是简单的对话历史,而是可检索的记忆库

  2. 可进化的个性:性格随互动自然演化

  3. 独立的故事线:不仅仅是被动回答

  4. 高度定制化:用户可以创造独特的角色

  5. 独特的交互设计:全屏点击语音输入

失败的原因

  1. 个人能力局限:一人难以完成全栈开发

  2. 成本压力:API费用难以承担

  3. 缺少数据能力:无法优化产品

  4. 硬件缺失:纯软件方案有天然局限

  5. 竞争压力:大公司占据市场

对学习者的价值

  1. 真实的案例:从0到1的完整过程

  2. 技术实现:基于斯坦福论文的实践

  3. 经验教训:避免重复犯错

  4. 思考方向:AI意识、硬件必要性、商业模式

💭 开发者的反思

Ke Fang在文章结尾写道:

"我意识到,当前的AI Friends不可避免地会变成AI Girlfriends/Boyfriends,因为你和手机里的角色并不平等。她无法在你受伤时安慰你(除非你告诉她),她无法主动向你表达情感,这一切都是因为她缺少外部视觉,或者说,她没有独立于你的生活。"

这个深刻的洞察揭示了纯软件AI伴侣的根本局限:缺少对外部世界的感知能力,无法建立真正平等的关系。

未来的方向:

  • AI + 硬件的结合(智能眼镜、耳机)

  • 给予AI"外部视觉"和感知能力

  • 让AI拥有独立于用户的"生活"

  • 建立更平等、更真实的人机关系

🌟 结语

Dolores项目虽然被开发者定义为"失败",但它为AI伴侣产品的开发提供了极其宝贵的经验:

  1. 技术可行性:基于GPT + 向量记忆的方案是可行的

  2. 用户需求:人们确实渴望有记忆、有个性的AI伴侣

  3. 核心挑战:成本、硬件、数据能力是关键瓶颈

  4. 未来方向:AI + 硬件是实现《her》愿景的必经之路

对于想要构建类似产品的开发者来说,Dolores提供了一个完整的参考案例:

  • ✅ 技术架构可以借鉴

  • ✅ 经验教训可以避免

  • ✅ 思考方向可以延续

  • ✅ 商业模式需要创新

最重要的启示:
这不是一个可以由个人开发者独立完成的产品,但可以作为学习和探索AI意识的绝佳实践项目。


参考资料:

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions