实
Factory.ai
AI 编码 agent 公司——上下文压缩实证研究的重要来源
Factory 在 36,000+ 条生产 session 消息上对比了三种压缩策略(Factory、OpenAI、Anthropic),构建了 probe-based 功能质量评估框架,直接衡量压缩后 agent 的任务继续能力。核心发现:artifact tracking 是所有压缩方法的普遍弱点——无论哪种策略,压缩后追踪代码产物和文件状态的能力都会显著下降。
压缩研究贡献 锚定式迭代摘要 Anchored Iterative Summarization——通过结构化 section 和增量合并防止信息丢失,区别于简单截断 probe-based 评估 功能质量评估框架:测量压缩后 agent 能否继续执行任务,而非只测文本相似度 36K 生产消息 基于真实生产数据而非合成测试集——评估结果更具工程参考价值 三方对比 Factory vs OpenAI vs Anthropic 策略对比——揭示不同方法在生产场景的真实权衡
普遍弱点发现 artifact tracking 失效 所有压缩方法的共同弱点:压缩后模型对代码产物、文件状态的追踪能力下降 工程含义 外部化 artifact 追踪(如 feature tracking + progress file)是 harness 层的必要补偿机制
→ Context Compression · Harness Engineering · AnthropicFactory (2025)
Factory.ai
AI 编码 agent 公司,专注于软件工程自动化。
与本 wiki 的关联
Factory 在 上下文压缩 评估领域提供了重要的实证研究:
- 构建了 probe-based 功能质量评估框架,直接衡量压缩后 agent 的任务继续能力
- 提出锚定式迭代摘要(Anchored Iterative Summarization)——通过结构化 section 和增量合并防止信息丢失
- 在 36,000+ 条生产 session 消息上对比了三种压缩策略(Factory、OpenAI、Anthropic)
- 揭示了 artifact tracking 是所有压缩方法的普遍弱点
相关实体
References
sources/factory-evaluating-context-compression.md