第15期:OpenAI 在编程领域持续发力
本文透视 OpenAI 最新发布的 GPT-5-Codex 如何在真实工程中覆盖从需求拆解到代码审查的全链路,并比较它与 Claude 等主流助手的定位差异。通过拆解其动态推理、工具链升级与安全策略。
对于所有的文章,我都会进行深度总结,可以先打开总结,如果看了总结之后,觉得有价值,再去看原文,因为原文可能会有很多细节,而总结会帮你过滤掉很多细节,只保留最重要的信息。

卷首语
这周 AI 编程领域发生了不少大事,OpenAI 推出了新的编码模型 Codex。新模型据说非常强大,但我亲自体验后并没有明显感受到差异。
坊间还传言 Claude Sonnet 4.5 即将发布。听到这些消息我非常兴奋,因为我同时订阅了 Claude 和 ChatGPT,一直以 Claude 作为主要的 AI 编程助手,ChatGPT 则负责日常聊天,偶尔会使用 Codex 协助编码。
我偏爱 Claude Code 的原因在于功能更全面,Codex 目前提供的工具还比不上它。
就个人使用体验而言,我几乎不会触发两个 AI 工具的使用上限,更愿意把 AI 当作辅助,而不是走纯粹的 Vibe Coding 路线。
随着 AI 编程的持续发展,许多功能的架构设计逐渐变得简化,因为 AI 能够快速整理思路,并在极短时间内完成复杂的代码实现。
推荐阅读
GPT‑5-Codex 是 OpenAI 针对真实软件工程场景优化的智能编程助手,支持多平台协作,能独立完成复杂开发、重构和代码审查任务。其动态推理机制提升了响应速度和任务完成质量,代码审查能力显著增强。Codex CLI 和 IDE 插件支持图片输入和权限管理,云端环境自动配置提升效率。安全方面,Codex 默认沙箱运行并支持自定义策略,建议人机协同审查。Codex 已集成于多类 ChatGPT 付费计划,API 即将开放,正成为开发者高效、安全的智能伙伴。
深度总结
Codex升级与GPT-5-Codex发布
OpenAI发布了GPT-5-Codex,这是基于GPT-5专门为Codex优化的模型。GPT-5-Codex聚焦于真实的软件工程场景,能够在终端、IDE、Web甚至手机等多种环境下协作开发。它不仅适合快速交互,还能独立完成复杂、长周期的任务。模型在代码审查方面表现突出,能提前发现关键性bug。
GPT-5-Codex的能力与应用场景
GPT-5-Codex专为agentic coding设计,训练数据涵盖了从零构建项目、功能添加、测试生成、调试、大规模重构到代码审查等复杂任务。模型具备更强的可控性,能够更好地遵循AGENTS.md中的指令,生成高质量代码。开发者无需详细说明风格或代码规范,只需直接描述需求。
在代码重构评测中,GPT-5-Codex能够处理大型仓库的复杂任务。例如,Gitea的一个pull request涉及232个文件、3541行代码的重构,模型能动态调整思考时间,针对任务复杂度分配资源。对于简单请求,响应更快;对于复杂任务,模型能持续独立工作数小时,迭代实现并修复测试问题。
在代码审查环节,GPT-5-Codex能够遍历代码库、分析依赖、运行代码和测试,验证正确性。评测显示,GPT-5-Codex生成的审查意见更少出现错误或无关内容,能更有效地聚焦关键问题。
前端与云端协作
GPT-5-Codex在前端任务上表现稳定,能够创建美观的桌面应用,并在移动端网站开发中获得更高的人类偏好评分。云端环境下,模型支持图片输入,能对设计稿或bug截图进行视觉检查,并将结果截图反馈给开发者。
Codex工具链更新
Codex CLI经过重构,支持图片、截图、线框图等多种输入,便于设计沟通。复杂任务下,CLI会自动生成待办清单,集成web搜索和MCP等工具,提升外部系统连接能力。终端UI升级后,工具调用和diff展示更清晰,审批模式简化为三种,支持会话状态压缩,便于长时间协作。
Codex IDE扩展支持VS Code及其分支,能利用本地文件和选中代码上下文,提升响应速度和准确性。开发者可在IDE内无缝切换本地与云端任务,保持上下文一致。
Codex云端通过容器缓存,大幅提升任务完成速度。模型能自动识别并执行常见setup脚本,支持按需联网安装依赖。前端协作同样支持图片输入,模型可自动浏览、迭代并反馈结果截图。
代码审查自动化
Codex自动审查GitHub PR,匹配PR意图与实际diff,分析全局依赖并运行测试。开发者可通过“@codex review”触发审查,并指定安全漏洞、依赖过期等专项检查。Codex已在OpenAI内部广泛应用,显著提升审查效率和质量。
安全与可信
Codex默认在沙盒环境运行,禁用网络访问,防止代码和数据泄露。模型会在执行高风险操作前请求权限,开发者可自定义安全设置。云端可限制网络访问域名,CLI和IDE扩展支持命令审批和外部连接。每个任务都附带引用、日志和测试结果,便于开发者复查。
GPT-5-Codex在生物和化学领域被视为高能力模型,已实施相关安全防护。
价格与可用性
Codex包含在ChatGPT Plus、Pro、Business、Edu和Enterprise套餐中,使用额度随套餐提升。企业可购买额外额度,API接入GPT-5-Codex即将开放。
Codex正逐步成为高效、可靠、深度集成的开发伙伴,持续优化以支持更复杂的项目需求。
Gemini in Chrome 是一款以用户为中心的浏览器AI助手,支持主动唤起、即时摘要、问题解答和多种交互方式,帮助用户高效理解网页内容,强调隐私和自主权,仅在用户请求时介入,提升信息处理效率。
深度总结
Gemini in Chrome 简介
Gemini in Chrome 是集成于浏览器的智能助手。它能够基于当前打开的网页内容,提供摘要、概念澄清和问题解答。用户可以通过点击 Gemini 图标或自定义快捷键激活该功能,完全由用户自主控制。
主要功能
-
内容摘要
Gemini 能够快速提取网页、文章或讨论串的核心要点,帮助用户高效获取关键信息。例如,阅读一篇长文时,Gemini 会直接给出主要观点,节省逐字阅读的时间。 -
上下文理解与答疑
用户可以直接在页面上提出问题,Gemini 会结合当前网页内容进行解答。比如在查阅技术文档时,遇到不理解的术语,可以直接询问 Gemini 获得解释。 -
选项对比与思路梳理
在需要做决策或比较多个方案时,Gemini 能协助梳理各自优缺点,帮助用户理清思路。例如在选型前端框架时,可以让 Gemini 列出 React、Vue、Angular 的主要差异。 -
多终端协作
除了桌面端,Gemini 也支持移动端使用,便于随时随地获取帮助。
用户控制与隐私
Gemini 仅在用户主动请求时才会介入,不会自动分析或干预网页内容。所有操作均需用户手动触发,确保使用过程中的自主性和隐私安全。
交互方式
用户既可以通过输入文本,也可以语音提问。Gemini 会根据当前页面内容,给出针对性的解答或操作建议,提升信息处理效率。
ChatGPT的用户结构日益多元,性别和收入差距缩小,主要用于信息获取和写作,工作与生活场景均有显著经济价值,AI正成为全球用户日常不可或缺的生产力工具。
深度总结
ChatGPT用户使用现状与趋势
本研究基于对150万次对话的分析,是目前关于ChatGPT消费者使用情况的最大规模研究。数据覆盖了全球范围,重点关注用户结构、使用场景以及经济价值的创造。
用户结构变化
ChatGPT的用户群体正在变得更加多元。早期存在的性别差异正在缩小。2024年初,女性用户占比为37%;到2025年7月,这一比例已上升至52%。此外,低收入和中等收入国家的用户增长速度显著高于高收入国家,增长率达到后者的四倍以上。这表明AI工具的普及正在加速,逐步覆盖更广泛的人群。
主要使用场景
用户主要将ChatGPT用于日常任务。约75%的对话集中在实用指导、信息查询和写作等方面。写作是最常见的工作相关任务,而编程和自我表达则属于小众用途。具体来看,用户行为可分为三类:
- Asking(提问):占比49%,用户将ChatGPT视为顾问,寻求建议和信息。
- Doing(执行):占比40%,包括文本生成、规划、编程等任务,约三分之一与工作相关。
- Expressing(表达):占比11%,涉及个人反思、探索和娱乐。
经济价值与使用演变
ChatGPT的使用不仅限于工作场景,约30%为工作相关,70%为非工作用途。两者均在持续增长。AI工具在知识密集型岗位中提升了决策质量和生产效率。随着模型能力提升和新用例的发现,用户活跃度也在不断增加。部分由ChatGPT带来的价值难以通过传统经济指标衡量,但其对个人和组织的实际影响正在扩大。
数据隐私与研究方法
研究过程中未涉及人工读取用户消息,所有分析均通过自动化工具完成,确保用户隐私安全。
ChatGPT: Everything you need to know about the AI-powered chatbot
ChatGPT以持续创新和多领域扩展,成为全球AI应用的标杆。OpenAI通过技术迭代、生态合作和安全治理,巩固其行业领导地位,推动AI深度融入生产生活。
深度总结
ChatGPT发展概览
ChatGPT自2022年发布以来,已成为全球最受关注的AI聊天工具之一。其核心由OpenAI开发,基于GPT-4等大型语言模型,能够根据用户输入生成自然语言文本。最初,ChatGPT主要用于提升写作和编程效率,现已扩展至多领域应用,用户量持续增长,2025年每周活跃用户接近7亿。
主要产品与技术更新
2024至2025年,OpenAI推出了多项重要更新,包括GPT-4o、GPT-5及其衍生版本(如GPT-5-Codex),并强化了语音、图像、视频生成能力。GPT-5-Codex专注于代码生成和重构,提升了自动化编程的准确性和效率。ChatGPT还集成了“Study Mode”等新功能,鼓励用户主动思考而非被动获取答案。此外,OpenAI正在开发AI浏览器和社交平台,试图进一步拓展产品生态。
安全与合规措施
随着用户群体扩大,尤其是青少年用户增加,OpenAI加强了内容安全策略。例如,针对未成年人,平台限制敏感话题讨论,并在极端情况下将信息上报家长或相关机构。公司还应对了因AI聊天引发的法律诉讼,持续优化自杀风险检测和家长控制功能。
商业化与市场扩展
ChatGPT移动端应用表现突出,全球消费支出达20亿美元。OpenAI在印度等新兴市场推出低价订阅计划,扩大用户基础。企业和政府也成为重要客户,OpenAI为美国联邦机构提供低价企业版服务,并推动数据本地化和合规项目以满足不同地区的法规要求。
模型开放与社区互动
OpenAI重新拥抱开源,发布了gpt-oss-120b等开放权重模型,支持开发者在本地部署。公司还引入了Model Context Protocol(MCP)等标准,提升AI与外部数据源的互操作性。用户可自定义ChatGPT的“traits”,如“chatty”或“Gen Z”,增强个性化体验。
争议与挑战
ChatGPT在隐私、版权、内容安全等方面面临持续争议。部分用户因AI生成虚假信息而提起诉讼,教育系统对其在学业中的应用持保留态度。OpenAI不断调整内容生成和数据处理策略,以应对外部压力和法律风险。
未来趋势
OpenAI正加速推进AI基础设施建设,计划通过硬件和数据中心项目提升算力。公司还在探索更智能的AI代理(Agent),支持自动化办公、深度研究等复杂任务。随着技术迭代,ChatGPT将继续扩展功能边界,推动AI在生产力、教育、商业等领域的深度应用。
How to Use Nano Banana for Image Generation - Explained with Code Examples
Nano Banana以极高的速度和智能理解能力,简化了图像生成与编辑流程,支持文本到图像、图片编辑、多图融合和修复等多种场景,开发者可通过API或在线工具轻松集成,显著提升视觉创作效率与质量。
深度总结
Nano Banana简介
Nano Banana是Google DeepMind推出的最新图像生成与编辑工具,属于Gemini 2.5 Flash系列。该模型支持自然语言驱动的图像生成和细致编辑,能够理解复杂的描述并快速响应。用户可以通过简单的文本提示生成全新图像,或对现有图片进行定向修改。
主要功能
-
Prompt-Perfect Editing
用户可通过自然语言描述,修改图片中的背景、姿态或添加特定物体。无需复杂操作,模型自动理解并执行。 -
Character Consistency
在多张图片或故事场景中,保持角色或物体的一致性。适合需要连续性视觉表现的项目,如漫画或动画角色设计。 -
Visual Mashups (Multi-Image Fusion)
支持多图融合,将不同图片中的元素无缝组合,生成新的复合图像。适用于产品展示、场景合成等需求。 -
Image Restoration
可对老旧、损坏或低质量照片进行修复,包括细节锐化、去除划痕、色彩增强等。
使用方式
-
Google AI Studio
通过网页工具直接体验,无需编写代码或管理API密钥,适合快速测试和非开发者使用。 -
Gemini API集成
适用于需要定制化的应用场景。开发者可通过Python SDK与API交互,实现自动化图像生成、编辑和批量处理。
代码示例解析
-
环境配置
使用python-dotenv
管理API密钥,Pillow
处理图片数据。API密钥存储于.env
文件,提升安全性。 -
文本生成图片
通过generate_content
方法,输入文本描述,模型返回符合描述的图片。辅助函数负责解析API响应并保存图片文件。 -
图片编辑
上传原始图片,结合文本提示,模型根据描述进行定向修改。例如为狗添加帽子和眼镜,或更换背景。 -
多图融合
同时上传多张图片及融合描述,模型将不同元素合成一张新图。适合复杂场景或产品展示。 -
图片修复
上传待修复图片,通过详细修复指令,模型自动完成细节增强和色彩恢复。
拓展应用
Nano Banana不仅适用于单次生成,还可批量处理、自动化生成创意资产、集成数据管道,或搭建AI美术后台服务。其高效性和灵活性为前端开发、UI设计及视觉内容生产提供了新的技术路径。