第15期:OpenAI 在编程领域持续发力

本文透视 OpenAI 最新发布的 GPT-5-Codex 如何在真实工程中覆盖从需求拆解到代码审查的全链路,并比较它与 Claude 等主流助手的定位差异。通过拆解其动态推理、工具链升级与安全策略。

对于所有的文章,我都会进行深度总结,可以先打开总结,如果看了总结之后,觉得有价值,再去看原文,因为原文可能会有很多细节,而总结会帮你过滤掉很多细节,只保留最重要的信息。

OpenAI 在编程领域持续发力

卷首语

这周 AI 编程领域发生了不少大事,OpenAI 推出了新的编码模型 Codex。新模型据说非常强大,但我亲自体验后并没有明显感受到差异。

坊间还传言 Claude Sonnet 4.5 即将发布。听到这些消息我非常兴奋,因为我同时订阅了 Claude 和 ChatGPT,一直以 Claude 作为主要的 AI 编程助手,ChatGPT 则负责日常聊天,偶尔会使用 Codex 协助编码。

我偏爱 Claude Code 的原因在于功能更全面,Codex 目前提供的工具还比不上它。

就个人使用体验而言,我几乎不会触发两个 AI 工具的使用上限,更愿意把 AI 当作辅助,而不是走纯粹的 Vibe Coding 路线。

随着 AI 编程的持续发展,许多功能的架构设计逐渐变得简化,因为 AI 能够快速整理思路,并在极短时间内完成复杂的代码实现。

推荐阅读

Introducing upgrades to Codex

GPT‑5-Codex 是 OpenAI 针对真实软件工程场景优化的智能编程助手,支持多平台协作,能独立完成复杂开发、重构和代码审查任务。其动态推理机制提升了响应速度和任务完成质量,代码审查能力显著增强。Codex CLI 和 IDE 插件支持图片输入和权限管理,云端环境自动配置提升效率。安全方面,Codex 默认沙箱运行并支持自定义策略,建议人机协同审查。Codex 已集成于多类 ChatGPT 付费计划,API 即将开放,正成为开发者高效、安全的智能伙伴。

深度总结

Codex升级与GPT-5-Codex发布

OpenAI发布了GPT-5-Codex,这是基于GPT-5专门为Codex优化的模型。GPT-5-Codex聚焦于真实的软件工程场景,能够在终端、IDE、Web甚至手机等多种环境下协作开发。它不仅适合快速交互,还能独立完成复杂、长周期的任务。模型在代码审查方面表现突出,能提前发现关键性bug。

GPT-5-Codex的能力与应用场景

GPT-5-Codex专为agentic coding设计,训练数据涵盖了从零构建项目、功能添加、测试生成、调试、大规模重构到代码审查等复杂任务。模型具备更强的可控性,能够更好地遵循AGENTS.md中的指令,生成高质量代码。开发者无需详细说明风格或代码规范,只需直接描述需求。

在代码重构评测中,GPT-5-Codex能够处理大型仓库的复杂任务。例如,Gitea的一个pull request涉及232个文件、3541行代码的重构,模型能动态调整思考时间,针对任务复杂度分配资源。对于简单请求,响应更快;对于复杂任务,模型能持续独立工作数小时,迭代实现并修复测试问题。

在代码审查环节,GPT-5-Codex能够遍历代码库、分析依赖、运行代码和测试,验证正确性。评测显示,GPT-5-Codex生成的审查意见更少出现错误或无关内容,能更有效地聚焦关键问题。

前端与云端协作

GPT-5-Codex在前端任务上表现稳定,能够创建美观的桌面应用,并在移动端网站开发中获得更高的人类偏好评分。云端环境下,模型支持图片输入,能对设计稿或bug截图进行视觉检查,并将结果截图反馈给开发者。

Codex工具链更新

Codex CLI经过重构,支持图片、截图、线框图等多种输入,便于设计沟通。复杂任务下,CLI会自动生成待办清单,集成web搜索和MCP等工具,提升外部系统连接能力。终端UI升级后,工具调用和diff展示更清晰,审批模式简化为三种,支持会话状态压缩,便于长时间协作。

Codex IDE扩展支持VS Code及其分支,能利用本地文件和选中代码上下文,提升响应速度和准确性。开发者可在IDE内无缝切换本地与云端任务,保持上下文一致。

Codex云端通过容器缓存,大幅提升任务完成速度。模型能自动识别并执行常见setup脚本,支持按需联网安装依赖。前端协作同样支持图片输入,模型可自动浏览、迭代并反馈结果截图。

代码审查自动化

Codex自动审查GitHub PR,匹配PR意图与实际diff,分析全局依赖并运行测试。开发者可通过“@codex review”触发审查,并指定安全漏洞、依赖过期等专项检查。Codex已在OpenAI内部广泛应用,显著提升审查效率和质量。

安全与可信

Codex默认在沙盒环境运行,禁用网络访问,防止代码和数据泄露。模型会在执行高风险操作前请求权限,开发者可自定义安全设置。云端可限制网络访问域名,CLI和IDE扩展支持命令审批和外部连接。每个任务都附带引用、日志和测试结果,便于开发者复查。

GPT-5-Codex在生物和化学领域被视为高能力模型,已实施相关安全防护。

价格与可用性

Codex包含在ChatGPT Plus、Pro、Business、Edu和Enterprise套餐中,使用额度随套餐提升。企业可购买额外额度,API接入GPT-5-Codex即将开放。

Codex正逐步成为高效、可靠、深度集成的开发伙伴,持续优化以支持更复杂的项目需求。

Meet Gemini in Chrome

Gemini in Chrome 是一款以用户为中心的浏览器AI助手,支持主动唤起、即时摘要、问题解答和多种交互方式,帮助用户高效理解网页内容,强调隐私和自主权,仅在用户请求时介入,提升信息处理效率。

深度总结

Gemini in Chrome 简介

Gemini in Chrome 是集成于浏览器的智能助手。它能够基于当前打开的网页内容,提供摘要、概念澄清和问题解答。用户可以通过点击 Gemini 图标或自定义快捷键激活该功能,完全由用户自主控制。

主要功能

  • 内容摘要
    Gemini 能够快速提取网页、文章或讨论串的核心要点,帮助用户高效获取关键信息。例如,阅读一篇长文时,Gemini 会直接给出主要观点,节省逐字阅读的时间。

  • 上下文理解与答疑
    用户可以直接在页面上提出问题,Gemini 会结合当前网页内容进行解答。比如在查阅技术文档时,遇到不理解的术语,可以直接询问 Gemini 获得解释。

  • 选项对比与思路梳理
    在需要做决策或比较多个方案时,Gemini 能协助梳理各自优缺点,帮助用户理清思路。例如在选型前端框架时,可以让 Gemini 列出 React、Vue、Angular 的主要差异。

  • 多终端协作
    除了桌面端,Gemini 也支持移动端使用,便于随时随地获取帮助。

用户控制与隐私

Gemini 仅在用户主动请求时才会介入,不会自动分析或干预网页内容。所有操作均需用户手动触发,确保使用过程中的自主性和隐私安全。

交互方式

用户既可以通过输入文本,也可以语音提问。Gemini 会根据当前页面内容,给出针对性的解答或操作建议,提升信息处理效率。

How people are using ChatGPT

ChatGPT的用户结构日益多元,性别和收入差距缩小,主要用于信息获取和写作,工作与生活场景均有显著经济价值,AI正成为全球用户日常不可或缺的生产力工具。

深度总结

ChatGPT用户使用现状与趋势

本研究基于对150万次对话的分析,是目前关于ChatGPT消费者使用情况的最大规模研究。数据覆盖了全球范围,重点关注用户结构、使用场景以及经济价值的创造。

用户结构变化

ChatGPT的用户群体正在变得更加多元。早期存在的性别差异正在缩小。2024年初,女性用户占比为37%;到2025年7月,这一比例已上升至52%。此外,低收入和中等收入国家的用户增长速度显著高于高收入国家,增长率达到后者的四倍以上。这表明AI工具的普及正在加速,逐步覆盖更广泛的人群。

主要使用场景

用户主要将ChatGPT用于日常任务。约75%的对话集中在实用指导、信息查询和写作等方面。写作是最常见的工作相关任务,而编程和自我表达则属于小众用途。具体来看,用户行为可分为三类:

  • Asking(提问):占比49%,用户将ChatGPT视为顾问,寻求建议和信息。
  • Doing(执行):占比40%,包括文本生成、规划、编程等任务,约三分之一与工作相关。
  • Expressing(表达):占比11%,涉及个人反思、探索和娱乐。

经济价值与使用演变

ChatGPT的使用不仅限于工作场景,约30%为工作相关,70%为非工作用途。两者均在持续增长。AI工具在知识密集型岗位中提升了决策质量和生产效率。随着模型能力提升和新用例的发现,用户活跃度也在不断增加。部分由ChatGPT带来的价值难以通过传统经济指标衡量,但其对个人和组织的实际影响正在扩大。

数据隐私与研究方法

研究过程中未涉及人工读取用户消息,所有分析均通过自动化工具完成,确保用户隐私安全。

ChatGPT: Everything you need to know about the AI-powered chatbot

ChatGPT以持续创新和多领域扩展,成为全球AI应用的标杆。OpenAI通过技术迭代、生态合作和安全治理,巩固其行业领导地位,推动AI深度融入生产生活。

深度总结

ChatGPT发展概览

ChatGPT自2022年发布以来,已成为全球最受关注的AI聊天工具之一。其核心由OpenAI开发,基于GPT-4等大型语言模型,能够根据用户输入生成自然语言文本。最初,ChatGPT主要用于提升写作和编程效率,现已扩展至多领域应用,用户量持续增长,2025年每周活跃用户接近7亿。

主要产品与技术更新

2024至2025年,OpenAI推出了多项重要更新,包括GPT-4o、GPT-5及其衍生版本(如GPT-5-Codex),并强化了语音、图像、视频生成能力。GPT-5-Codex专注于代码生成和重构,提升了自动化编程的准确性和效率。ChatGPT还集成了“Study Mode”等新功能,鼓励用户主动思考而非被动获取答案。此外,OpenAI正在开发AI浏览器和社交平台,试图进一步拓展产品生态。

安全与合规措施

随着用户群体扩大,尤其是青少年用户增加,OpenAI加强了内容安全策略。例如,针对未成年人,平台限制敏感话题讨论,并在极端情况下将信息上报家长或相关机构。公司还应对了因AI聊天引发的法律诉讼,持续优化自杀风险检测和家长控制功能。

商业化与市场扩展

ChatGPT移动端应用表现突出,全球消费支出达20亿美元。OpenAI在印度等新兴市场推出低价订阅计划,扩大用户基础。企业和政府也成为重要客户,OpenAI为美国联邦机构提供低价企业版服务,并推动数据本地化和合规项目以满足不同地区的法规要求。

模型开放与社区互动

OpenAI重新拥抱开源,发布了gpt-oss-120b等开放权重模型,支持开发者在本地部署。公司还引入了Model Context Protocol(MCP)等标准,提升AI与外部数据源的互操作性。用户可自定义ChatGPT的“traits”,如“chatty”或“Gen Z”,增强个性化体验。

争议与挑战

ChatGPT在隐私、版权、内容安全等方面面临持续争议。部分用户因AI生成虚假信息而提起诉讼,教育系统对其在学业中的应用持保留态度。OpenAI不断调整内容生成和数据处理策略,以应对外部压力和法律风险。

未来趋势

OpenAI正加速推进AI基础设施建设,计划通过硬件和数据中心项目提升算力。公司还在探索更智能的AI代理(Agent),支持自动化办公、深度研究等复杂任务。随着技术迭代,ChatGPT将继续扩展功能边界,推动AI在生产力、教育、商业等领域的深度应用。

How to Use Nano Banana for Image Generation - Explained with Code Examples

Nano Banana以极高的速度和智能理解能力,简化了图像生成与编辑流程,支持文本到图像、图片编辑、多图融合和修复等多种场景,开发者可通过API或在线工具轻松集成,显著提升视觉创作效率与质量。

深度总结

Nano Banana简介

Nano Banana是Google DeepMind推出的最新图像生成与编辑工具,属于Gemini 2.5 Flash系列。该模型支持自然语言驱动的图像生成和细致编辑,能够理解复杂的描述并快速响应。用户可以通过简单的文本提示生成全新图像,或对现有图片进行定向修改。

主要功能

  • Prompt-Perfect Editing
    用户可通过自然语言描述,修改图片中的背景、姿态或添加特定物体。无需复杂操作,模型自动理解并执行。

  • Character Consistency
    在多张图片或故事场景中,保持角色或物体的一致性。适合需要连续性视觉表现的项目,如漫画或动画角色设计。

  • Visual Mashups (Multi-Image Fusion)
    支持多图融合,将不同图片中的元素无缝组合,生成新的复合图像。适用于产品展示、场景合成等需求。

  • Image Restoration
    可对老旧、损坏或低质量照片进行修复,包括细节锐化、去除划痕、色彩增强等。

使用方式

  1. Google AI Studio
    通过网页工具直接体验,无需编写代码或管理API密钥,适合快速测试和非开发者使用。

  2. Gemini API集成
    适用于需要定制化的应用场景。开发者可通过Python SDK与API交互,实现自动化图像生成、编辑和批量处理。

代码示例解析

  • 环境配置
    使用python-dotenv管理API密钥,Pillow处理图片数据。API密钥存储于.env文件,提升安全性。

  • 文本生成图片
    通过generate_content方法,输入文本描述,模型返回符合描述的图片。辅助函数负责解析API响应并保存图片文件。

  • 图片编辑
    上传原始图片,结合文本提示,模型根据描述进行定向修改。例如为狗添加帽子和眼镜,或更换背景。

  • 多图融合
    同时上传多张图片及融合描述,模型将不同元素合成一张新图。适合复杂场景或产品展示。

  • 图片修复
    上传待修复图片,通过详细修复指令,模型自动完成细节增强和色彩恢复。

拓展应用

Nano Banana不仅适用于单次生成,还可批量处理、自动化生成创意资产、集成数据管道,或搭建AI美术后台服务。其高效性和灵活性为前端开发、UI设计及视觉内容生产提供了新的技术路径。

更多周刊