type
Post
status
Published
date
Jul 1, 2025
slug
2025Q3 胡言乱语
summary
2025Q3 胡言乱语
tags
读书
思考
category
胡言乱语系列
icon
password
2025.08.18 昨天
欲买桂花同载酒,终不似,少年游。
比起更多的名利,少年心性才是最宝贵的不可再生资源。
2025.08.15 猫
公司楼下地铁口旁边的餐厅养了一只猫,可能是美短,灰白相间,很是漂亮,每天上班路过的时候,我都能看到它帅气地卧在门口,地铁口吐出的一个个睡眼惺忪,盯着满电手机,被肌肉带向工位的打工人鱼贯走过它面前,但它不拦人,不撒娇,也不蹭裤脚,只是眯着眼睛看着,偶尔打个哈欠,一种神仙式的淡然,旁观着这个世界的芸芸众生。
2025.08.13 结构化JSON提示词
一种新的 prompt 编写思路 https://mp.weixin.qq.com/s/Ksl-srd7gbCyPb2TPUlndA
示例:
{ "镜头": { "构图": "特写", "相机运动": "跟拍镜头", "帧率": "24fps", "胶片颗粒": "轻微" }, "拍摄主体": { "描述": "一位韩国女士走下楼梯。", "着装": "极简休闲装(T恤和短裤)", "道具": "太阳镜" }, "场景": { "地点": "现代公寓楼梯间", "拍摄时间": "黄金时段", "环境": "干净整洁,极简风格" }, "视觉细节": { "动作": "懒散随意地走下楼梯", "视觉元素": "光影效果" }, "摄影手法": { "光线": "自然光", "色调": "暖色调" }, "音频": { "环境音": "null", "音效": "流行音乐" }, "色调风格": "大胆对比", "对白": { "角色": null, "字幕": false } }
1.
镜头:
这是“导演”工作的核心,直接决定了观众的视角。构图
: 控制画面如何安排主体。可选值包括:特写(Close-up)
、中景 (Medium shot)
、全景(Full shot)
、远景(Long shot)
、过肩镜头(Over-the-shoulder shot)
等。实践技巧:想强调人物情绪就用特写
,想展示宏大场景就用远景
。
相机运动
: 让画面动起来。可选值:静态镜头(Static)
、平移(Pan)
、推拉(Dolly)
、跟拍(Tracking shot)
、摇臂(Crane shot)
。实践技巧:跟拍镜头
能营造强烈的沉浸感和跟随感,非常适合表现行进中的人物。
帧率
: 电影质感的关键。24fps
是标准的电影帧率,能带来经典的动态模糊效果。如果你想要更流畅、更具真实感的视频(如体育赛事),可以尝试60fps
。
胶片颗粒
: 增加复古或艺术感。可选值:无(None)
、轻微(Slight)
、中等(Medium)
、重度(Heavy)
。
2.
拍摄主体:
视频的核心内容。描述越具体,AI的“捏人”能力就越强。描述
: 主体的核心身份信息。例如性别、年龄、国籍、外貌特征。
着装
: 定义主体的风格和身份。通过测试验证,越具体的描述(如“白色府绸衬衫搭配蓝色水洗牛仔裤”)比模糊的描述(如“时尚穿着”)效果好得多。
道具
: 增强故事感和真实性的关键。一个太阳镜
、一杯咖啡
或一本书
都能极大地丰富画面信息。
3.
场景
:故事发生的环境,决定了视频的整体基调。地点
: 室内还是室外?城市还是自然?具体到“东京涩谷的十字路口”或“巴厘岛的悬崖日落”会得到更精确的地理特征。
拍摄时间
: 光线的决定性因素。黄金时段(Golden hour)
的光线柔和温暖,正午(Midday)
光线则强烈而刺眼,蓝色时刻(Blue hour)
则充满神秘感。
环境
: 描述场景的氛围和状态。干净整洁
与杂乱无章
会生成完全不同的背景细节。
4.
视觉细节
与摄影手法:
这两个模块是提升视频质感的“高级选项”。动作
: 主体在做什么?“懒散随意地走”和“匆忙跑下”是完全不同的表演指令。
视觉元素
: 你希望画面中出现的额外效果。例如光影效果(Chiaroscuro)
、镜头光晕(Lensflare)
、雨滴落在窗户上(Raindrops on window)
。
光线
:自然光(Natural light)
、霓虹灯(Neon lights)、柔光箱(Softbox light)
,不同的光源会塑造不同的情绪。
色调
:暖色调(Warm tones)
、冷色调(Cool tones)
、单色(Monochrome)
。这直接影响视频的情感表达。
5.
音频
与其他:虽然目前视频模型的音频生成能力仍在发展,但提前定义可以为后期制作提供方向,或在模型支持时直接生效。环境音
: 增加场景的真实感。
音效
: 匹配主体动作的声音。
色调风格
: 对整体风格的最终定义,如大胆对比(High contrast)
、柔和梦幻(Soft and dreamy)
。
拿到模板后,遵循以下步骤填写:
- 明确核心: 首先确定你的视频最核心的
拍摄主体
和动作
。这是故事的根基。
- 设定舞台: 围绕核心,构建
场景
,定义好时间、地点和环境。
- 架设机位: 思考你想如何呈现这个故事,然后配置
镜头
参数。这是叙事的关键。
- 精雕细琢: 最后,通过调整
视觉细节
、摄影手法
和色调
来打磨画面的艺术感。
迭代与改进的技巧:
AI的首次生成不一定完美。当结果不理想时,不要只是简单地重新生成,而是要学会“诊断”问题:
- 动作不自然? 检查
动作
描述是否过于复杂。尝试简化指令,或将其分解为更简单的动作。
- 风格不对? 检查
色调
、光线
和胶片颗粒
的组合是否恰当。例如,“霓虹灯”和“自然光”同时存在可能会让AI困惑。
- 主体或场景出现错误? 在
描述
中增加更明确、更排他性的关键词,减少AI的想象空间。
2025.08.07 心不着相
万事都是相,事过之后,回头看,轻舟已过万重山。
2025.08.03 大学学历的意义

2025.08.01 HOLD
做任何一个产品,要么懂需求、要么懂技术、要么能管项目,缺了其中任何一个都完不成,而至少要擅长其中一个,才能参与。暂时先把硬件项目hold了,等到有新想法再试试。
2025.07.31 少年心志是不可再生之物
所以,别在无意义的事情上蹉跎岁月。go forward
2025.07.24 三千年读史,不外功名利禄;九万里悟道,终归诗酒田园
这句话居然是南怀瑾写的。
原句:佛为心,道为骨,儒为表,大度看世界。技在手,能在身,思在脑,从容过生活。三千年读史,不外功名利禄;九万里悟道,终归诗酒田园。
2025.07.19 Context Engineering
这段时间在做 ai 应用的过程中,一直围绕 prompt,few-shot examples,function call,mcp,a2a,tool,memory,rag 等各种概念,这些概念有重叠的部分,又有独立的部分,隐约觉得应该有某种更大的概念可以涵盖所有,但又朦朦胧胧想不清楚。直到 6 月 19 日 Shopify CEO Tobi Lutke 提出 context engineering 这个词,如惊天巨雷,让人醍醐灌顶,真理就是如此简单而直接,从 prompt engineering 到 context engineering,格局就完全不一样了 (虽然 context engineering 也只是大模型应用的一部分)。

2025.07.18 容错率
人们都在追求平淡、淡定和稳健,其实这跟认知高低的相关性远不如跟人生容错率的相关性。什么是人生的容错率?就是你的资产和你的社会关系可以允许你犯错而不至于堕入底层,简而言之,钱多就容易淡定。
2025.07.09 从终局反推
你在七八十岁回忆过往一生的时候,会想起什么?GO FROWARD, NOT GO UP.
2025.07.08 电池
我走过一片大厂的工位,看到每个工位都安装了一个人形干电池。
2025.07.07 人人都是全栈工程师
上周还在用bolt.new,后端代码还需要自己调一调,这周minimax直接放大招,前后端无缝衔接,我只需要提供几个api key即可,十几分钟,一个支持用户注册登录,优雅前端界面,内容丰富,操作丝滑,前后端配合顺畅的英语学习网站就诞生了。一个人人都是全栈工程师的全民开发时代到来了。可以预见的是海量的满足长尾需求的小众应用将涌现出来。在这样的未来下,行业不同的岗位的影响:
1、基础开发,CRUD操作的岗位消失;
2、上游价值提升:产品设计/交互、用户体验、领域知识建模、需求分析等 (个性化/情感化);
3、下游价值提升:复杂系统的集成、部署、运维 (尤其是AI生成的低效代码)、安全审计;
4、底层能力:AI基础模型的优化升级依然重要;
但整体而言,因为大模型已经可以解决大部分基础问题,对人的技能点要求将发生巨变,新时代具备批评性思维、创造性解决问题、领域专长、项目管理、沟通协作能力的人才将更受欢迎,这些都是软性的能力。
2025.07.06 gemini-cli + github cli
史上最慷慨免费额度:个人用户通过谷歌账号登录,即可获得Gemini 2.5 Pro的使用权,享有100万Token的上下文窗口,以及每分钟60次、每天1000次的模型请求额度。
- Prerequisites: Ensure you have Node.js version 20 or higher installed.
- Run the CLI: Execute the following command in your terminal:
如果只是试一试,那npx就可以:
npx https://github.com/google-gemini/gemini-cli
如果想安装那请npm:
npm install -g @google/gemini-cli
- Pick a color theme
- Authenticate: When prompted, sign in with your personal Google account. This will grant you up to 60 model requests per minute and 1,000 model requests per day using Gemini.
- 登录方法 1:Login with Google (Gemini Code Assist)
- 登录方法 2:Gemini API key,generated from Google AI Studio (环境变量里配置一下Gemini API key就好,但有地区限制,大陆是不让用的,香港澳门也不行,台湾可以,VPN得指定出口地址,目前看这种方式对大陆用户是最方便的)
- 登录方法 3:Vertex AI,略有点麻烦。
- Github cli:下载安装使用就好,结合 gemini-cli,简直是程序员的xxx。