抖音vlog号脚本提示词模板
2026-06-12
2026-06-16 0
必须使用UTF-8无BOM编码、统一Unix换行、清除冗余空格与无效章节后,按语义单元切分并设置1200 token重叠区,再注入角色统一、时间归一等结构化指令,方可准确识别长文本中的矛盾点。

你需要一次性把87万字网络小说、几十卷法律案卷或百万字技术白皮书喂给AI,让它准确识别主角人设矛盾、证据链断点或架构设计冲突——传统分章切片必然割裂上下文,导致“林晚”被当成三人,“左前臂骨折”在三份材料中时间对不上,“共享内存bank conflict”在视频第17分和第42分的讲解被判定为两个独立问题。
用VS Code或Notepad++打开源文件,右下角查看编码格式,【必须是UTF-8无BOM】。若显示GBK/ANSI,立即转码,否则M3解析时会出现大量字符,后续所有分析失效。
按Ctrl+H调出替换框,搜索rn(Windows换行),全部替换成n(Unix换行)。M3对rn兼容性差,混合换行会使段落间距崩坏,影响剧情节奏识别。
删除封面页、目录、作者后记、广告插页等非正文章节,只保留从“第一章”到“终章”之间的纯正文。
用正则表达式替换:搜索s{3,},替换为空格。小说TXT常含大量制表符和连续空格,不清理会导致token数虚高——87万字原始文件可能膨胀到1.2M tokens,超出M3上限。
方法一:用Python脚本批量处理 → 读取文件→re.sub(r's+', ' ', text)→strip()→保存。这一步不能跳过,手动删空格极易漏掉隐藏的全角空格或零宽字符。
第一步:计算安全输入长度
M3标称1M tokens,实测稳定上限为92万tokens。预留8万容错空间,目标控制在920k内。
第二步:按语义单元切分而非固定字数
不按每5万字硬切,而是以“章节结尾+空行+下一章标题”为天然断点。重点保护三类锚点不被截断:【角色首次登场段落、伏笔句所在整段、跨章回忆闪回的起止位置】。
第三步:设置1200 token重叠区
每个分块末尾保留最近3个完整场景对话+1个环境描写段,避免“他推开木门”在块A结尾、“门后是血迹斑斑的祭坛”在块B开头——这种割裂会让M3误判为两个独立事件。
在首块输入前插入系统指令段:
“你是一名专业文学分析师,正在处理一部87万字网络小说。请严格遵循以下规则:①将‘林晚’‘晚晚’‘林工’统一识别为同一角色;②所有时间表述需归一化为‘YYYY-MM-DD HH:MM’格式;③发现角色行为逻辑矛盾时,必须标注原文位置(第X章第Y段)及前后200字上下文。”
这一步必须做,否则M3会把昵称变化当作多人物切换,导致人设分析全盘失准。
调用M3 API时,在请求体中显式设置"max_tokens": 16384,并启用cache_enabled: true——M3会自动缓存已解析的文档结构,后续追问“请对比第3组证据与被告质证意见”时响应速度提升3.2倍。
每次请求附带前序块128 token摘要。这步不能省,否则M3会因缺乏滚动上下文而重复解释基础概念。
【注意:摘要总长度不可超过32K tokens,否则触发API硬性截断】