Liabooks Home|PRISM News
生成式AI完全指南:入门者实战手册
科技

生成式AI完全指南:入门者实战手册

14分钟阅读


目录

  1. 为什么生成式AI突然火了
  2. 什么是生成式AI
  3. 生成式AI的类型
  4. 它是如何工作的
  5. 今天就开始用:实战应用指南
  6. 如何写好提示词:5大原则
  7. 必须了解的局限和注意事项
  8. 免费vs付费,该选哪个
  9. 2025年的颠覆者们
  10. 未来会怎样

1. 为什么生成式AI突然火了

2022年11月,ChatGPT横空出世。上线5天突破100万用户,2个月突破1亿用户。这是人类历史上增长最快的应用程序。

三年后的2025年,生成式AI市场呈现爆发式增长。企业AI支出达到370亿美元,同比增长3.2倍。ChatGPT月访问量达到5.26亿(2025年3月数据),78%的企业在业务中使用AI。

为什么会这样?因为三个变化同时发生了。

第一,技术成熟了。 2017年发明的Transformer神经网络架构之后,AI的语言理解能力急剧提升。拥有数十亿参数的大模型能够生成人类水平的文本。

第二,使用门槛大幅降低。 以前使用AI需要编程知识。现在只需在对话框里打字。就像用微信聊天一样简单。

第三,成本暴跌。 从2022年11月到2024年10月,达到GPT-3.5水平的推理成本下降了280倍以上。2025年1月,中国的DeepSeek R1登场,以OpenAI 5%的价格提供同等性能,引发了价格战。

现在生成式AI已经从"要不要试试?"的阶段,进入了"怎么用好?"的阶段。


2. 什么是生成式AI

生成式AI(Generative AI)是能够"创造新内容"的人工智能。传统AI专注于"这张照片是猫还是狗?"这样的分类问题,而生成式AI面对"给我画一只猫"的请求,会创作出一幅全新的图像。

打个比方:传统AI是阅卷老师,区分对错、识别规律、做出预测。而生成式AI是创作者,基于学习的数十亿文本、图像、代码,创造出新的作品。

核心差异整理如下:

对比项传统AI生成式AI
主要功能分类、预测、识别生成、创作、合成
输出结果标签、数值、概率文本、图像、视频、代码
应用场景垃圾邮件过滤、推荐算法写作、设计、编程辅助
交互方式固定输入格式自然语言对话

有人误解生成式AI"只是像鹦鹉一样重复学到的内容"。并非如此。生成式AI从训练数据中提取模式和结构并存储。当收到新的请求时,它会重新组合这些模式,创造出以前不存在的结果。就像读过上千本食谱的厨师创造新菜品一样。


3. 生成式AI的类型

生成式AI根据创造的内容类型分为多种。

文本生成AI

使用最广泛的类型。涵盖写作、翻译、摘要、编程、分析等文本类工作。

服务开发商特点
ChatGPT (GPT-5.1)OpenAI最通用,图像和语音整合,插件生态
Claude (Opus 4.5)Anthropic编程最强(市场份额54%),长文档分析,注重安全
Gemini (3 Pro)Google100万token上下文,Google服务整合,实时信息
DeepSeek R1DeepSeek开源,推理专精,成本降低95%

图像生成AI

仅凭文字描述就能生成绘画、照片、设计作品。

服务特点
Midjourney V7最具艺术风格,设计师首选
DALL-E 3整合ChatGPT,新手友好
Stable Diffusion开源,定制化程度高

视频生成AI

2025年快速增长的领域。从文字或图像生成视频。

服务特点
Sora 2 (OpenAI)2025年9月发布,电影级画质,支持200+迪士尼角色
Runway Gen-3整合视频编辑,创作者首选
Google Veo 3Google生态整合

音乐生成AI

可以作曲、编曲,甚至合成人声。

服务特点
Suno输入歌词即可生成完整歌曲
Udio高音质,多种风格

编程AI

2025年从单纯的辅助工具进化为"智能体"。能够自主编写、测试、调试代码。

服务特点
Claude CodeAnthropic编程智能体,SWE-bench达80.9%
CursorAI原生代码编辑器
GitHub CopilotVS Code整合,用户最多

4. 它是如何工作的

不需要复杂的数学,理解核心原理即可。

LLM的工作原理:"预测下一个词"游戏

大语言模型(LLM)的核心原理出奇简单:预测下一个词

例如,给定"今天的天气真..."这个句子,AI会基于学习的数十亿文本,预测接下来最可能出现的词。"好"、"热"、"冷"等候选词中,选择最符合上下文的那个。

这个简单的原理,配合数十亿参数和海量训练数据,就能产生看起来像是真正理解了一样的输出。

比喻:读过数十亿本书的抄写员

有个很好的比喻来理解生成式AI。想象一个读过数十亿本书、网页、代码的超人抄写员。这个抄写员并没有记住所有内容,而是内化了文章的结构和模式

当你说"帮我写一封商务邮件",这个抄写员会把从数百万封商务邮件中学到的格式、语气、惯例组合起来,写出一封新的邮件。

提示词:与AI沟通的语言

提示词(Prompt)是给AI的指令。同一个AI,提示词写法不同,输出质量天差地别。

差的提示词:"写封邮件" 好的提示词:"我是一家科技创业公司的市场经理。请写一封向客户介绍新产品发布的邮件。语气亲切但专业,300字左右,包含行动号召(CTA)。"

写提示词的能力已经成为AI时代的核心技能。


5. 今天就开始用:实战应用指南

不知道从哪里开始?参考以下场景化应用。

日常生活

场景提示词示例
旅行规划"帮我规划3天2夜的杭州行程。喜欢品茶和安静的地方,有车。"
菜谱推荐"冰箱里有鸡胸肉、西兰花、蒜。在减肥,推荐一道好吃的菜。"
学习助手"用初中生能理解的语言解释Python列表推导式。给3个例子。"

工作场景

场景提示词示例
写邮件"给客户写一封调整会议时间的邮件。礼貌简洁。提供3个备选时间。"
报告摘要"把这份报告浓缩成1页的高管摘要。重点是关键数据和启示。"
数据分析"分析这个CSV文件的月度销售趋势,如有异常请指出。"
整理会议纪要"把这份会议记录整理成:决议事项、待办事项、下一步计划。"

创作场景

场景提示词示例
博客初稿"写一篇关于远程办公利弊的博客初稿。标出需要加入个人经历的地方。"
头脑风暴"为25-35岁职场人群头脑风暴10个订阅服务创意。月费20元以下。"
社交媒体"用这张产品图做一个小红书轮播图策划案。包含吸引眼球的开场。"

6. 如何写好提示词:5大原则

提示词工程是AI时代的核心能力。记住以下5个原则。

原则1:设定角色

给AI设定特定专家角色,回答的角度和深度都会不同。

"你是有10年经验的UX设计师。请分析这个App的用户体验问题。"
"你是律师。请审查这份合同中需要注意的条款。"

原则2:具体明确

模糊的要求只能得到模糊的回答。明确你想要什么。

❌ "告诉我营销策略"
✅ "为B2B SaaS创业公司制定内容营销策略。月预算5万元,团队3人。"

原则3:提供背景

AI不知道你的情况。提供必要的背景信息。

"我经营一家电商店铺,主要客户是30多岁的女性,
卖服装和配饰。最近销售额下降了20%。请分析原因并提出改进建议。"

原则4:指定输出格式

要求表格、列表、Markdown、JSON等格式,就能得到整理好的结果。

"请用以下格式整理上述内容:
- 标题:一句话总结
- 要点:3条bullet
- 待办事项:清单形式"

原则5:分步拆解

复杂任务不要一次性提出,分步骤进行。

第1步:"分析这个市场的现状"
第2步:"基于分析,找出3个机会点"
第3步:"为每个机会提出执行策略"

7. 必须了解的局限和注意事项

生成式AI很强大,但有明确的局限。了解这些才能避免踩坑。

幻觉:一本正经地胡说八道

幻觉(Hallucination)是指AI把不真实的信息说得像真的一样自信。2023年美国有律师因向法庭提交ChatGPT编造的虚假判例而被处分。

应对方法:

  • 重要事实务必交叉验证
  • 要求提供来源,并确认来源真实存在
  • 数字、日期、专有名词要特别小心

缺乏最新信息

大多数AI模型的训练数据有截止日期。它们不知道今天的新闻。

应对方法:

  • 需要实时信息时使用有网页搜索功能的模型(ChatGPT Browse、Perplexity等)
  • 问一下"这个信息的时间截止到什么时候?"

版权与伦理问题

AI生成内容的版权在法律上尚不明确。AI训练数据中包含受版权保护的材料也是争议点。

应对方法:

  • 商用时确认版权政策
  • 标明AI生成更安全
  • 敏感用途考虑企业许可证

隐私保护

输入AI的信息可能被用于训练。输入敏感信息要谨慎。

应对方法:

  • 不要输入个人信息、商业机密
  • 企业版套餐(ChatGPT Enterprise、Claude for Enterprise等)保证数据不用于训练
  • 包含个人信息时先做匿名化处理

8. 免费vs付费,该选哪个

比较一下主要服务的价格。(2026年1月数据)

消费者套餐

服务免费版付费基础版付费高级版
ChatGPTGPT-4o mini$20/月 (Plus)$200/月 (Pro)
ClaudeSonnet 4 (有限制)$20/月 (Pro)$100~200/月 (Max)
GeminiFlash 2.5$20/月 (Advanced)-
DeepSeekR1完整免费API按量付费-

如何选择?

适合选ChatGPT的情况:

  • AI入门新手
  • 需要图像生成、语音对话等多种功能
  • 想使用插件和GPTs生态

适合选Claude的情况:

  • 开发者或编程工作较多
  • 需要分析长文档(合同、论文、报告)
  • 希望获得安全可靠的回答

适合选Gemini的情况:

  • 重度使用Google Workspace(Gmail、Docs、Drive)
  • 实时信息搜索很重要
  • 需要处理超长文档(100万token)

适合选DeepSeek R1的情况:

  • 成本最小化是首要考虑
  • 想用开源模型自行部署
  • 数学、逻辑推理类工作为主

9. 2025年的颠覆者们

2025年是生成式AI历史的转折点。看看几个关键变化。

DeepSeek R1:价格革命的开端

2025年1月,中国创业公司DeepSeek以开源方式发布了R1模型。震惊业界的有三点:

  1. 开发成本:仅600万美元(OpenAI投入数十亿)
  2. 性能:与OpenAI o1相当的推理能力
  3. 价格:API成本比OpenAI低95%

DeepSeek R1打破了"AI开发需要天文数字投入"的固有观念。硅谷称之为"斯普特尼克时刻",随后所有AI公司纷纷降价。

AI智能体的崛起

2025年被称为"AI智能体之年"。智能体AI是超越简单回复,能够自主规划、使用工具、完成任务的AI

传统AI:"帮我安排会议"→"以下是可选时间。" 智能体AI:"帮我安排会议"→检查日历→查询与会者时间→发送邀请邮件→"已为您安排4月15日下午2点的会议。"

据麦肯锡数据,62%的企业正在试验AI智能体。Gartner预测,到2026年企业应用的40%将整合AI智能体。

Sora 2:视频生成走向大众

OpenAI的视频生成模型Sora在2025年9月升级为Sora 2并向公众开放。特别是与迪士尼达成10亿美元合作,可以生成米老鼠、漫威等200多个角色。

电影导演泰勒·佩里在Sora发布后暂停了8亿美元的工作室扩建计划。这预示着影视制作行业即将发生根本性变革。

编程AI大战

Anthropic的Claude在编程领域占据压倒性优势。Claude Code在SWE-bench达到80.9%,编程市场份额达54%。OpenAI随即推出Codex,Google推出Gemini CLI加入竞争。


10. 未来会怎样

短期展望(1-2年)

AI智能体实用化:预计到2026年,40%的企业应用将整合AI智能体。超越简单聊天机器人,实现预订、下单、客服的自主处理。

多模态整合加速:在一个模型中处理文本、图像、语音、视频将成为标准。"告诉我这道菜的做法"配上照片,自然而然地处理多种形式的输入。

成本持续下降:竞争加剧和技术进步将继续推动AI使用成本下降。更多人能更方便地使用AI。

中长期展望(3-5年)

工作方式的变革:AI与其说是取代工作,不如说是改变工作方式。麦肯锡预测,到2030年现有工作时间的30%可以被AI自动化。

个性化AI助手:完全理解个人偏好、习惯、场景的AI助手将普及。就像跟随多年的私人助理了解你的一切。

迈向AGI:超越目前专注特定任务的AI,向像人类一样通用思考的AGI(通用人工智能)进发的研究将继续。



术语表

术语解释
LLM(Large Language Model)大语言模型。用数十亿参数训练的AI模型,是文本生成和理解的核心技术
提示词(Prompt)给AI的指令。提示词质量决定输出质量
TokenAI处理文本的单位。大约中文1个字、英文4个字母为1个token
上下文窗口(Context Window)AI一次能处理的最大文本长度
幻觉(Hallucination)AI把不真实的信息说得像真的一样的现象
微调(Fine-tuning)针对特定目的对基础模型进行额外训练
RAG(Retrieval-Augmented Generation)检索外部数据辅助生成回答的技术。能有效减少幻觉
智能体AI(Agentic AI)能够自主规划、使用工具、完成任务的AI
MCP(Model Context Protocol)Anthropic开发的协议。AI与外部工具对接的标准方式
推理模型(Reasoning Model)逐步思考解决复杂问题的模型。如OpenAI o1、DeepSeek R1

更新日志

日期变更内容
2026-01-06首次发布

本内容不构成投资建议。使用AI服务时,请查阅各服务的使用条款和隐私政策。

© 2026 PRISM by Liabooks. All rights reserved.

观点

記者

黃珉

「在現場17年,現在講述技術的故事」

相关文章