LLM_based_18

2026-06-04

6.5k 词

GUI Agent 原理 GUI 智能体（GUI Agent），简单说就是能看懂电脑 / 手机屏幕、听懂人话、自动操作软件干活的 AI，附带配套的工具调用技术。一、什么是 GUI Agent 以前 AI 只能打字聊天，GUI Agent 突破限制：用户发一句自然指令，AI 自己看懂界面、点按钮、开软件、跨系统完成整套操作，解决人工重复干活、步骤繁琐、各软件数据不通三大麻烦。靠OmniParser 视觉技术，AI 能截图识别页面按钮、文字、图标，大幅提升界面操作准确率。二、核心运行原理：ReAct 思考 + 行动模式模仿人做事逻辑：先动脑想步骤（Thought）→下达操作指令（Action）→看执行结果（Observation），循环往复做任务。 Function Calling：简单单步任务（查天气、调接口），直接调用固定工具接口，速度快； ReAct：多步骤复杂任务（订外卖、退电商货物），边走边根据结果改方案，两者经常搭配使用。整套执行分五步：用户发需求→AI 思考→调用工具 / 操作界面→接收结果反馈→做完就结束，没做完继续循环。三、三种落地...

LLM_based_17

2026-06-04

学习笔记

3.1k 词

RAG检索增强生成是将信息检索与文本生成深度融合的架构原理稀疏检索：关键词匹配与词频统计稠密检索：词义嵌入向量的相似度匹配嵌入编码：文本转为低维稠密向量索引构建：存入向量数据库相似度检索：余弦相似度，召回Top_k 编码融合生成：问题与检索文档一同输入编码器 Prompt拼接生成：将检索片段拼接在用户问题Prompt中整体架构挑战检索准确性问题稀疏+稠密混合检索重排序模块查询扩展与改写多文档融合难度系统效率瓶颈知识时效性与更新可信度与可追溯性生成、校验多源验证、置信度评分代码导包 1234import numpy as np, torchfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.metrics.pairwise import cosine_similarityfrom transformers import AutoTokenizer, AutoModelForSeq2SeqLM 构建知识库 ...

LLM_based_16

2026-06-03

学习笔记

6.2k 词

MoE混合专家模型用于解决参数规模与计算成本的矛盾： Dense（传统模型）：参数变大，计算量线性增长 Sparse（MoE模型）：参数量巨大，每次推理只激活其中一小部分原理一、MoE 是什么稀疏激活大模型：总参数极大，但每个 token 只激活Top‑k 个专家，计算量不随参数暴涨。普通 Dense：参数↑→计算 / 显存 / 带宽全↑ MoE：参数↑→每 token 计算可控二、结构与位置只替换FFN/MLP，Attention 保持 Dense 专家 = 独立 FFN 模块现代 MoE 三件套：共享专家：所有 token 必走，稳通用能力路由专家：按 token 选 Top‑k，做专业化细粒度专家：多而小，分工更细三、路由 Router（怎么选专家）给 token 打专家分数 Softmax 转概率选Top‑k 选中专家权重重归一化输出加权合并 Top‑1 vs Top‑2 Top‑1：省计算 / 通信，训练易不稳 Top‑2：更稳、防塌缩，成本更高经验：训练 Top‑2，推理 Top‑1 四、系统核心：...

LLM_based_15

2026-06-02

学习笔记

4.6k 词

量化、蒸馏、部署原理量化从高精度****浮点（FP16/BF16/FP32）转换为更低比特的表示（INT8、INT4等），刻度变少，降低显存内存占用。会导致一定精度下降。量化权重：模型参数权重进行压缩量化激活：推理时各层产生的中间激活也转换为低比特 KV缓存：注意力机制中的Key/Value缓存用低比特存储，避免每生成一个新 token 都重复计算之前的注意力信息 PTQ 训练完成后再把权重/激活从浮点转换为低比特，不再训练或只做少量校准 QAT 在训练/微调阶段把量化误差加入前向，让模型在训练中适应低比特噪声蒸馏 logits蒸馏：匹配输出概率分布，学习概率分配方式特征蒸馏：中间层任务蒸馏：把教师当作“数据生成器/标注器”，生成高质量训练数据，训练学生进行SFT 训练要素温度损失蒸馏损失监督损失权重部署训练框架（PyTorch）完成训练与验证到处为更合适的形式（ONNX）推理引擎在目标硬件（GPU/CPU/NPU）高效执行 NPU：低功耗下提供高推理效率，适合移动端与嵌入式算子融合：将操作合并到一次...

m2605

2026-06-01

未分类

297 词

2605 总结五月主要在学习大模型知识，中间也穿插着举办活动和到处逛了逛，总体很充实。改进可能是重心可以转一下计划这几天给LLM收个尾，把重心转移后端的八股和刷lc学习开始清理宿舍的东西，寄回家，做好随时回家的准备存疑也不算存疑，只是我个人的一个想法。原本是想找实习的，但是感觉以我目前的储备，还有本科bg可能不太合适。学校这里又暂时不能走，两头跑不了。还有食宿费用，我还得等国家赈灾拨款下来哈哈哈。等一切结束，可能也没剩几个月实习了，就先不想了。打算先为后面打下一些根基，让大一的时光可以更多从容些，早点去实习/做RA 看看。希望这个选择没错吧。不过，选择也没有对错之分，之后不合适再修正就好啦。

LLM_based_14

2026-05-31

学习笔记

12k 词

多模态大模型 “视觉编码器对齐到 LLM”的完整流程跑通，并做 ablation（有图 vs 无图）对比原理多模态：将其他信号通过模态对齐映射为 tokens，实现 Any-to-Any 发展历程 CLIP：跨模态对比学习，图像-文本对训练，映射，建立联系 BLIP-2 & LLaVA：翻译，预训练好的LLM，通过Q - Forme r(BLIP-2) 或线性投影层 (LLaVA) GPT-4o & Gemini 1.5 pro：端到端全模态融合，训练初期视为同等信号架构范式视觉编码器：常用CLIP-ViT 对齐方案：线性映射（LLaVA）：信息完整，token多，速度慢 1）输入形态：视觉编码器（常见是 CLIP-ViT）把图像切成 patch，输出一串向量 2）投影（Projector）：用一个线性层或两层 MLP 把每个 vi 映射到LLM 的维度di 3）拼接进 LLM：把视觉向量当作一段前缀 token，与文本 token 拼在一起查询提取（BLIP-2, InstructBLIP）：抓重点，压缩token，加速，但丢...

LLM_based_13

2026-05-29

学习笔记

4.1k 词

代码生成大模型原理任务：生成代码代码自动补齐代码翻译与重构要求：语法严格语义精确代码大模型：在海量开源代码库（Github等）进行预训练或微调的大型语言模型（Codex和AlphaCode）发展历史：预设规则补全功能编写转向描述评估体系： HumanEval pass@k 挑战：正确性语法错误逻辑错误可靠性输出不稳定逻辑不一致性能波动安全性生成漏洞代码泄露敏感信息泛化能力代码导包 123import ast, builtins, math, re, tracebackimport numpy as np, torchfrom transformers import AutoTokenizer, AutoModelForCausalLM 模型选择 bigcode/tiny_starcoder_py 123AutoTokenizertok.pad_token=tok.eos_tokenAutoModelForCausalLM 数据集构造 name：任务名字 inst：任务说明...

LLM_based_12

2026-05-28

学习笔记

5.7k 词

复杂推理（思维链）原理进阶推理 CoT作为草稿提供中间步骤 + 验证机制进行审计步骤变长后，误差可能累积事后编造对提示敏感为推理：看起来合理但实际不对 token/时延成本增加结构化CoT A：Plan-and-Solve：列计划再逐步执行，减少跳步。 B：Least-to-Most：先解最简单子问题，逐步递进。先从确定性最强的子问题出发，逐步收缩推理空间，适合多约束任务。 ToT与多路径探索相当于优化问题：多分支推理 + 分步评估 + 回溯选择同一个问题同时探索多个候选思路（分支），每走几步就评估质量，不行就剪枝/回溯，再探索别的分支工具调用 / ReAct思路推理 - 行动（调用实际工具）- 更新修正 Prompt自动化数学推理 PoT 把不擅长的环节交给擅长的工具：求 LLM在遇到需要精确计算的任务时，先生成一段可执行的程序（通常是 Python 代码或计算表达式），然后把计算交给解释器/计算器执行，再把执行结果组织成最终答案。语义理解错误代码生成错误解决强制分两段输出：可执行代码+最终答案 PRM 过程监督...

LLM_based_11

2026-05-26

学习笔记

5.9k 词

文本生成任务（翻译+问答）原理核心特征任务约束性语义一致性格式规范性训练基座预训练 - 任务微调 - 落地适配语义对齐预训练任务指令微调挑战展望幻觉、长文本生成效率、低资源场景适配（数据稀缺）轻量化、多模态、可控生成、事实增强代码调库 12345import reimport numpy as npimport torchimport sacrebleufrom transformers import AutoTokenizer, AutoModelForSeq2SeqLM 加载模型翻译：Helsinki-NLP/opus-mt-en-zh 问答：flan-t5-small 加载，同前，不再赘述。 AutoTokenizer AutoModelForSeq2SeqLM model_mt.eval() 统一生成函数 123456789101112131415161718192021222324# 通过 temperature/top_p 切换 greedy 与采样@torch.no_grad()# top_p：概率...

LLM_based_10

2026-05-22

学习笔记

11k 词

通用信息抽取（IE）与序列标注概念信息抽取 lnformation Extraction 分类信息抽取：非结构化文本到结构化知识的桥梁，是nlp里的任务任务包括：命名实体识别（NER）：文本中识别出来实体，分类出类型关系抽取（RE）：在实体识别后，找出它们之间的关系类型和关系结构事件抽取（EE）：事件抽取依赖实体抽取和关系抽取挑战实体嵌套非连续实体 Schema依赖与零样本：依赖于预先定义的标签集序列标注协议标注范式：将抽取任务转化为对序列中每个Token的分类任务 BIO：Begin, Inside, Outside BILOU：Begin, Inside, Last, Outside, Unit 应用于：中文分词、词性标注、NER、词法分析、文本加标点实现技术深度学习条件随机场（CRF）发射矩阵：每个词对应什么标签的得分表转移矩阵：从一个标签转移到另一个标签的得分解码方法模型已经给出了每个Token的标签得分（发射矩阵）和标签间的转移规则（转移矩阵），解码算法要做的就是筛选，找到总得分最高的最优序列 ...

分类

标签

归档

最新文章

LLM_based_18

LLM_based_17

LLM_based_16

LLM_based_15

m2605

LLM_based_14

LLM_based_13

LLM_based_12

LLM_based_11

LLM_based_10