LLM_based_20

1.1k 词

AI for Science

原理

构建 数据提取 - 科学发现 - 优化求解 的完整科研闭环,减少试错,提高研发效率。

四大核心任务类型

  • 预测型任务:构建 “输入 - 结果” 映射关系。将科研问题转化为可学习的映射模型,用 AI 预测替代高成本实验与仿真。
  • 生成与设计型任务:主动产出全新候选方案。主动设计新对象与实验方案,需同时满足多目标约束。
  • 因果与机理型任务:从相关性挖掘科学机理。
  • 自动化实验闭环:将 AI 决策与自动化实验平台结合,形成设计 - 执行 - 数据回流 - 模型更新的循环系统。

科学数据体系:类型、差异与预处理

  • 科学数据与互联网数据
  • AI4S常见数据形态及表征
  • 科学数据预处理要点

模型架构选型:依据数据特征匹配模型、

  • 序列数据(蛋白、基因、SMILES):选用Transformer,依托注意力机制解决长距离依赖问题。
  • 图结构数据(分子图、知识图谱):选用GNN(图神经网络),通过消息传递聚合节点与邻域信息。
  • 图像数据:传统图像用CNN捕捉局部特征;复杂全局图像用 ViT(视觉 Transformer) 建模全局关系。
  • 多模态数据(融合文本、图像、谱图、结构):采用多模态融合模型,通过跨注意力实现多源信息对齐与联合推理。

主流生成式模型(用于分子 / 材料 / 序列设计)

  • VAE(变分自编码器):将离散结构映射为连续隐空间,把离散组合问题转为连续优化,支持结构插值与局部编辑。
  • 扩散模型(Diffusion Model):通过逐步去噪生成结构,擅长打造精细、符合物理 / 化学约束的多尺度构型。
  • 自回归模型:将结构转为序列逐一生成,优势是强可控性,可嵌入领域规则、限定结构片段,实现条件化生成。

代码

  • AI4S的基础工作流

    • 流程:数据 - 特征 - 训练 - 评估 - 结构化抽取(可选LLM)
  • 简单特征构建科学属性预测的基线模型

    • 根据化学公式,转换计数

    • 向量化后的矩阵,并得到材料对应的能带宽度

    • 训练最小基线模型,使用最小二乘

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      # 加偏置项后做最小二乘
      Xb = np.c_[np.ones(len(X_train)), X_train] # 添加全为 1的偏置项,c_按列拼接
      """
      用最小二乘法(Least Squares)求出线性回归的参数 θ
      Xb @ θ ≈ y_train
      """
      theta, *_ = np.linalg.lstsq(Xb, y_train, rcond=None)

      # 预测
      Xb_test = np.c_[np.ones(len(X_test)), X_test]
      y_pred = Xb_test @ theta

      mae = np.mean(np.abs(y_pred - y_test))
  • LLM进行科学文本结构化抽取

    • 使用规则提取
    • 使用LLM大模型
留言