Thanks to visit codestin.com
Credit goes to github.com

Skip to content

提升AI学习效率——打破“独立事件“训练框架 #1

@LinUser-000

Description

@LinUser-000

在原始学习信息输入恒定的约束条件下,可以通过增强AI逻辑推理当中经验抽象、迁移运用的能力,实现AI系统学习效率质的提升。
而这需要打破传统强化学习的“独立事件”训练框架,构建“非独立事件”的任务间显式关联的训练框架。

目前AI的强化学习,只强调了“独立事件”训练框架当中,每条信息各自本身的正确与否,只针对这个进行强化学习。

而高学习效率除了强调“独立事件”训练框架当中,每条信息各自本身的正确与否以外,还强调了如何根据这条信息,进行一些【对于正确与否来说,不必要的逻辑推理】。
例如:如何根据这条信息,进行经验抽象,然后将这种经验抽象迁移运用到其他信息当中?

这种经验抽象迁移运用的逻辑推理,对于目前AI的“独立事件”训练框架的强化学习来说,是没有被奖励的逻辑推理,是不必要的、“画蛇添足”的、“跑题”的逻辑推理,所以AI在这方面没有显著的提高。

但是如果想要提高AI的学习效率,恰恰就是需要这种,目前强化学习还没有奖励的“画蛇添足”的、“跑题”的逻辑推理。

而目前AI强化学习无法有效奖励,这种可以提高学习效率的逻辑推理,其根本原因在于:
【目前AI的训练都是“独立事件”训练框架,而高学习效率推理的优势,需要在相互关联的“非独立事件”的任务间显式关联的训练框架当中进行整体观测,才能够体现出其优势,才能够设置其对应的强化学习奖惩机制】。

目前个人想到的相互关联的“非独立事件”的任务间显式关联的训练框架“整体观测有四种方法。

方法一:将训练事件进行分类,将可以进行经验抽象、迁移运用的训练事件放到一个集合当中。
AI不一个事件一个事件的进行“独立事件“强化学习,而是一组事件一个集合的进行“整体”强化学习。
让AI在一个集合内部自己学会经验抽象、迁移运用提高学习效率。
甚至于不需要人为的分集合,直接将所有的训练事件作为一个“整体”进行强化学习,让AI自己去分集合。
其对应的强化学习奖惩机制可以是,“整体”内部失败试错次数累计添加惩罚。每多一次失败试错就累计添加一部分累计添加惩罚
注意,将逻辑推理长度设置为奖惩机制有可能并不合适

方法二:AI具有超长的上下文注意力,已经完成的AI训练事件,都是正在进行的AI训练事件的上文。
将AI的逻辑推理分为A、B两个部分。部分A是,已完成训练事件,和正在进行训练事件之间的共性推理。部分B是,借助部分A解决正在训练事件的推理。
其对应的强化学习奖惩机制可以是,对部分B的失败试错次数进行累计添加惩罚。部分B每多失败试错一次就累计添加一部分一部分累计添加惩罚,让部分B尽可能少的失败试错,尽可能快的解决正在训练的事件。

方法三:专门建立一个经验抽象迁移运用动态知识库或专家
通过借鉴训练AI逻辑推理格式的方法,在一开始的逻辑推理格式当中添加一个部分,填写从动态知识库或专家当中选择的经验抽象,然后在接下来的逻辑推理当中进行迁移运用。在最后的逻辑推理格式当中添加一个部分,总结这个事件的经验抽象,添加到动态知识库或专家当中。
这个方法存在一个,如何保证动态知识库或专家有效动态变化的问题。上一个事件的经验抽象不一定最好的,需要后面的迁移运用反馈进行动态变化
其对应的强化学习奖惩机制,需要针对动态知识库或专家逻辑推理两个部分进行设计。

方法四:有别于以上三种方法的直接针对原始“独立事件”训练框架进行修改,方法四则是在保持原始“独立事件”训练框架不变的前提下,进行“二次再训练”。
二次再训练”是在已经完成了全部原始“独立事件”训练之后,构建任务间显式关联,优化原本的逻辑推理。
这种优化逻辑推理,既包括上面提到的经验抽象迁移运用,也包括构建动态知识库或专家
其“二次再训练”对应的强化学习奖惩机制,同样需要针对动态知识库或专家逻辑推理两个部分进行设计。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions