-
Couldn't load subscription status.
- Fork 2
Description
在原始学习信息输入恒定的约束条件下,可以通过增强AI逻辑推理当中经验抽象、迁移运用的能力,实现AI系统学习效率质的提升。
而这需要打破传统强化学习的“独立事件”训练框架,构建“非独立事件”的任务间显式关联的训练框架。
目前AI的强化学习,只强调了“独立事件”训练框架当中,每条信息各自本身的正确与否,只针对这个进行强化学习。
而高学习效率除了强调“独立事件”训练框架当中,每条信息各自本身的正确与否以外,还强调了如何根据这条信息,进行一些【对于正确与否来说,不必要的逻辑推理】。
例如:如何根据这条信息,进行经验的抽象,然后将这种经验抽象,迁移运用到其他信息当中?
这种经验抽象、迁移运用的逻辑推理,对于目前AI的“独立事件”训练框架的强化学习来说,是没有被奖励的逻辑推理,是不必要的、“画蛇添足”的、“跑题”的逻辑推理,所以AI在这方面没有显著的提高。
但是如果想要提高AI的学习效率,恰恰就是需要这种,目前强化学习还没有奖励的“画蛇添足”的、“跑题”的逻辑推理。
而目前AI强化学习无法有效奖励,这种可以提高学习效率的逻辑推理,其根本原因在于:
【目前AI的训练都是“独立事件”训练框架,而高学习效率推理的优势,需要在相互关联的“非独立事件”的任务间显式关联的训练框架当中进行整体观测,才能够体现出其优势,才能够设置其对应的强化学习奖惩机制】。
目前个人想到的相互关联的“非独立事件”的任务间显式关联的训练框架“整体观测有四种方法。
方法一:将训练事件进行分类,将可以进行经验抽象、迁移运用的训练事件放到一个集合当中。
AI不一个事件一个事件的进行“独立事件“强化学习,而是一组事件一个集合的进行“整体”强化学习。
让AI在一个集合内部自己学会经验抽象、迁移运用提高学习效率。
甚至于不需要人为的分集合,直接将所有的训练事件作为一个“整体”进行强化学习,让AI自己去分集合。
其对应的强化学习奖惩机制可以是,“整体”内部失败试错次数的累计添加惩罚。每多一次失败试错就累计添加一部分累计添加惩罚。
注意,将逻辑推理长度设置为奖惩机制有可能并不合适。
方法二:AI具有超长的上下文注意力,已经完成的AI训练事件,都是正在进行的AI训练事件的上文。
将AI的逻辑推理分为A、B两个部分。部分A是,已完成训练事件,和正在进行训练事件之间的共性推理。部分B是,借助部分A解决正在训练事件的推理。
其对应的强化学习奖惩机制可以是,对部分B的失败试错次数进行累计添加惩罚。部分B每多失败试错一次就累计添加一部分一部分累计添加惩罚,让部分B尽可能少的失败试错,尽可能快的解决正在训练的事件。
方法三:专门建立一个经验抽象、迁移运用的动态知识库或专家。
通过借鉴训练AI逻辑推理格式的方法,在一开始的逻辑推理格式当中添加一个部分,填写从动态知识库或专家当中选择的经验抽象,然后在接下来的逻辑推理当中进行迁移运用。在最后的逻辑推理格式当中添加一个部分,总结这个事件的经验抽象,添加到动态知识库或专家当中。
这个方法存在一个,如何保证动态知识库或专家有效动态变化的问题。上一个事件的经验抽象不一定最好的,需要后面的迁移运用反馈进行动态变化。
其对应的强化学习奖惩机制,需要针对动态知识库或专家和逻辑推理两个部分进行设计。
方法四:有别于以上三种方法的直接针对原始“独立事件”训练框架进行修改,方法四则是在保持原始“独立事件”训练框架不变的前提下,进行“二次再训练”。
“二次再训练”是在已经完成了全部原始“独立事件”训练之后,构建任务间显式关联,优化原本的逻辑推理。
这种优化逻辑推理,既包括上面提到的经验抽象、迁移运用,也包括构建动态知识库或专家。
其“二次再训练”对应的强化学习奖惩机制,同样需要针对动态知识库或专家和逻辑推理两个部分进行设计。