(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 110111005 A(43)申请公布日 2024.08.09
(21)申请号 202410382830.8(22)申请日 2024.05.09
(71)申请人 上汽安吉物流股份有限公司
地址 200082 上海市杨浦区江浦路1000号
19楼(72)发明人 金忠孝 袁彪
(74)专利代理机构 上海专利商标事务所有限公
司 31100
代理人 胡林岭(51)Int.Cl.
G06Q 10/06(2012.01)G06Q 10/08(2012.01)G06N 20/00(2024.01)
权利要求书2页 说明书7页 附图6页
(54)发明名称
智能分单方法和装置、计算机可读介质以及物流系统(57)摘要
本发明提供了一种智能分单方法和装置、计算机可读介质以及物流系统。该方法包括:A:基于历史物流订单,计算状态跳转概率;B:将当前时刻一运输模式的订单分配积累比例作为状态,将当前时刻决定分配给该运输模式的分配比例作为动作,将在一预设时间段末需要达到的累积比例作为状态终止比例,利用所述状态跳转概率建立完整的状态转移控制策略表,并建立强化学习模型;C:对强化学习模型进行训练直至输出的策略收敛;D:利用所述历史物流订单的数据对输出的策略进行测试,并判断该预设时间段的订单分配比例是否满足该状态终止比例,如果满足,则采用输出的策略作为智能分单方案;如果不满足,则继续重复执行步骤C-D。
CN 110111005 ACN 110111005 A
权 利 要 求 书
1/2页
1.一种智能分单方法,其特征在于,所述方法包括:A:基于历史物流订单,计算状态跳转概率;B:将当前时刻一运输模式的订单分配积累比例作为状态,将当前时刻决定分配给该运输模式的分配比例作为动作,将在一预设时间段末需要达到的累积比例作为状态终止比例,利用所述状态跳转概率建立完整的状态转移控制策略表,并建立强化学习模型;
C:对强化学习模型进行训练直至输出的策略收敛;D:利用所述历史物流订单的数据对输出的策略进行测试,并判断该预设时间段的订单分配比例是否满足该状态终止比例,如果满足,则采用输出的策略作为智能分单方案;如果不满足,则继续重复执行步骤C-D。
2.如权利要求1所述的智能分单方法,其特征在于,所述步骤A包括:对所述历史物流订单进行数量统计,得到历史订单数量的分布区间;基于所述历史订单数量的分布区间,计算所述状态跳转概率。3.如权利要求2所述的智能分单方法,其特征在于,对所述历史物流订单进行数量统计得到历史订单数量的分布区间的步骤包括:
对历史物流订单数据制作二维化图,找出分布最密集的区域,得到所述订单数量的分布区间。
4.如权利要求1所述的智能分单方法,其特征在于,所述强化学习模型为Q-learning模型,所述输出的策略为Q-table。
5.如权利要求4所述的智能分单方法,其特征在于,所述建立强化学习模型包括:所述强化学习模型采用Q(St,At)表示,其中Q(St,At)表示在t时刻下的状态St执行动作At的价值;
建立空的Q-table,并随机初始化Q-table中的Q值;初始化状态St,并确立所述状态终止比例,如果算法到达所述状态终止比例就表示一个回合结束;
对于每个回合,以g-greedy的方法来对初始化的St选取执行的动作,当随机概率大于ε的时候,当前选取Q值最大的动作,而当随机概率小于ε的时候,动作也采取随机的动作,以得到下一步的St+1和回报值R;
对所述强化学习模型Q(St,At)进行更新;反复迭代多个回合,直到Q-table收敛于一固定的值。6.如权利要求5所述的智能分单方法,其特征在于,所述强化学习模型的更新公式为:Q(St,At)=Q(St,At)+α〔Rt+1+γ·maxaQ(St+1,a)-Q(St,At)〕其中,Q(St,At)表示在t时刻下的状态St执行动作At的价值,α表示更新速率,Rt+1表示下一时刻的回报值,γ是对下一时刻的价值函数的折扣系数,maxaQ(St+1,a)表示状态跳转到下一时刻并执行所有的动作状态里面价值最大的那个动作时的价值。
7.如权利要求1所述的智能分单方法,其特征在于,在所述状态转移控制策略表中,其中,所述状态划分为:0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1;所述动作划分为:0%,10%,20%,30%,40%,50%,60%,70%,80%,90%,100%;所述状态终止比例为50%。
8.一种智能分单装置,其特征在于,所述装置包括:状态跳转概率确定模块,被配置成基于历史物流订单来计算状态跳转概率;
2