Txing

欢迎来到 | 伽蓝之堂

0%

提出一种处理不平衡类别的损失函数,对分类准确的样本小权重,给不确定的样本大权重。在保持检测速度的情况下(一阶段检测器),精确度达到二阶段检测器水平。

近期需要提升代码运行效率,想通过多线程或多进程实现。一般来说,单进程程序运行起来会作为一个进程占用CPU资源,而一个进程可以包含1或多个线程。在多CPU核的机器上,线程之间可以并行执行,通过该方式可以提高代码运行效率。

鲁棒强化学习可以形式化为一个最大值最小化问题,目标是学习最大化价值的策略,而不是不确定性集合中最差的可能模型。本文提出一个Robust Fitted Q-Iteration (RFQI)算法来应对离线数据收集、模型优化、无偏估计问题。