4 tháng trước cách đây · 01649d9201
--- a/__init__.py
+++ b/__init__.py
@@ -9,14 +9,12 @@ from os.path import dirname, realpath
 
				 
			
 
				 sys.path.append(dirname(realpath(__file__)))
			
 
				 
			
 
				-from feature import FeatureStrategyFactory
			
 
				-from model import ModelFactory
			
 
				+from online_learning import OnlineLearningTrainer
			
 
				 from pipeline import Pipeline
			
 
				-
			
 
				 from data import DataLoaderMysql
			
 
				 from entitys import DbConfigEntity, DataSplitEntity
			
 
				 from monitor import MonitorMetric
			
 
				 from metrics import MetricBase
			
 
				 
			
 
				-__all__ = ['MonitorMetric', 'DataLoaderMysql', 'DbConfigEntity', 'MetricBase', 'FeatureStrategyFactory', 'ModelFactory',
			
 
				-           'Pipeline', 'DataSplitEntity']
			
 
				+__all__ = ['MonitorMetric', 'MetricBase', 'DataLoaderMysql', 'DbConfigEntity',
			
 
				+           'DataSplitEntity', 'Pipeline', 'OnlineLearningTrainer']
			
--- a/easy_ml_demo.ipynb
+++ b/easy_ml_demo.ipynb
--- a/entitys/__init__.py
+++ b/entitys/__init__.py
@@ -9,9 +9,10 @@ from .db_config_entity import DbConfigEntity
 
				 from .metric_entity import MetricFucResultEntity, MetricConfigEntity
			
 
				 from .ml_config_entity import MlConfigEntity
			
 
				 from .monitor_entity import MonitorConfigEntity
			
 
				+from .ol_config_entity import OnlineLearningConfigEntity
			
 
				 
			
 
				 __all__ = ['DataFeatureEntity', 'DbConfigEntity', 'MonitorConfigEntity', 'MetricConfigEntity', 'MetricFucResultEntity',
			
 
				-           'DataSplitEntity', 'MlConfigEntity']
			
 
				+           'DataSplitEntity', 'MlConfigEntity', 'OnlineLearningConfigEntity']
			
 
				 
			
 
				 if __name__ == "__main__":
			
 
				     pass
			
--- a/entitys/ol_config_entity.py
+++ b/entitys/ol_config_entity.py
@@ -0,0 +1,139 @@
 
				+# -*- coding: utf-8 -*-
			
 
				+"""
			
 
				+@author: yq
			
 
				+@time: 2024/11/1
			
 
				+@desc: OnlineLearning数配置类
			
 
				+"""
			
 
				+import json
			
 
				+import os
			
 
				+from typing import List
			
 
				+
			
 
				+from commom import GeneralException, f_get_datetime
			
 
				+from config import BaseConfig
			
 
				+from enums import ResultCodesEnum
			
 
				+from init import warning_ignore
			
 
				+
			
 
				+
			
 
				+class OnlineLearningConfigEntity():
			
 
				+    def __init__(self,
			
 
				+                 path_resources: str,
			
 
				+                 y_column: str,
			
 
				+                 project_name: str = None,
			
 
				+                 lr: float = 0.01,
			
 
				+                 batch_size: int = 64,
			
 
				+                 epochs: int = 50,
			
 
				+                 columns_anns: dict = {},
			
 
				+                 jupyter_print=False,
			
 
				+                 stress_test=False,
			
 
				+                 stress_sample_times=100,
			
 
				+                 stress_bad_rate_list: List[float] = [],
			
 
				+                 *args, **kwargs):
			
 
				+
			
 
				+        self._path_resources = path_resources
			
 
				+        # 定义y变量
			
 
				+        self._y_column = y_column
			
 
				+        # 项目名称，和缓存路径有关
			
 
				+        self._project_name = project_name
			
 
				+        # 学习率
			
 
				+        self._lr = lr
			
 
				+        # 模型单次更新使用数据量
			
 
				+        self._batch_size = batch_size
			
 
				+        # 最大训练轮数
			
 
				+        self._epochs = epochs
			
 
				+
			
 
				+        # 变量注释
			
 
				+        self._columns_anns = columns_anns
			
 
				+
			
 
				+        # jupyter下输出内容
			
 
				+        self._jupyter_print = jupyter_print
			
 
				+
			
 
				+        # 是否开启下输出内容
			
 
				+        self._stress_test = stress_test
			
 
				+
			
 
				+        # jupyter下输出内容
			
 
				+        self._stress_sample_times = stress_sample_times
			
 
				+
			
 
				+        # jupyter下输出内容
			
 
				+        self._stress_bad_rate_list = stress_bad_rate_list
			
 
				+
			
 
				+        if self._project_name is None or len(self._project_name) == 0:
			
 
				+            self._base_dir = os.path.join(BaseConfig.train_path, f"{f_get_datetime()}")
			
 
				+        else:
			
 
				+            self._base_dir = os.path.join(BaseConfig.train_path, self._project_name)
			
 
				+        os.makedirs(self._base_dir, exist_ok=True)
			
 
				+        print(f"项目路径:【{self._base_dir}】")
			
 
				+
			
 
				+        if self._jupyter_print:
			
 
				+            warning_ignore()
			
 
				+
			
 
				+    @property
			
 
				+    def path_resources(self):
			
 
				+        return self._path_resources
			
 
				+
			
 
				+    @property
			
 
				+    def y_column(self):
			
 
				+        return self._y_column
			
 
				+
			
 
				+    @property
			
 
				+    def lr(self):
			
 
				+        return self._lr
			
 
				+
			
 
				+    @property
			
 
				+    def batch_size(self):
			
 
				+        return self._batch_size
			
 
				+
			
 
				+    @property
			
 
				+    def epochs(self):
			
 
				+        return self._epochs
			
 
				+
			
 
				+    @property
			
 
				+    def columns_anns(self):
			
 
				+        return self._columns_anns
			
 
				+
			
 
				+    @property
			
 
				+    def jupyter_print(self):
			
 
				+        return self._jupyter_print
			
 
				+
			
 
				+    @property
			
 
				+    def stress_test(self):
			
 
				+        return self._stress_test
			
 
				+
			
 
				+    @property
			
 
				+    def stress_sample_times(self):
			
 
				+        return self._stress_sample_times
			
 
				+
			
 
				+    @property
			
 
				+    def stress_bad_rate_list(self):
			
 
				+        return self._stress_bad_rate_list
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def from_config(config_path: str):
			
 
				+        """
			
 
				+        从配置文件生成实体类
			
 
				+        """
			
 
				+        if os.path.isdir(config_path):
			
 
				+            config_path = os.path.join(config_path, "olcfg.json")
			
 
				+
			
 
				+        if os.path.exists(config_path):
			
 
				+            with open(config_path, mode="r", encoding="utf-8") as f:
			
 
				+                j = json.loads(f.read())
			
 
				+        else:
			
 
				+            raise GeneralException(ResultCodesEnum.NOT_FOUND, message=f"指配置文件【{config_path}】不存在")
			
 
				+        print(f"olcfg load from【{config_path}】success. ")
			
 
				+        return OnlineLearningConfigEntity(**j)
			
 
				+
			
 
				+    def config_save(self):
			
 
				+        path = self.f_get_save_path("olcfg.json")
			
 
				+        with open(path, mode="w", encoding="utf-8") as f:
			
 
				+            j = {k.lstrip("_"): v for k, v in self.__dict__.items()}
			
 
				+            j = json.dumps(j, ensure_ascii=False)
			
 
				+            f.write(j)
			
 
				+        print(f"olcfg save to【{path}】success. ")
			
 
				+
			
 
				+    def f_get_save_path(self, file_name: str) -> str:
			
 
				+        path = os.path.join(self._base_dir, file_name)
			
 
				+        return path
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    pass
			
--- a/entitys/train_config_entity.py
+++ b/entitys/train_config_entity.py
@@ -1,43 +0,0 @@
 
				-# -*- coding: utf-8 -*-
			
 
				-"""
			
 
				-@author: yq
			
 
				-@time: 2024/11/1
			
 
				-@desc: 模型训练超参数配置类
			
 
				-"""
			
 
				-import json
			
 
				-import os
			
 
				-
			
 
				-from commom import GeneralException
			
 
				-from enums import ResultCodesEnum
			
 
				-
			
 
				-
			
 
				-class TrainConfigEntity():
			
 
				-    def __init__(self, lr: float = None, *args, **kwargs):
			
 
				-        # 学习率
			
 
				-        self._lr = lr
			
 
				-        # 该函数需要去继承
			
 
				-        self.f_get_save_path = None
			
 
				-
			
 
				-    @property
			
 
				-    def lr(self):
			
 
				-        return self._lr
			
 
				-
			
 
				-    def set_save_path_func(self, f):
			
 
				-        self.f_get_save_path = f
			
 
				-
			
 
				-    @staticmethod
			
 
				-    def from_config(config_path: str):
			
 
				-        """
			
 
				-        从配置文件生成实体类
			
 
				-        """
			
 
				-        if os.path.exists(config_path):
			
 
				-            with open(config_path, mode="r", encoding="utf-8") as f:
			
 
				-                j = json.loads(f.read())
			
 
				-        else:
			
 
				-            raise GeneralException(ResultCodesEnum.NOT_FOUND, message=f"指配置文件【{config_path}】不存在")
			
 
				-
			
 
				-        return TrainConfigEntity(**j)
			
 
				-
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    pass
			
--- a/enums/constant_enum.py
+++ b/enums/constant_enum.py
@@ -10,3 +10,5 @@ from enum import Enum
 
				 class ConstantEnum(Enum):
			
 
				     SCORE = "SCORE"
			
 
				     SCORE_BIN = "MODEL_SCORE_BIN"
			
 
				+    # lr模型常数项
			
 
				+    INTERCEPT = "const"
			
--- a/enums/context_enum.py
+++ b/enums/context_enum.py
@@ -8,6 +8,7 @@ from enum import Enum
 
				 
			
 
				 
			
 
				 class ContextEnum(Enum):
			
 
				+    PARAM_OPTIMIZED = "param_optimized"
			
 
				     BIN_INFO_FILTERED = "bin_info_filtered"
			
 
				     HOMO_BIN_INFO_NUMERIC_SET = "homo_bin_info_numeric_set"
			
 
				     WOEBIN = "woebin"
			
--- a/feature/__init__.py
+++ b/feature/__init__.py
@@ -6,5 +6,6 @@
 
				 """
			
 
				 from .feature_strategy_base import FeatureStrategyBase
			
 
				 from .feature_strategy_factory import FeatureStrategyFactory
			
 
				+from .woe.utils import f_woebin_load
			
 
				 
			
 
				-__all__ = ['FeatureStrategyFactory', 'FeatureStrategyBase']
			
 
				+__all__ = ['FeatureStrategyFactory', 'FeatureStrategyBase', 'f_woebin_load']
			
--- a/feature/woe/strategy_woe.py
+++ b/feature/woe/strategy_woe.py
@@ -5,7 +5,6 @@
 
				 @desc: iv值及单调性筛选类
			
 
				 """
			
 
				 import json
			
 
				-import os.path
			
 
				 from itertools import combinations_with_replacement
			
 
				 from typing import Dict, Optional, Union
			
 
				 
			
@@ -25,7 +24,7 @@ from enums import ContextEnum, ResultCodesEnum
 
				 from feature.feature_strategy_base import FeatureStrategyBase
			
 
				 from init import context
			
 
				 from .entity import BinInfo, HomologousBinInfo
			
 
				-from .utils import f_monto_shift, f_get_corr, f_get_vif, f_format_bin, f_trend_shift, f_get_psi
			
 
				+from .utils import f_monto_shift, f_get_corr, f_get_vif, f_format_bin, f_trend_shift, f_get_psi, f_woebin_load
			
 
				 
			
 
				 
			
 
				 class StrategyWoe(FeatureStrategyBase):
			
@@ -481,17 +480,7 @@ class StrategyWoe(FeatureStrategyBase):
 
				         print(f"feature save to【{path}】success. ")
			
 
				 
			
 
				     def feature_load(self, path: str, *args, **kwargs):
			
 
				-        if os.path.isdir(path):
			
 
				-            path = os.path.join(path, "feature.csv")
			
 
				-        if not os.path.isfile(path) or "feature.csv" not in path:
			
 
				-            raise GeneralException(ResultCodesEnum.NOT_FOUND, message=f"特征信息【feature.csv】不存在")
			
 
				-
			
 
				-        df_woebin = pd.read_csv(path)
			
 
				-        variables = df_woebin["variable"].unique().tolist()
			
 
				-        self.sc_woebin = {}
			
 
				-        for variable in variables:
			
 
				-            self.sc_woebin[variable] = df_woebin[df_woebin["variable"] == variable]
			
 
				-        print(f"feature load from【{path}】success.")
			
 
				+        self.sc_woebin = f_woebin_load(path)
			
 
				 
			
 
				     def feature_generate(self, data: pd.DataFrame, *args, **kwargs) -> pd.DataFrame:
			
 
				         x_columns = list(self.sc_woebin.keys())
			
--- a/feature/woe/utils.py
+++ b/feature/woe/utils.py
@@ -4,12 +4,16 @@
 
				 @time: 2023/12/28
			
 
				 @desc:  特征工具类
			
 
				 """
			
 
				+import os
			
 
				 from typing import Union
			
 
				 
			
 
				 import numpy as np
			
 
				 import pandas as pd
			
 
				 from statsmodels.stats.outliers_influence import variance_inflation_factor as vif
			
 
				 
			
 
				+from commom import GeneralException
			
 
				+from enums import ResultCodesEnum
			
 
				+
			
 
				 FORMAT_DICT = {
			
 
				     # 比例类 -1 - 1
			
 
				     "bin_rate1": np.arange(-1, 1 + 0.1, 0.1),
			
@@ -133,3 +137,18 @@ def f_get_vif(data: pd.DataFrame) -> Union[pd.DataFrame, None]:
 
				     df_vif["变量"] = [column.replace("_woe", "") for column in data.columns]
			
 
				     df_vif['vif'] = vif_v
			
 
				     return df_vif
			
 
				+
			
 
				+
			
 
				+def f_woebin_load(path: str):
			
 
				+    if os.path.isdir(path):
			
 
				+        path = os.path.join(path, "feature.csv")
			
 
				+    if not os.path.isfile(path) or "feature.csv" not in path:
			
 
				+        raise GeneralException(ResultCodesEnum.NOT_FOUND, message=f"特征信息【feature.csv】不存在")
			
 
				+
			
 
				+    df_woebin = pd.read_csv(path)
			
 
				+    variables = df_woebin["variable"].unique().tolist()
			
 
				+    sc_woebin = {}
			
 
				+    for variable in variables:
			
 
				+        sc_woebin[variable] = df_woebin[df_woebin["variable"] == variable]
			
 
				+    print(f"feature load from【{path}】success.")
			
 
				+    return sc_woebin
			
--- a/model/__init__.py
+++ b/model/__init__.py
@@ -6,6 +6,7 @@
 
				 """
			
 
				 from .model_base import ModelBase
			
 
				 from .model_factory import ModelFactory
			
 
				-from .model_utils import f_add_rules
			
 
				+from .model_utils import f_add_rules, f_get_model_score_bin, f_calcu_model_ks, f_calcu_model_psi, f_stress_test
			
 
				 
			
 
				-__all__ = ['ModelBase', 'ModelFactory', 'f_add_rules']
			
 
				+__all__ = ['ModelBase', 'ModelFactory', 'f_add_rules', 'f_get_model_score_bin', 'f_calcu_model_ks', 'f_calcu_model_psi',
			
 
				+           'f_stress_test']
			
--- a/model/model_lr.py
+++ b/model/model_lr.py
@@ -79,7 +79,7 @@ class ModelLr(ModelBase):
 
				         self.lr.save(path)
			
 
				         print(f"model save to【{path}】success. ")
			
 
				 
			
 
				-        path = self.ml_config.f_get_save_path(f"coef.dict")
			
 
				+        path = self.ml_config.f_get_save_path("coef.dict")
			
 
				         with open(path, mode="w", encoding="utf-8") as f:
			
 
				             j = json.dumps(self.coef, ensure_ascii=False)
			
 
				             f.write(j)
			
--- a/model/model_utils.py
+++ b/model/model_utils.py
@@ -44,12 +44,12 @@ def f_get_model_score_bin(df, score, bins=None):
 
				     return df, bins
			
 
				 
			
 
				 
			
 
				-def f_calcu_model_psi(df_train, df_test):
			
 
				+def f_calcu_model_psi(df_train, df_test, sort_ascending=True):
			
 
				     tmp1 = df_train.groupby(ConstantEnum.SCORE_BIN.value)[ConstantEnum.SCORE_BIN.value].agg(['count']).sort_index(
			
 
				-        ascending=True)
			
 
				+        ascending=sort_ascending)
			
 
				     tmp1['样本数比例'] = (tmp1['count'] / tmp1['count'].sum()).round(3)
			
 
				     tmp2 = df_test.groupby(ConstantEnum.SCORE_BIN.value)[ConstantEnum.SCORE_BIN.value].agg(['count']).sort_index(
			
 
				-        ascending=True)
			
 
				+        ascending=sort_ascending)
			
 
				     tmp2['样本数比例'] = (tmp2['count'] / tmp2['count'].sum()).round(3)
			
 
				     psi = ((tmp1['样本数比例'] - tmp2['样本数比例']) * np.log(tmp1['样本数比例'] / tmp2['样本数比例'])).round(3)
			
 
				     psi = psi.reset_index()
			
--- a/ol_test.py
+++ b/ol_test.py
@@ -0,0 +1,54 @@
 
				+# -*- coding: utf-8 -*-
			
 
				+"""
			
 
				+@author: yq
			
 
				+@time: 2024/11/27
			
 
				+@desc:
			
 
				+"""
			
 
				+import time
			
 
				+
			
 
				+from entitys import DataSplitEntity
			
 
				+from online_learning import OnlineLearningTrainer
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    time_now = time.time()
			
 
				+    import scorecardpy as sc
			
 
				+
			
 
				+    # 加载数据
			
 
				+    dat = sc.germancredit()
			
 
				+    dat_columns = dat.columns.tolist()
			
 
				+    dat_columns = [c.replace(".","_") for c in dat_columns]
			
 
				+    dat.columns = dat_columns
			
 
				+
			
 
				+    dat["creditability"] = dat["creditability"].apply(lambda x: 1 if x == "bad" else 0)
			
 
				+
			
 
				+    data = DataSplitEntity(train_data=dat[:709], test_data=dat[709:])
			
 
				+
			
 
				+    # 特征处理
			
 
				+    cfg = {
			
 
				+        # 模型系数，分箱信息等，请参考ol_resources_demo目录下文件
			
 
				+        # 模型系数文件 coef.dict（如果有常数项(截距)请用const作为key）
			
 
				+        # 分箱信息文件 feature.csv（数值型的分箱信息请按升序排列）
			
 
				+        "path_resources": "/root/notebook/ol_resources_demo",
			
 
				+        # 项目名称，影响数据存储位置
			
 
				+        "project_name": "OnlineLearningDemo",
			
 
				+        "y_column": "creditability",
			
 
				+        # 学习率
			
 
				+        "lr": 0.01,
			
 
				+        # 单次更新批大小
			
 
				+        "batch_size": 64,
			
 
				+        # 训练轮数
			
 
				+        "epochs": 20,
			
 
				+        "jupyter_print": True,
			
 
				+        # 压力测试
			
 
				+        "stress_test": True,
			
 
				+        # 压力测试抽样次数
			
 
				+        "stress_sample_times": 10,
			
 
				+    }
			
 
				+
			
 
				+    # 训练并生成报告
			
 
				+    trainer = OnlineLearningTrainer(data=data, **cfg)
			
 
				+    trainer.train()
			
 
				+    trainer.report()
			
 
				+
			
 
				+    print(time.time() - time_now)
			
--- a/online_learning/__init__.py
+++ b/online_learning/__init__.py
@@ -0,0 +1,10 @@
 
				+# -*- coding: utf-8 -*-
			
 
				+"""
			
 
				+@author: yq
			
 
				+@time: 2025/2/27
			
 
				+@desc: 
			
 
				+"""
			
 
				+
			
 
				+from .trainer import OnlineLearningTrainer
			
 
				+
			
 
				+__all__ = ['OnlineLearningTrainer']
			
--- a/online_learning/trainer.py
+++ b/online_learning/trainer.py
@@ -0,0 +1,364 @@
 
				+# -*- coding: utf-8 -*-
			
 
				+"""
			
 
				+@author: yq
			
 
				+@time: 2025/2/27
			
 
				+@desc: 
			
 
				+"""
			
 
				+import json
			
 
				+import math
			
 
				+import os
			
 
				+import re
			
 
				+from os.path import dirname, realpath
			
 
				+from typing import Dict, List
			
 
				+
			
 
				+import matplotlib.pyplot as plt
			
 
				+import numpy as np
			
 
				+import pandas as pd
			
 
				+import scorecardpy as sc
			
 
				+import torch
			
 
				+import torch.nn as nn
			
 
				+import torch.optim as optim
			
 
				+from tqdm import tqdm
			
 
				+
			
 
				+from commom import GeneralException, f_image_crop_white_borders, f_df_to_image, f_display_title, \
			
 
				+    f_display_images_by_side
			
 
				+from entitys import DataSplitEntity, OnlineLearningConfigEntity, MetricFucResultEntity
			
 
				+from enums import ResultCodesEnum, ConstantEnum, ContextEnum
			
 
				+from feature import f_woebin_load
			
 
				+from init import init, context
			
 
				+from model import f_get_model_score_bin, f_calcu_model_ks, f_stress_test, f_calcu_model_psi
			
 
				+from monitor import ReportWord
			
 
				+from .utils import LR
			
 
				+
			
 
				+init()
			
 
				+
			
 
				+
			
 
				+class OnlineLearningTrainer:
			
 
				+    def __init__(self, data: DataSplitEntity = None, ol_config: OnlineLearningConfigEntity = None, *args, **kwargs):
			
 
				+        if ol_config is not None:
			
 
				+            self._ol_config = ol_config
			
 
				+        else:
			
 
				+            self._ol_config = OnlineLearningConfigEntity(*args, **kwargs)
			
 
				+        self._data = data
			
 
				+        self._columns = None
			
 
				+        self._model_original: LR
			
 
				+        self._model_optimized: LR
			
 
				+        self.sc_woebin = None
			
 
				+        # 报告模板
			
 
				+        self._template_path = os.path.join(dirname(dirname(realpath(__file__))),
			
 
				+                                           "./template/OnlineLearning报告模板_lr.docx")
			
 
				+        self._init(self._ol_config.path_resources)
			
 
				+
			
 
				+    def _init(self, path: str):
			
 
				+        if not os.path.isdir(path):
			
 
				+            raise GeneralException(ResultCodesEnum.ILLEGAL_PARAMS, message=f"【{path}】不是文件夹")
			
 
				+
			
 
				+        path_coef = os.path.join(path, "coef.dict")
			
 
				+        if not os.path.isfile(path_coef):
			
 
				+            raise GeneralException(ResultCodesEnum.NOT_FOUND, message=f"模型系数文件【{path_coef}】不存在")
			
 
				+        with open(path_coef, mode="r", encoding="utf-8") as f:
			
 
				+            coef = json.loads(f.read())
			
 
				+            print(f"coef load from【{path_coef}】success.")
			
 
				+
			
 
				+        self._columns = list(coef.keys())
			
 
				+        # 排个序，防止因为顺序原因导致的可能的bug
			
 
				+        self._columns.sort()
			
 
				+        weight = [coef[k] for k in self._columns]
			
 
				+        self._model_original = LR(nn.Parameter(torch.tensor(np.array(weight))))
			
 
				+        self._model_optimized = LR(nn.Parameter(torch.tensor(np.array(weight))))
			
 
				+
			
 
				+        self._columns = [re.sub('_woe$', '', i) for i in self._columns]
			
 
				+        # 剔除常数项，因为woe编码里没有常数项
			
 
				+        self._columns_intercept_remove = self._columns.copy()
			
 
				+        if ConstantEnum.INTERCEPT.value in self._columns_intercept_remove:
			
 
				+            self._columns_intercept_remove.remove(ConstantEnum.INTERCEPT.value)
			
 
				+        # woe编码后带_woe后缀
			
 
				+        self._columns_woe = [f"{i}_woe" for i in self._columns]
			
 
				+
			
 
				+        self.sc_woebin = f_woebin_load(path)
			
 
				+        for k in self._columns_intercept_remove:
			
 
				+            if k not in self.sc_woebin.keys():
			
 
				+                GeneralException(ResultCodesEnum.ILLEGAL_PARAMS, message=f"模型变量【{k}】在woe特征里不存在")
			
 
				+
			
 
				+    def _feature_generate(self, data: pd.DataFrame) -> pd.DataFrame:
			
 
				+        data_woe = sc.woebin_ply(data[self._columns_intercept_remove], self.sc_woebin, print_info=False)
			
 
				+        data_woe[f"{ConstantEnum.INTERCEPT.value}_woe"] = [1] * len(data_woe)
			
 
				+        return data_woe[self._columns_woe].to_numpy()
			
 
				+
			
 
				+    def _f_get_best_model(self, df_param: pd.DataFrame) -> LR:
			
 
				+        df_param_sort = df_param.sort_values(by=["ks_test", "auc_test"], ascending=[False, False])
			
 
				+        print(f"最佳参数:\n{df_param_sort.iloc[0].to_dict()}")
			
 
				+        weight = list(df_param_sort.iloc[0])
			
 
				+        weight = nn.Parameter(torch.tensor(np.array(weight[0:-5])))
			
 
				+        return LR(weight)
			
 
				+
			
 
				+    def _f_get_metric_auc_ks(self, model_type: str):
			
 
				+        def _get_auc_ks(data, title):
			
 
				+            y = data[self._ol_config.y_column]
			
 
				+            y_prob = self.prob(data, model)
			
 
				+            perf = sc.perf_eva(y, y_prob, title=f"{title}", show_plot=True)
			
 
				+            path = self._ol_config.f_get_save_path(f"perf_{title}.png")
			
 
				+            perf["pic"].savefig(path)
			
 
				+            auc = perf["AUC"]
			
 
				+            ks = perf["KS"]
			
 
				+            f_image_crop_white_borders(path, path)
			
 
				+            return auc, ks, path
			
 
				+
			
 
				+        train_data = self._data.train_data
			
 
				+        test_data = self._data.test_data
			
 
				+        data = pd.concat((train_data, test_data))
			
 
				+
			
 
				+        model = self._model_optimized
			
 
				+        if model_type != "新模型":
			
 
				+            model = self._model_original
			
 
				+
			
 
				+        img_path_auc_ks = []
			
 
				+        auc, ks, path = _get_auc_ks(data, f"{model_type}-建模数据")
			
 
				+        img_path_auc_ks.append(path)
			
 
				+        train_auc, train_ks, path = _get_auc_ks(train_data, f"{model_type}-训练集")
			
 
				+        img_path_auc_ks.append(path)
			
 
				+        test_auc, test_ks, path = _get_auc_ks(test_data, f"{model_type}-测试集")
			
 
				+        img_path_auc_ks.append(path)
			
 
				+
			
 
				+        df_auc_ks = pd.DataFrame()
			
 
				+        df_auc_ks["样本集"] = ["建模数据", "训练集", "测试集"]
			
 
				+        df_auc_ks["AUC"] = [auc, train_auc, test_auc]
			
 
				+        df_auc_ks["KS"] = [ks, train_ks, test_ks]
			
 
				+
			
 
				+        return MetricFucResultEntity(table=df_auc_ks, image_path=img_path_auc_ks, image_size=5, table_font_size=10)
			
 
				+
			
 
				+    def _f_get_metric_trend(self, ):
			
 
				+        train_data = self._data.train_data
			
 
				+        test_data = self._data.test_data
			
 
				+        y_column = self._ol_config.y_column
			
 
				+        data = pd.concat((train_data, test_data))
			
 
				+
			
 
				+        # 建模样本变量趋势
			
 
				+        breaks_list = {}
			
 
				+        special_values = {}
			
 
				+        for column, bin in self.sc_woebin.items():
			
 
				+            breaks_list[column] = list(bin[bin["is_special_values"] == False]['breaks'])
			
 
				+            sv = list(bin[bin["is_special_values"] == True]['breaks'])
			
 
				+            if len(sv) > 0:
			
 
				+                special_values[column] = sv
			
 
				+        woebin = sc.woebin(data[self._columns_intercept_remove + [y_column]], y=y_column, breaks_list=breaks_list,
			
 
				+                           special_values=special_values, print_info=False)
			
 
				+
			
 
				+        imgs_path = []
			
 
				+        for k, df_bin in woebin.items():
			
 
				+            sc.woebin_plot(df_bin)
			
 
				+            path = self._ol_config.f_get_save_path(f"trend_{k}.png")
			
 
				+            plt.savefig(path)
			
 
				+            imgs_path.append(path)
			
 
				+        return MetricFucResultEntity(image_path=imgs_path, image_size=4)
			
 
				+
			
 
				+    def _f_get_metric_coef(self, ):
			
 
				+        columns_anns = self._ol_config.columns_anns
			
 
				+        df = pd.DataFrame()
			
 
				+        df["变量"] = self._columns
			
 
				+        df["原变量WOE拟合系数"] = [round(i, 4) for i in self._model_original.linear.weight.tolist()]
			
 
				+        df["新变量WOE拟合系数"] = [round(i, 4) for i in self._model_optimized.linear.weight.tolist()]
			
 
				+        anns = [columns_anns.get(column, "-") for column in self._columns]
			
 
				+        df["释义"] = anns
			
 
				+        img_path_coef = self._ol_config.f_get_save_path(f"coef.png")
			
 
				+        f_df_to_image(df, img_path_coef)
			
 
				+        return MetricFucResultEntity(table=df, image_path=img_path_coef)
			
 
				+
			
 
				+    def _f_get_metric_gain(self, model_type: str):
			
 
				+        train_data = self._data.train_data
			
 
				+        test_data = self._data.test_data
			
 
				+        y_column = self._ol_config.y_column
			
 
				+        data = pd.concat((train_data, test_data))
			
 
				+
			
 
				+        model = self._model_optimized
			
 
				+        if model_type != "新模型":
			
 
				+            model = self._model_original
			
 
				+
			
 
				+        score = self.prob(data, model)
			
 
				+        score_bin, _ = f_get_model_score_bin(data, score)
			
 
				+        gain = f_calcu_model_ks(score_bin, y_column, sort_ascending=False)
			
 
				+        img_path_gain = self._ol_config.f_get_save_path(f"{model_type}-gain.png")
			
 
				+        f_df_to_image(gain, img_path_gain)
			
 
				+
			
 
				+        return MetricFucResultEntity(table=gain, image_path=img_path_gain)
			
 
				+
			
 
				+    def _f_get_stress_test(self, ):
			
 
				+        stress_sample_times = self._ol_config.stress_sample_times
			
 
				+        stress_bad_rate_list = self._ol_config.stress_bad_rate_list
			
 
				+        train_data = self._data.train_data
			
 
				+        test_data = self._data.test_data
			
 
				+        y_column = self._ol_config.y_column
			
 
				+        data = pd.concat((train_data, test_data))
			
 
				+        score = self.prob(data, self._model_optimized)
			
 
				+        score_bin, _ = f_get_model_score_bin(data, score)
			
 
				+        df_stress = f_stress_test(score_bin, sample_times=stress_sample_times, bad_rate_list=stress_bad_rate_list,
			
 
				+                                  target_column=y_column, score_column=ConstantEnum.SCORE.value, sort_ascending=False)
			
 
				+
			
 
				+        img_path_stress = self._ol_config.f_get_save_path(f"stress.png")
			
 
				+        f_df_to_image(df_stress, img_path_stress)
			
 
				+        return MetricFucResultEntity(table=df_stress, image_path=img_path_stress)
			
 
				+
			
 
				+    def prob(self, x: pd.DataFrame, model=None):
			
 
				+        if model is None:
			
 
				+            model = self._model_optimized
			
 
				+        model.eval()
			
 
				+        with torch.no_grad():
			
 
				+            x = torch.tensor(self._feature_generate(x), dtype=torch.float64)
			
 
				+            y_prob = model(x)
			
 
				+            y_prob = y_prob.detach().numpy()
			
 
				+            return y_prob
			
 
				+
			
 
				+    def psi(self, x1: pd.DataFrame, x2: pd.DataFrame, points: List[float] = None) -> pd.DataFrame:
			
 
				+        y1 = self.prob(x1)
			
 
				+        y2 = self.prob(x2)
			
 
				+        x1_score_bin, score_bins = f_get_model_score_bin(x1, y1, points)
			
 
				+        x2_score_bin, _ = f_get_model_score_bin(x2, y2, score_bins)
			
 
				+        model_psi = f_calcu_model_psi(x1_score_bin, x2_score_bin, sort_ascending=False)
			
 
				+        print(f"模型psi: {model_psi['psi'].sum()}")
			
 
				+        return model_psi
			
 
				+
			
 
				+    def train(self, ):
			
 
				+        epochs = self._ol_config.epochs
			
 
				+        batch_size = self._ol_config.batch_size
			
 
				+        train_data = self._data.train_data
			
 
				+        test_data = self._data.test_data
			
 
				+        train_x = self._feature_generate(train_data)
			
 
				+        train_y = train_data[self._ol_config.y_column].to_numpy()
			
 
				+        test_x = torch.tensor(self._feature_generate(test_data), dtype=torch.float64)
			
 
				+        test_y = test_data[self._ol_config.y_column]
			
 
				+
			
 
				+        criterion = nn.BCELoss()
			
 
				+        optimizer = optim.Adam(self._model_optimized.parameters(), lr=self._ol_config.lr)
			
 
				+
			
 
				+        df_param_columns = self._columns + ["auc_test", "ks_test", "epoch", "loss_train", "loss_test"]
			
 
				+        df_param = pd.DataFrame(columns=df_param_columns)
			
 
				+
			
 
				+        for epoch in tqdm(range(epochs)):
			
 
				+            data_len = len(train_x)
			
 
				+            loss_train = 0
			
 
				+            for i in range(math.ceil(data_len / batch_size)):
			
 
				+                train_x_batch = torch.tensor(train_x[i * batch_size:(i + 1) * batch_size], dtype=torch.float64)
			
 
				+                train_y_batch = torch.tensor(train_y[i * batch_size:(i + 1) * batch_size], dtype=torch.float64)
			
 
				+                self._model_optimized.train()
			
 
				+                optimizer.zero_grad()
			
 
				+                y_prob = self._model_optimized(train_x_batch)
			
 
				+                loss = criterion(y_prob, train_y_batch)
			
 
				+                loss.backward()
			
 
				+                optimizer.step()
			
 
				+                loss_train = loss.detach().item()
			
 
				+            # 测试集评估
			
 
				+            self._model_optimized.eval()
			
 
				+            with torch.no_grad():
			
 
				+                y_prob = self._model_optimized(test_x)
			
 
				+                loss = criterion(y_prob, torch.tensor(test_y.to_numpy(), dtype=torch.float64))
			
 
				+                loss_test = loss.detach().item()
			
 
				+                y_prob = y_prob.detach().numpy()
			
 
				+                perf = sc.perf_eva(test_y, y_prob, show_plot=False)
			
 
				+                auc = perf["AUC"]
			
 
				+                ks = perf["KS"]
			
 
				+                row = self._model_optimized.linear.weight.tolist() + [auc, ks, epoch + 1, loss_train, loss_test]
			
 
				+                df_param.loc[len(df_param)] = dict(zip(df_param_columns, row))
			
 
				+                # print(f"epoch:{epoch + 1} auc:{auc} ks:{ks}")
			
 
				+
			
 
				+        self._model_optimized = self._f_get_best_model(df_param)
			
 
				+
			
 
				+        context.set(ContextEnum.PARAM_OPTIMIZED, df_param)
			
 
				+
			
 
				+    def save(self):
			
 
				+
			
 
				+        self._ol_config.config_save()
			
 
				+
			
 
				+        if self.sc_woebin is None:
			
 
				+            GeneralException(ResultCodesEnum.NOT_FOUND, message=f"feature不存在")
			
 
				+        df_woebin = pd.concat(self.sc_woebin.values())
			
 
				+        path = self._ol_config.f_get_save_path(f"feature.csv")
			
 
				+        df_woebin.to_csv(path)
			
 
				+        print(f"feature save to【{path}】success. ")
			
 
				+
			
 
				+        if self._model_optimized is None:
			
 
				+            GeneralException(ResultCodesEnum.NOT_FOUND, message=f"模型不存在")
			
 
				+        path = self._ol_config.f_get_save_path("coef.dict")
			
 
				+        with open(path, mode="w", encoding="utf-8") as f:
			
 
				+            coef = dict(zip(self._columns, self._model_optimized.linear.weight.tolist()))
			
 
				+            j = json.dumps(coef, ensure_ascii=False)
			
 
				+            f.write(j)
			
 
				+        print(f"model save to【{path}】success. ")
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def load(path: str):
			
 
				+        ol_config = OnlineLearningConfigEntity.from_config(path)
			
 
				+        ol_config._path_resources = path
			
 
				+        return OnlineLearningTrainer(ol_config=ol_config)
			
 
				+
			
 
				+    def report(self, ):
			
 
				+
			
 
				+        metric_value_dict = {}
			
 
				+        # 样本分布
			
 
				+        metric_value_dict["样本分布"] = MetricFucResultEntity(table=self._data.get_distribution(self._ol_config.y_column),
			
 
				+                                                          table_font_size=10, table_cell_width=3)
			
 
				+
			
 
				+        # 模型结果对比
			
 
				+        metric_value_dict[f"模型结果-新模型"] = self._f_get_metric_auc_ks("新模型")
			
 
				+        metric_value_dict[f"模型结果-原模型"] = self._f_get_metric_auc_ks("原模型")
			
 
				+
			
 
				+        # 变量趋势
			
 
				+        metric_value_dict["变量趋势-建模数据"] = self._f_get_metric_trend()
			
 
				+
			
 
				+        # 模型系数对比
			
 
				+        metric_value_dict["模型系数"] = self._f_get_metric_coef()
			
 
				+
			
 
				+        # 分数分箱
			
 
				+        metric_value_dict["分数分箱-建模数据-新模型"] = self._f_get_metric_gain("新模型")
			
 
				+        metric_value_dict["分数分箱-建模数据-原模型"] = self._f_get_metric_gain("原模型")
			
 
				+
			
 
				+        # 压力测试
			
 
				+        if self._ol_config.stress_test:
			
 
				+            metric_value_dict["压力测试"] = self._f_get_stress_test()
			
 
				+
			
 
				+        if self._ol_config.jupyter_print:
			
 
				+            self.jupyter_print(metric_value_dict)
			
 
				+
			
 
				+        save_path = self._ol_config.f_get_save_path("OnlineLearning报告.docx")
			
 
				+        ReportWord.generate_report(metric_value_dict, self._template_path, save_path=save_path)
			
 
				+        print(f"模型报告文件储存路径:{save_path}")
			
 
				+
			
 
				+    def jupyter_print(self, metric_value_dict=Dict[str, MetricFucResultEntity]):
			
 
				+        from IPython import display
			
 
				+
			
 
				+        df_param = context.get(ContextEnum.PARAM_OPTIMIZED)
			
 
				+
			
 
				+        f_display_title(display, "样本分布")
			
 
				+        display.display(metric_value_dict["样本分布"].table)
			
 
				+
			
 
				+        f_display_title(display, "模型结果")
			
 
				+        print(f"原模型")
			
 
				+        display.display(metric_value_dict["模型结果-原模型"].table)
			
 
				+        f_display_images_by_side(display, metric_value_dict["模型结果-原模型"].image_path)
			
 
				+        print(f"新模型")
			
 
				+        display.display(metric_value_dict["模型结果-新模型"].table)
			
 
				+        f_display_images_by_side(display, metric_value_dict["模型结果-新模型"].image_path)
			
 
				+
			
 
				+        f_display_title(display, "模型系数")
			
 
				+        display.display(metric_value_dict["模型系数"].table)
			
 
				+
			
 
				+        f_display_title(display, "分数分箱")
			
 
				+        print(f"建模数据上分数分箱")
			
 
				+        print(f"原模型")
			
 
				+        display.display(metric_value_dict["分数分箱-建模数据-原模型"].table)
			
 
				+        print(f"新模型")
			
 
				+        display.display(metric_value_dict["分数分箱-建模数据-新模型"].table)
			
 
				+
			
 
				+        f_display_title(display, "变量趋势")
			
 
				+        print(f"建模数据上变量趋势")
			
 
				+        f_display_images_by_side(display, metric_value_dict["变量趋势-建模数据"].image_path)
			
 
				+
			
 
				+        if "压力测试" in metric_value_dict.keys():
			
 
				+            f_display_title(display, "压力测试")
			
 
				+            display.display(metric_value_dict["压力测试"].table)
			
 
				+
			
 
				+        f_display_title(display, "系数优化过程")
			
 
				+        display.display(df_param)
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    pass
			
--- a/online_learning/utils.py
+++ b/online_learning/utils.py
@@ -0,0 +1,22 @@
 
				+# -*- coding: utf-8 -*-
			
 
				+"""
			
 
				+@author: yq
			
 
				+@time: 2025/2/27
			
 
				+@desc: 
			
 
				+"""
			
 
				+import torch.nn as nn
			
 
				+
			
 
				+
			
 
				+class LR(nn.Module):
			
 
				+    def __init__(self, weight: nn.Parameter):
			
 
				+        super(LR, self).__init__()
			
 
				+        self.linear = nn.Linear(weight.shape[0], 1, bias=False)
			
 
				+        self.linear.weight = weight
			
 
				+        self.sigmoid = nn.Sigmoid()
			
 
				+
			
 
				+    def forward(self, x):
			
 
				+        return self.sigmoid(self.linear(x))
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    pass
			
--- a/pipeline/pipeline.py
+++ b/pipeline/pipeline.py
@@ -4,12 +4,14 @@
 
				 @time: 2024/11/1
			
 
				 @desc: 模型训练管道
			
 
				 """
			
 
				+from typing import List
			
 
				+
			
 
				 import pandas as pd
			
 
				 
			
 
				 from entitys import DataSplitEntity, MlConfigEntity, DataFeatureEntity
			
 
				 from feature import FeatureStrategyFactory, FeatureStrategyBase
			
 
				 from init import init
			
 
				-from model import ModelBase, ModelFactory, f_add_rules
			
 
				+from model import ModelBase, ModelFactory, f_add_rules, f_get_model_score_bin, f_calcu_model_psi
			
 
				 from monitor import ReportWord
			
 
				 
			
 
				 init()
			
@@ -53,6 +55,19 @@ class Pipeline():
 
				     def score_rule(self, data: pd.DataFrame):
			
 
				         return self._model.score_rule(data)
			
 
				 
			
 
				+    def psi(self, x1: pd.DataFrame, x2: pd.DataFrame, points: List[float] = None) -> pd.DataFrame:
			
 
				+        if len(self._ml_config.rules) != 0:
			
 
				+            y1 = self.score_rule(x1)
			
 
				+            y2 = self.score_rule(x2)
			
 
				+        else:
			
 
				+            y1 = self.score(x1)
			
 
				+            y2 = self.score(x2)
			
 
				+        x1_score_bin, score_bins = f_get_model_score_bin(x1, y1, points)
			
 
				+        x2_score_bin, _ = f_get_model_score_bin(x2, y2, score_bins)
			
 
				+        model_psi = f_calcu_model_psi(x1_score_bin, x2_score_bin)
			
 
				+        print(f"模型psi: {model_psi['psi'].sum()}")
			
 
				+        return model_psi
			
 
				+
			
 
				     def report(self, ):
			
 
				         save_path = self._ml_config.f_get_save_path("模型报告.docx")
			
 
				         ReportWord.generate_report(self.metric_value_dict, self._model.get_report_template_path(), save_path=save_path)
			
--- a/requirements-analysis.txt
+++ b/requirements-analysis.txt
@@ -18,3 +18,4 @@ kaleido==0.2.1
 
				 statsmodels==0.12.2
			
 
				 beautifulsoup4==4.11.1
			
 
				 openpyxl==3.0.9
			
 
				+torch==1.1.0
			
--- a/template/OnlineLearning报告模板_lr.docx
+++ b/template/OnlineLearning报告模板_lr.docx