vor 2 Monaten · e41454aad6
--- a/defect_analysis/ml/predict.py
+++ b/defect_analysis/ml/predict.py
@@ -33,14 +33,14 @@ def predict_key_factors(df, *, target_defect_type=None, target_severity=None, mo
 
				     probabilities = pd.Series(model.predict_proba(X)[:, 1], index=X.index)
			
 
				 
			
 
				     scored = key_factors.copy()
			
 
				+    # 向量化：把 key_factors 的维度/因子值映射为 one-hot 列名后取概率均值
			
 
				+    dimension = scored["维度"].astype(str)
			
 
				+    value = scored["因子值"].astype(str)
			
 
				+    column_names = dimension + "=" + value
			
 
				     ml_scores = []
			
 
				-    for _, row in scored.iterrows():
			
 
				-        dimension = row["维度"]
			
 
				-        value = row["因子值"]
			
 
				-        column = f"{dimension}={value}"
			
 
				-        if column in X.columns:
			
 
				-            mask = X[column] == 1
			
 
				-            ml_scores.append(float(probabilities.loc[mask].mean()) if mask.any() else 0.0)
			
 
				+    for col in column_names:
			
 
				+        if col in X.columns:
			
 
				+            ml_scores.append(float(probabilities.loc[X[col] == 1].mean()) if X[col].any() else 0.0)
			
 
				         else:
			
 
				             ml_scores.append(0.0)
			
 
				     scored["ml_probability"] = ml_scores
			
--- a/train_ml_models.py
+++ b/train_ml_models.py
@@ -20,7 +20,10 @@ from defect_analysis.schemas import normalize_defect_schema
 
				 
			
 
				 
			
 
				 def load_defect_csv(csv_path):
			
 
				-    return normalize_defect_schema(pd.read_csv(csv_path, parse_dates=["timestamp"], encoding="utf-8-sig"))
			
 
				+    try:
			
 
				+        return normalize_defect_schema(pd.read_csv(csv_path, parse_dates=["timestamp"], encoding="utf-8-sig"))
			
 
				+    except (ValueError, KeyError) as exc:
			
 
				+        raise SystemExit(f"CSV 读取失败: 请确保文件包含 timestamp 列，格式为 utf-8 — {exc}")
			
 
				 
			
 
				 
			
 
				 def build_bundle_report(bundle):