基于 MCTS 的几何问题形式化推理求解
基于 FormalGeo 形式化环境构建 MCTS 搜索智能体,设计 Actor-Evaluator 双模块求解几何题, 重点攻克辅助线构造难点;对 Qwen2.5-7B 做 SFT + GRPO 两阶段训练, 下一步定理 Top-5 ACC 从 0.69 提升到 0.72,整体求解率达 0.82。
$ cat profile.txt
Name : ukashi
Role : LLM Agent & 推荐算法方向研究生
School : 华东师范大学 · 软件工程
Location : Shanghai, China
Status : 在读中,折腾大模型与算法
$ echo "Hello, World!"
// 聚焦大模型 Agent 与推荐算法,喜欢把想法跑起来
目前是华东师范大学软件工程专业的硕士在读,主要研究方向是 大模型 Agent 算法与推荐算法,两个方向都有一些积累。 本科毕业于东北师范大学智能科学与技术专业,一路从传统 ML 摸到 LLM、RAG 和 RL。
也写过一点前端,做过小程序,所以从模型训练到把东西端到端跑起来都能 hold 住。 日常除了写代码,喜欢看动漫、刷电影、出去旅游;常年熬夜选手, 对新技术保持好奇,更喜欢把论文里的想法落地成能真正跑起来的东西。
基于 FormalGeo 形式化环境构建 MCTS 搜索智能体,设计 Actor-Evaluator 双模块求解几何题, 重点攻克辅助线构造难点;对 Qwen2.5-7B 做 SFT + GRPO 两阶段训练, 下一步定理 Top-5 ACC 从 0.69 提升到 0.72,整体求解率达 0.82。
面向车主与客服场景的知识问答系统:PyMuPDF 解析 + 父子两级语义切分, BM25 与 Milvus(dense + sparse + RRF)双路混合召回 + bge-reranker 精排, 微调 Qwen3-8B 实现引用编号输出与越界拒答,离线综合得分 0.88,Context Recall 0.94。
负责独享拼人判责系统的 Prompt Engineering,基于 Qwen-Plus 输出 JSON 判责结果, 1W+ 测试集上 Precision 0.91 / Recall 0.89; 参与基于 Gated Transformer 的模拟轨迹风控模型,上线后黑样本召回率由 48% 提升至 60.3%。
软件工程学院,研究方向聚焦大模型推理、RAG 与强化学习。985 / 211 / 双一流。
信息科学技术学院,系统学习人工智能基础课程,打下算法与工程基本功。211 / 双一流。
国际数学问题求解竞赛赛道,团队斩获 Track1 第二名。
基于"学-练-评-辅"闭环,集成 RAG 课程问答、编程启发式引导、 ICE-Score + LLM 代码评估、GIKT 知识追踪与个性化推荐四大模块。
基于用户行为数据设计多尺度滑动窗口与交叉特征, CatBoost 两阶段架构(CTR + CVR 预测),测试分数 0.271。
基于用户-广告交互序列构建生成式推荐模型 HSTU, InfoNCE 对比学习损失,测试分数 0.074,并尝试 RQ-VAE 多模态特征量化。
$ ./connect.sh
→ GitHub : github.com/ukashi
→ Email : wuyzbj009@163.com
→ School : 华东师范大学 · 软件工程学院
$ _