Codestin Search App

History

336 lines (306 loc) · 18.5 KB

Raw

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

<!doctype html>

<head>

<title>杨艺 Yang Yi | NLP Researcher</title>

</head>

<body>

</li>

</li>

</li>

</li>

</li>

</li>

<a href="#awards" class="toc-link">荣誉与奖项</a>

</li>

</li>

</ul>

</nav>

</div>

<div class="eyebrow">LLM Agent / NLP 算法实习候选人</div>

<strong>聚焦 Agent Harness、Tool Calling、Trace Feedback 与多智能体仿真</strong>

<span class="muted">深圳大学计算机技术硕士在读（2027届） · 可实习 6 个月 · Base 深圳</span>

</div>

</div>

<span class="metric-value">EMNLP 2025</span>

</div>

</div>

<span class="metric-label">Terminal-Bench Easy pass@1</span>

</div>

<a href="https://github.com/yangyi626" target="_blank" class="secondary-action">GitHub</a>

<a href="https://scholar.google.com/citations?user=r5EdeWEAAAAJ&hl=en" target="_blank" class="secondary-action">Google Scholar</a>

</div>

</div>

<strong>计算机技术</strong> | <strong>硕士（推免）</strong> | 研究方向：NLP、多智能体仿真、立场检测

</div>

<span class="edu-title">广西师范大学</span>

</div>

<strong>数据科学与大数据技术</strong> | <strong>本科</strong>

</div>

<div>

<span class="venue">EMNLP 2025</span>

</div>

<span class="pub-title">SPARK: Simulating the Co-evolution of Stance and Topic Dynamics in Online

Discourse with LLM-based Agents</span>

</li>

<div>

</div>

<span class="pub-title">C-MTCSD: A Chinese Multi-Turn Conversational Stance Detection Dataset</span>

</li>

</ul>

</div>

<span class="project-title">深圳市亿道数码技术有限公司 / 亿道研究院 / AI技术组</span>

<span class="project-meta"><strong>算法实习生</strong> | 2026.02 – 2026.05</span>

<span class="project-title">AIPC Agent One：端云协同的可执行 Agent 系统</span>

<ul>

<li>面向 AIPC 场景下 <strong>PC 主执行、手机审批协同、NAS 私有归档</strong>等复杂任务链路，参与从 0 到 1 构建端云协同 Agent 系统，负责 Agent Runtime、Skill / Memory、Harness 评测与端侧训练链路核心模块</li>

<li>设计云端 <strong>Agent Runtime 与 Skill / Memory 机制</strong>，统一任务输入、步骤规划、工具调用、异常处理、执行日志与上下文管理，将高频流程抽象为可复用 Skill</li>

<li>构建 <strong>Agent-One Harness</strong> 评测进化框架，接入 Terminal-Bench 2.0 真实终端任务集，完成批量运行、断点续跑、Trace 保存与 <strong>pass@1</strong> 统计；Easy 子集达到 <span class="highlight">pass@1 = 100%</span></li>

<li>基于稳定 Harness 产出的高质量执行轨迹，搭建端侧 Agent 模型训练链路，探索基于 Trace Feedback 的 GRPO、OPD、Atropos online trainer 训练闭环</li>

</ul>

<span class="skill-category">技术栈：</span>Python、DeepAgents、ReAct Agent、Tool Calling、Agent Harness、Trace Pipeline、GRPO、OPD

</div>

<span class="project-title">KDD Cup 2026 DataAgent-Bench 多源数据分析 Agent</span>

<span class="project-meta"><strong>Agent 框架负责人</strong> | 2026.04 – 2026.05 | KDD Cup 2026 排行榜 Top 3.6%（25/700）</span>

<ul>

<li>面向 <strong>DataAgent-Bench 多源数据问答</strong>任务，基于 <strong>Qwen3.5-35B-A3B</strong> 构建可控 LLM Agent，支持在 CSV、JSON、SQLite、Markdown 等异构数据上下文中完成数据探查、查询推理、统计计算与标准表格答案生成</li>

<li>设计 <strong>ReAct + JSON Action</strong> 多步工具调用框架，将复杂数据问答拆解为 Discovery、Schema Linking、Execution、Verification、Submission 五阶段；通过 ToolRegistry 统一封装文件探查、Schema 解析、SQL 查询、Python 计算与提交工具</li>

<li>针对 Schema Linking、跨表/跨文件推理、统计口径判断和答案格式控制中的不稳定问题，引入 <strong>knowledge.md、业务语义文档与结构化 Prompt 规则</strong>，增强字段映射、查询生成和结果校验能力</li>

<li>构建 Agent 执行安全边界与评测复盘闭环：通过 action 枚举校验、SQL 只读连接、Python 子进程超时、任务级 max_steps 与 task_timeout 控制工具调用风险；阶段评测得分 <span class="highlight">0.5129</span>，排行榜位列 <span class="highlight">25/700</span></li>

</ul>

<span class="skill-category">技术栈：</span>Python、Qwen3.5-35B-A3B、ReAct Agent、Tool Calling、JSON Action、Schema Linking、SQLite、Docker

</div>

<span class="project-title">SimBotPol：基于大语言模型的多智能体社交机器人网络极化仿真与干预评估框架</span>

<span class="project-meta"><strong>项目负责人</strong> | 2025.07 – 至今 | 在研</span>

<ul>

<li>面向社交平台极化分析，搭建 <strong>LLM 驱动的多智能体仿真框架</strong>（角色设定 → 交互生成 → 指标统计 → 干预评估），在真实社交网络结构上模拟 <strong>1,800

个智能体</strong>（1,200 真人 + 600 机器人）交互，量化机器人对用户立场/情绪演化的影响</li>

<li>设计<strong>智能体决策引擎</strong>（<strong>7 类操纵策略</strong> + 五大人格特质 +

双层记忆）与<strong>社交环境模拟器</strong>（发帖/转发/评论等），实现<strong>双层干预策略</strong>（个体认知反思 + 群体信息流调控）；工程实现：<strong>Mesa

+ LLM + MySQL</strong>（日志与指标落库、可复现实验配置）</li>

<li><strong>结果</strong>：复现回音室效应与群体极化；谣言传播型机器人显著推动负面情绪（情绪极化指数 <span

class="highlight">+43%</span>），影响力较定向攻击型高 <span class="highlight">28%</span>；双层干预将极化水平降低 <span

class="highlight">31%</span>，成果整理投稿中</li>

</ul>

</div>

<span class="project-title">SPARK：基于大语言模型的多智能体对话生成与话题-立场协同演化仿真框架</span>

<span class="project-meta"><strong>核心开发者</strong> | 2025.02 – 2025.06 | EMNLP 2025 共同一作</span>

<ul>

<li>提出<strong>话题-立场协同演化建模方案</strong>，解决既有方法对话中"话题漂移/扩展"与"观点更新"割裂的问题；联合模拟 <strong>108 个智能体</strong>在 5

个领域开展多轮对话交互，实现个体可追踪、群体可量化的仿真与分析</li>

<li>构建<strong>立场感知智能体模块</strong>（个性化角色 + 双层记忆 + 反思式立场更新）与<strong>话题演化模拟器</strong>（话题树动态扩展 +

传播路径追踪），实现单次仿真生成 <strong>10,000+ 对话轮次</strong>并输出结构化统计指标；工程实现 <strong>Mesa + LLM +

MySQL</strong>（实验日志/指标统计）</li>

<li><strong>结果</strong>：量化验证话题与立场强耦合（相关系数 <span class="highlight">0.88</span>）；科技话题创新速度较科学/医疗高 <span

class="highlight">22.7%</span>；易受影响人格的话题新颖性较稳定人格高 <span class="highlight">22.7%</span></li>

</ul>

</div>

<span class="project-title">C-MTCSD：中文多轮对话立场检测数据集构建与基准评测</span>

<span class="project-meta"><strong>数据与评测负责人</strong> | 2024.09 – 2025.01 | WWW 2025 共同一作</span>

<ul>

<li>针对中文多轮对话语义理解中上下文依赖与隐式立场难点，构建<strong>大规模中文多轮对话立场检测数据集</strong>；从微博采集 5 个热点话题，完成 <strong>24,264

条实例标注</strong>（最深 6 轮），规模为同类中文数据集 <span class="highlight">4.2 倍</span></li>

<li>设计<strong>三阶段数据处理流水线</strong>与<strong>双人标注 + 专家复审机制</strong>，标注一致性达 <span

class="highlight">0.972</span>；实现 <strong>12

个模型全量评测</strong>（传统深度学习/预训练模型/对话专用模型/大语言模型），并按对话轮次/深度分析性能衰减规律（评测脚本与统计分析可复现）</li>

<li><strong>结果</strong>：零样本场景下最优模型 GPT-4 平均 F1 为 <span class="highlight">64.07%</span>，传统模型在隐式立场检测中 F1 低于

<span class="highlight">50%</span>；发现对话深度每增加 1 轮性能平均下降 <span class="highlight">6.2%</span>，最高衰减达 <span

class="highlight">37.2%</span></li>

</ul>

</div>

<span class="skill-category">NLP：</span>语义理解与文本分类、立场检测、多轮对话建模、NLU、对话状态跟踪、对话策略

</div>

<span class="skill-category">深度学习与 LLM 工具链：</span>PyTorch、Prompt Engineering、LLM Agents（记忆/反思/可控生成）

</div>

<span class="skill-category">工程与数据：</span>Python、MySQL、Linux、Git；数据处理流水线与实验复现（配置管理/日志/统计分析）

</div>

<h2 id="awards">🏆 荣誉与奖项</h2>

<span class="award-category">学业奖学金</span>

<ul>

<li>深圳大学硕士研究生学业奖学金<strong>一等奖</strong>（2025）</li>

<li>深圳大学硕士研究生学业奖学金<strong>特等奖</strong>（2024）</li>

</ul>

</div>

<span class="award-category">国家级竞赛</span>

<ul>

<li>KDD Cup 2026 DataAgent-Bench 排行榜 <strong>Top 3.6%</strong>（25/700，2026）</li>

<li>第16届全国大学生计算机设计大赛<strong>三等奖</strong>（2023）</li>

</ul>

</div>

<ul>

<li>第五届广西高校计算机设计大赛<strong>一等奖</strong>（2023）</li>

<li>第十四届蓝桥杯全国软件与信息技术人才大赛<strong>三等奖</strong>（2023）</li>

<li>第十三届蓝桥杯全国软件与信息技术人才大赛<strong>二等奖</strong>（2022）</li>

<li>"桂林银行杯"数据建模大赛暨全国大学生数学建模大赛预赛<strong>优秀奖</strong>广西赛区（2022）</li>

<li>中国大学生程序设计大赛（阶梯竞赛）<strong>三等奖</strong>广西"华山讨论组"（2022）</li>

<li>第四届传智杯全国IT技能大赛编程赛道<strong>三等奖</strong>（2021）</li>

</ul>

</div>

<a href="mailto:[email protected]">📧 [email protected]</a>

<a href="https://github.com/yangyi626" target="_blank">🔗 GitHub</a>

<a href="https://scholar.google.com/citations?user=r5EdeWEAAAAJ&hl=en" target="_blank">🎓 Google Scholar</a>

</div>

<p class="footer-highlight">💡 base深圳 · 随时到岗 · 可实习6个月 · 2027年6月毕业</p>

</div>

// 可点击卡片功能

document.querySelectorAll('.clickable-card').forEach(card => {

card.addEventListener('click', function (e) {

// 如果点击的是链接，不触发卡片跳转

if (e.target.tagName === 'A' || e.target.closest('a')) {

return;

}

const link = this.getAttribute('data-link');

if (link) {

window.location.href = link;

}

});

// 平滑滚动

document.querySelectorAll('.toc-link').forEach(link => {

link.addEventListener('click', function (e) {

e.preventDefault();

const targetId = this.getAttribute('href');

const targetElement = document.querySelector(targetId);

if (targetElement) {

targetElement.scrollIntoView({

behavior: 'smooth',

block: 'start'

});

}

});

// 滚动时高亮当前章节

const sections = document.querySelectorAll('h2[id]');

const tocLinks = document.querySelectorAll('.toc-link');

function highlightTOC() {

let current = '';

sections.forEach(section => {

const sectionTop = section.offsetTop;

const sectionHeight = section.clientHeight;

if (window.pageYOffset >= sectionTop - 100) {

current = section.getAttribute('id');

}

});

tocLinks.forEach(link => {

link.classList.remove('active');

if (link.getAttribute('href') === '#' + current) {

link.classList.add('active');

}

});

}

window.addEventListener('scroll', highlightTOC);

highlightTOC(); // 初始化

</script>

</body>

</html>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

index.html

Latest commit

History

index.html

File metadata and controls