2026-04-09-组会:基于持续高态时长的编码对齐实验分析
1. 实验目标
本实验的目标是在 A 端主动调制发送速率的条件下,从 B 端观测到的大量网络流量中恢复出对应的编码信息,并验证该编码是否能够稳定、准确地被识别。
本报告采用当前框架的新口径进行分析,即:
- 先完成 A/B 两端时间对齐;
- 再在 B 端原始速率采样中统计持续高于阈值的总时长;
- 用该总时长除以 A 端对应码字的单个
1槽位时长; - 最后四舍五入,反推出该码字中包含的
1的数量。
在本口径下,编码恢复的核心对象不再是“逐窗口 bit 判决”,而是“每个码字中 1 的数量恢复”。
2. 当前框架的对齐与容错逻辑
2.1 A 端编码定义
A 端控制日志中,最低 adv_kbps 档位记为 0,高于最低档位的控制窗口记为 1。将这些窗口按时间顺序拼接后,以 0 为分隔符,即可得到一系列码字。例如:
01101111会被切分为两个码字:11和1111
因此,A 端不仅给出了发送时序,也给出了每个码字真实包含多少个 1。
2.2 时间对齐逻辑
框架首先使用 A 端 symbol window 与 B 端出口速率序列进行时延扫描,在候选时延范围内搜索最佳 lag,使得高态窗口与低态窗口在 B 端的统计量分离度最大。
本次实验中:
- 最佳时延
best_lag_ms = 1300 ms - 窗口覆盖率
window_coverage_rate = 1.000 - 高低态分离度
separation_score = 1.243
这说明:
- A 端发送控制与 B 端观测速率之间存在稳定的传播时延;
- 所有 A 端窗口都能在 B 端找到有效对应观测;
- 高态与低态在 B 端统计上具有可分性,适合作为后续编码恢复的基础。
2.3 阈值选择逻辑
在完成时间对齐之后,框架并不直接使用固定阈值,而是对所有可能的单阈值进行搜索,选择最适合当前实验数据的阈值作为高态判定阈值。
本次实验中:
- 基线阈值
baseline_threshold_kbps = 1062.792 kbps - 最终选中阈值
classification_threshold_kbps = 960.971 kbps - 阈值选择策略
code_f1_scan_v1
该步骤的作用是尽可能使 B 端高态区间与真实编码结构相匹配,从而降低后续码字计数误差。
2.4 新口径下的码字恢复逻辑
在新口径下,框架不再依赖逐窗口数 1,而是对每个 A 端码字单独构造一个 B 端对齐观察窗口,并执行如下流程:
- 对每个 A 端码字,计算其在 A 端的真实持续时间与
1的个数。 - 用“码字总高态持续时间 /
1个数”得到该码字的单个1槽位时长a_slot_ms。 - 将该码字整体平移到 B 端时间轴。
- 在 B 端原始采样中统计该码字范围内持续高于阈值的时间。
- 为增强容错能力,先把不超过
400 ms的短回落视为抖动并合并。 - 将合并后的总高态时长
b_high_total_ms除以a_slot_ms。 - 对结果进行四舍五入,得到该码字在 B 端恢复出的
1的数量。
例如,当一个 A 端码字为 11,其单个 1 槽位时长约为 2000 ms,若 B 端统计到的高态总时长约为 3800 ms,则:
3800 / 2000 = 1.9- 四舍五入后得到
2 - 因而该码字恢复为
11
2.5 容错机制
新口径的容错能力主要来自以下四点:
时间对齐容错
通过lag扫描自动补偿 A/B 之间的固定传播延迟,避免因整体时间偏移导致码字窗口错位。阈值自适应容错
阈值不固定,而是根据当前实验数据反向搜索得到,降低了不同实验条件下阈值失配带来的误判。短间隙合并容错
B 端高态区间之间若只出现不超过400 ms的短回落,则视为同一高态过程中的抖动,不将其错误切分为多个独立片段。基于持续时间而非单点判决的容错
该方法关注“一个码字在 B 端持续了多久”,而不是每个局部窗口是否都恰好被判成1。因此,即使局部采样存在短时起伏,只要总体持续时间保持稳定,仍可恢复出正确的1数量。
3. 实验结果
3.1 实验基本信息
本次分析实验编号为:
E20260408_002
时间范围为:
- 首个符号时间:
2026-04-08 09:06:48 -0400 - 最后一个符号时间:
2026-04-08 09:55:06 -0400
3.2 码字恢复结果
在新口径下,本次实验的核心恢复结果为:
- A 端真实码字总数:
532 - B 端精确恢复正确的码字数:
482 - 码字精确匹配率:
0.906 - 平均码字计数绝对误差:
0.096 - 高估码字数:
12 - 低估码字数:
38 - 完全未恢复出高态的码字数:
21
这表明:
- 超过
90%的码字被完整恢复正确; - 平均每个码字在
1数量上的偏差不到0.1; - 大多数误差不是严重错码,而是少量码字发生了
+1或-1的数量偏差。
3.3 结果含义解释
本次结果说明,B 端观测到的编码信息主要体现在高态持续时间上,而不是逐个局部窗口的二值形态上。也就是说:
- 旧方法容易受到局部窗口判决波动影响;
- 新方法直接统计高态持续了多长时间,因此更贴近这类编码的物理表现;
- 只要持续时间整体稳定,就能较准确地恢复出该码字中有多少个
1。
从样例可见:
- 对于单个
1的码字,B 端统计到2200 ms至3000 ms左右的高态时间时,仍可稳定恢复为1; - 对于
11、111等较长码字,B 端恢复的持续时间与 A 端槽位长度具有较好的线性关系; - 错误主要出现在部分码字边界附近,其中少数码字被高估或低估一个
1,但整体比例较低。
综上,新口径已能够较可靠地恢复本次实验中的编码结构。
4. 如何在大量流量中找出对应流量
在真实场景中,B 端通常不只有一条流量,而是同时存在大量背景流。为了在大量流量中找到真正承载编码的目标流量,当前框架应采用“分层筛选 + 对齐验证 + 编码验证”的方法。
4.1 第一步:候选流预筛选
首先从全部流量中筛出候选流,减少无关流量数量。可采用以下条件:
- 时间范围与 A 端发送时间存在重叠;
- 流量具有连续可观测的速率采样;
- 在 A 端发送期间,流量的吞吐存在明显波动而非完全平稳;
- 流量持续时间足够长,能够覆盖多个码字周期。
这一阶段的目标不是直接识别编码,而是剔除明显不可能承载编码的背景流。
4.2 第二步:逐流执行对齐扫描
对每一条候选流,分别运行当前对齐框架,计算:
best_lag_mswindow_coverage_rateseparation_score
只有满足以下条件的流量,才进入下一步:
- 覆盖率高;
- 最佳时延存在明显峰值;
- 高态与低态在该流上可分。
如果某条流在 lag 扫描中无法形成稳定的最优时延,说明它与 A 端控制序列在时间上并不同步,应被排除。
4.3 第三步:执行 duration-based 码字恢复
对通过第二步筛选的候选流,使用本报告中的新口径恢复码字,并计算:
duration_code_exact_match_countduration_code_exact_match_rateduration_code_mean_abs_errorduration_code_overestimate_countduration_code_underestimate_count
真正对应的目标流应表现为:
- 精确匹配码字数明显更高;
- 精确匹配率明显高于其他候选流;
- 平均绝对误差明显更低;
- 恢复出的码字长度分布与 A 端真实分布相近。
4.4 第四步:做唯一性确认
为了提高“在一大堆流量中找出对应流量”的可信度,应使用多指标联合排序,而不是只看单一分数。推荐排序优先级为:
duration_code_exact_match_rateduration_code_exact_match_countduration_code_mean_abs_error(越小越好)separation_scorewindow_coverage_rate
若某一条流在这些指标上同时显著优于其他流量,则可以把它判为目标流量。
4.5 如何进一步降低误识别风险
为了在海量背景流中进一步提高唯一性,建议配合以下措施:
使用已知前导码或同步序列
在正式编码前加入固定前导码,可以显著提高目标流在全体候选流中的可识别性。增大不同码字之间的时间结构差异
若所有码字都很短且彼此相似,背景流更容易偶然拟合;增加码字长度差异有助于区分。增加实验重复次数
对同一候选流重复多次恢复,如果其best_lag_ms、阈值和码字恢复结果都稳定,则可信度更高。联合使用时延一致性和码字一致性
只有同时满足“时延对齐合理”和“duration-based 恢复准确”的流量,才应被视为真正目标流。
需要强调的是,在复杂网络环境中很难用单一指标做“绝对保证”。当前框架的可靠性来自多层证据一致:
- 时间上能够对齐;
- 统计上能够分离;
- 编码上能够恢复;
- 结果上能够唯一优于其他候选流。
只要这四层证据同时成立,就能在大量流量中较高置信度地定位出对应流量。
5. 结论
本次实验表明,基于持续高态时长的编码恢复方法能够有效恢复 A 端发送的码字结构。
在实验 E20260408_002 中:
- 框架成功找到稳定时延
1300 ms - 自适应阈值为
960.971 kbps - 共恢复
532个真实码字中的482个 - 码字精确匹配率达到
90.6% - 平均码字计数绝对误差仅为
0.096
说明该方法已经能够较准确地从 B 端速率观测中重建编码信息。
从方法上看,本框架的优势在于:
- 通过时间对齐解决 A/B 端传播时延问题;
- 通过阈值搜索适应不同实验中的流量幅度变化;
- 通过短间隙合并提高对抖动的容忍度;
- 通过持续时间计数提高对码字数量恢复的准确性。
因此,在后续工作中,应将该 duration-based 口径作为识别目标流量和评估编码恢复质量的主要分析方法。