2026-04-09-组会：基于持续高态时长的编码对齐实验分析

1. 实验目标

本实验的目标是在 A 端主动调制发送速率的条件下，从 B 端观测到的大量网络流量中恢复出对应的编码信息，并验证该编码是否能够稳定、准确地被识别。

本报告采用当前框架的新口径进行分析，即：

先完成 A/B 两端时间对齐；
再在 B 端原始速率采样中统计持续高于阈值的总时长；
用该总时长除以 A 端对应码字的单个 1 槽位时长；
最后四舍五入，反推出该码字中包含的 1 的数量。

在本口径下，编码恢复的核心对象不再是“逐窗口 bit 判决”，而是“每个码字中 1 的数量恢复”。

2. 当前框架的对齐与容错逻辑

2.1 A 端编码定义

A 端控制日志中，最低 adv_kbps 档位记为 0，高于最低档位的控制窗口记为 1。将这些窗口按时间顺序拼接后，以 0 为分隔符，即可得到一系列码字。例如：

01101111 会被切分为两个码字：11 和 1111

因此，A 端不仅给出了发送时序，也给出了每个码字真实包含多少个 1。

2.2 时间对齐逻辑

框架首先使用 A 端 symbol window 与 B 端出口速率序列进行时延扫描，在候选时延范围内搜索最佳 lag，使得高态窗口与低态窗口在 B 端的统计量分离度最大。

本次实验中：

最佳时延 best_lag_ms = 1300 ms
窗口覆盖率 window_coverage_rate = 1.000
高低态分离度 separation_score = 1.243

这说明：

A 端发送控制与 B 端观测速率之间存在稳定的传播时延；
所有 A 端窗口都能在 B 端找到有效对应观测；
高态与低态在 B 端统计上具有可分性，适合作为后续编码恢复的基础。

2.3 阈值选择逻辑

在完成时间对齐之后，框架并不直接使用固定阈值，而是对所有可能的单阈值进行搜索，选择最适合当前实验数据的阈值作为高态判定阈值。

本次实验中：

基线阈值 baseline_threshold_kbps = 1062.792 kbps
最终选中阈值 classification_threshold_kbps = 960.971 kbps
阈值选择策略 code_f1_scan_v1

该步骤的作用是尽可能使 B 端高态区间与真实编码结构相匹配，从而降低后续码字计数误差。

2.4 新口径下的码字恢复逻辑

在新口径下，框架不再依赖逐窗口数 1，而是对每个 A 端码字单独构造一个 B 端对齐观察窗口，并执行如下流程：

对每个 A 端码字，计算其在 A 端的真实持续时间与 1 的个数。
用“码字总高态持续时间 / 1 个数”得到该码字的单个 1 槽位时长 a_slot_ms。
将该码字整体平移到 B 端时间轴。
在 B 端原始采样中统计该码字范围内持续高于阈值的时间。
为增强容错能力，先把不超过 400 ms 的短回落视为抖动并合并。
将合并后的总高态时长 b_high_total_ms 除以 a_slot_ms。
对结果进行四舍五入，得到该码字在 B 端恢复出的 1 的数量。

例如，当一个 A 端码字为 11，其单个 1 槽位时长约为 2000 ms，若 B 端统计到的高态总时长约为 3800 ms，则：

3800 / 2000 = 1.9
四舍五入后得到 2
因而该码字恢复为 11

2.5 容错机制

新口径的容错能力主要来自以下四点：

时间对齐容错
通过 lag 扫描自动补偿 A/B 之间的固定传播延迟，避免因整体时间偏移导致码字窗口错位。
阈值自适应容错
阈值不固定，而是根据当前实验数据反向搜索得到，降低了不同实验条件下阈值失配带来的误判。
短间隙合并容错
B 端高态区间之间若只出现不超过 400 ms 的短回落，则视为同一高态过程中的抖动，不将其错误切分为多个独立片段。
基于持续时间而非单点判决的容错
该方法关注“一个码字在 B 端持续了多久”，而不是每个局部窗口是否都恰好被判成 1。因此，即使局部采样存在短时起伏，只要总体持续时间保持稳定，仍可恢复出正确的 1 数量。

3. 实验结果

3.1 实验基本信息

本次分析实验编号为：

E20260408_002

时间范围为：

首个符号时间：2026-04-08 09:06:48 -0400
最后一个符号时间：2026-04-08 09:55:06 -0400

3.2 码字恢复结果

在新口径下，本次实验的核心恢复结果为：

A 端真实码字总数：532
B 端精确恢复正确的码字数：482
码字精确匹配率：0.906
平均码字计数绝对误差：0.096
高估码字数：12
低估码字数：38
完全未恢复出高态的码字数：21

这表明：

超过 90% 的码字被完整恢复正确；
平均每个码字在 1 数量上的偏差不到 0.1；
大多数误差不是严重错码，而是少量码字发生了 +1 或 -1 的数量偏差。

3.3 结果含义解释

本次结果说明，B 端观测到的编码信息主要体现在高态持续时间上，而不是逐个局部窗口的二值形态上。也就是说：

旧方法容易受到局部窗口判决波动影响；
新方法直接统计高态持续了多长时间，因此更贴近这类编码的物理表现；
只要持续时间整体稳定，就能较准确地恢复出该码字中有多少个 1。

从样例可见：

对于单个 1 的码字，B 端统计到 2200 ms 至 3000 ms 左右的高态时间时，仍可稳定恢复为 1；
对于 11、111 等较长码字，B 端恢复的持续时间与 A 端槽位长度具有较好的线性关系；
错误主要出现在部分码字边界附近，其中少数码字被高估或低估一个 1，但整体比例较低。

综上，新口径已能够较可靠地恢复本次实验中的编码结构。

4. 如何在大量流量中找出对应流量

在真实场景中，B 端通常不只有一条流量，而是同时存在大量背景流。为了在大量流量中找到真正承载编码的目标流量，当前框架应采用“分层筛选 + 对齐验证 + 编码验证”的方法。

4.1 第一步：候选流预筛选

首先从全部流量中筛出候选流，减少无关流量数量。可采用以下条件：

时间范围与 A 端发送时间存在重叠；
流量具有连续可观测的速率采样；
在 A 端发送期间，流量的吞吐存在明显波动而非完全平稳；
流量持续时间足够长，能够覆盖多个码字周期。

这一阶段的目标不是直接识别编码，而是剔除明显不可能承载编码的背景流。

4.2 第二步：逐流执行对齐扫描

对每一条候选流，分别运行当前对齐框架，计算：

best_lag_ms
window_coverage_rate
separation_score

只有满足以下条件的流量，才进入下一步：

覆盖率高；
最佳时延存在明显峰值；
高态与低态在该流上可分。

如果某条流在 lag 扫描中无法形成稳定的最优时延，说明它与 A 端控制序列在时间上并不同步，应被排除。

4.3 第三步：执行 duration-based 码字恢复

对通过第二步筛选的候选流，使用本报告中的新口径恢复码字，并计算：

duration_code_exact_match_count
duration_code_exact_match_rate
duration_code_mean_abs_error
duration_code_overestimate_count
duration_code_underestimate_count

真正对应的目标流应表现为：

精确匹配码字数明显更高；
精确匹配率明显高于其他候选流；
平均绝对误差明显更低；
恢复出的码字长度分布与 A 端真实分布相近。

4.4 第四步：做唯一性确认

为了提高“在一大堆流量中找出对应流量”的可信度，应使用多指标联合排序，而不是只看单一分数。推荐排序优先级为：

duration_code_exact_match_rate
duration_code_exact_match_count
duration_code_mean_abs_error（越小越好）
separation_score
window_coverage_rate

若某一条流在这些指标上同时显著优于其他流量，则可以把它判为目标流量。

4.5 如何进一步降低误识别风险

为了在海量背景流中进一步提高唯一性，建议配合以下措施：

使用已知前导码或同步序列
在正式编码前加入固定前导码，可以显著提高目标流在全体候选流中的可识别性。
增大不同码字之间的时间结构差异
若所有码字都很短且彼此相似，背景流更容易偶然拟合；增加码字长度差异有助于区分。
增加实验重复次数
对同一候选流重复多次恢复，如果其 best_lag_ms、阈值和码字恢复结果都稳定，则可信度更高。
联合使用时延一致性和码字一致性
只有同时满足“时延对齐合理”和“duration-based 恢复准确”的流量，才应被视为真正目标流。

需要强调的是，在复杂网络环境中很难用单一指标做“绝对保证”。当前框架的可靠性来自多层证据一致：

时间上能够对齐；
统计上能够分离；
编码上能够恢复；
结果上能够唯一优于其他候选流。

只要这四层证据同时成立，就能在大量流量中较高置信度地定位出对应流量。

5. 结论

本次实验表明，基于持续高态时长的编码恢复方法能够有效恢复 A 端发送的码字结构。

在实验 E20260408_002 中：

框架成功找到稳定时延 1300 ms
自适应阈值为 960.971 kbps
共恢复 532 个真实码字中的 482 个
码字精确匹配率达到 90.6%
平均码字计数绝对误差仅为 0.096

说明该方法已经能够较准确地从 B 端速率观测中重建编码信息。

从方法上看，本框架的优势在于：

通过时间对齐解决 A/B 端传播时延问题；
通过阈值搜索适应不同实验中的流量幅度变化；
通过短间隙合并提高对抖动的容忍度；
通过持续时间计数提高对码字数量恢复的准确性。

因此，在后续工作中，应将该 duration-based 口径作为识别目标流量和评估编码恢复质量的主要分析方法。