Lexical Tools

Comparison on Optimized Set between 2014 - 2021

I. New SD-Rules Evaluation Results:

Releases applied this approach to retrieve the optimized SD-rule set are copared as follows since 2014:

Release	New SD-Rules	Baseline	Results	Notes
2014	First Release (based on 2013 SD-Rule)	Total candidates SD-pairs: 43,375 Total valid candidates SD-pairs (SD-Facts: relevant): 37,136	N/A (All SD-Rules are first timer)	Please see result of 2014 SD-Rule evaluation for details.
2015	Added 15 new SD-Rules to the previous release	Total candidates SD-pairs: 53,905 Total valid candidates SD-pairs (SD-Facts: relevant): 46,950	2 are duplicated (child rule of existing rules). 11 (84.62%, 11/13) of them are evaluated as good rules in the optimized set 2 (15.38%, 2/13) are bad rules	In the optimized set, 2 child rules are used to replace proposed rules. Please see result of 2015 SD-Rule evaluation for details.
2016	Added 12 new SD-Rules to the previous release	Total candidates SD-pairs: 58,422 Total valid candidates SD-pairs: 50,814	1 are duplicated (of existing rules). 8 (72.73%, 8/11) of them are evaluated as good rules in the optimized set 3 (27.27%, 3/11) are bad rules	In the optimized set, 2 child rules are used to replace proposed rules. Please see result of 2016 SD-Rule evaluation for details:
2017	Added 11 new SD-Rules to the previous release	Total candidates SD-pairs: 59,850 Total valid candidates SD-pairs: 51,788	1 are duplicated (of existing rules). 6 (60.00%, 6/10) of them are evaluated as good rules in the optimized set 4 (40.00%, 4/10) are bad rules	In the optimized set, 2 child rules are used to replace proposed rules. Please see result of 2017 SD-Rule evaluation for details:
2020	Added 18 new SD-Rules to the previous release	Total candidates SD-pairs: 61,777 Total valid candidates SD-pairs: 53,440	7 are duplicated (of existing rules). 7 (63.63%, 7/11) of them are evaluated as good rules in the optimized set 4 (36.36%, 4/11) are bad rules	In the optimized set, 4 child rules are used to replace proposed rules. Please see result of 2020 SD-Rule evaluation for details:
2021	Proposed 21 new SD-Rules to the previous release	Total candidates SD-pairs: 63,712 Total valid candidates SD-pairs: 54,421	3 are duplicated (of existing rules). 12 (66.67%, 12/18) of them are evaluated as good rules in the optimized set 6 (33.33%, 6/18) are bad rules	In the optimized set, 4 child rules are used to replace proposed rules. Please see result of 2021 SD-Rule evaluation for details:

II. Comparison of SD-Rule set:

Year	Stats	Optimized Diagram
2014	Baseline Set (include parent-child rules): 107 Total Unique Rules: 96 Total Good Rules: 73 Total Valid SD-pairs (SD-Facts: Relevant): 42,552 Opti. System Precision: 95.30% Opti. System Recall: 95.01% Opti. System Performance: 1.9031 Cutoff Rule: `ar$\|adj\|e$\|noun` Optimized Set: 2014 Optimized Set
2015	Baseline Set (include parent-child rules):120 Total Unique Rules: 101 Total Good Rules: 76 Total Valid SD-pairs (SD-Facts: Relevant): 46,950 Opti. System Precision: 95.22% Opti. System Recall: 95.70% Opti. System Performance: 1.9093 Cutoff Rule: `ar$\|adj\|e$\|noun` Optimized Set: 2015 Optimized Set
2016	Baseline Set (include parent-child rules):132 Total Unique Rules: 111 Total Good Rules: 82 Total Valid SD-pairs (SD-Facts: Relevant): 50,814 Opti. System Precision: 95.00% Opti. System Recall: 95.26% Opti. System Performance: 1.9026 Cutoff Rule: `$\|noun\|ist$\|noun` Optimized Set: 2016 Optimized Set
2017	Baseline Set (include parent-child rules):142 Total Unique Rules: 119 Total Good Rules: 86 Total Valid SD-pairs (SD-Facts: Relevant): 51,788 Opti. System Precision: 95.09% Opti. System Recall: 94.92% Opti. System Performance: 1.9001 Cutoff Rule: `$\|noun\|ist$\|noun` Optimized Set: 2017 Optimized Set
2020	Baseline Set (include parent-child rules):153 Total Unique Rules: 130 Total Good Rules: 93 Total Valid SD-pairs (SD-Facts: Relevant): 53,440 Opti. System Precision: 95.00% Opti. System Recall: 94.48% Opti. System Performance: 1.8948 Cutoff Rule: `ar$\|adj\|e$\|noun` Optimized Set: 2020 Optimized Set
2021	Baseline Set (include parent-child rules):170 Total Unique Rules: 148 Total Good Rules: 104 Total Valid SD-pairs (SD-Facts: Relevant): 54,421 Opti. System Precision: 95.12% Opti. System Recall: 93.45% Opti. System Performance: 1.8857 Cutoff Rule: `ctic$\|adj\|xis$\|noun` Optimized Set: 2021 Optimized Set

For the Optimial set:

The optimized set is similar between releases of 2014 and 2015, please see SD-Rule rank mapping, 2014-15 for details.
The optimized set (good rules stay good) are consistent over the years:
- 2014 optimal set has 96 SD-Rules, 73 of them are good.
- 2015 optimal set has 101 SD-Rules, 76 of them are good.
- 2016 optimal set has 111 SD-Rules, 82 of them are good.
- 2017 optimal set has 119 SD-Rules, 86 of them are good.
- 2020 optimal set has 130 SD-Rules, 93 of them are good.
- All good rules in 2014 are good in 2015.
- All good rules in 2015 are good in 2016, except for 1 (ar$|adj|e$|noun).
- All good rules in 2016 are good in 2017.
- All good rules in 2017 are good in 2020.

III. Transaction History:

Baseline
Collected Candidate SD-Rules Unique Rules
Remove child-rules from Baseline Good Rules
Used in Lexical Tools SD-Rule set

2014

107

removed 11 child-rules from baseline
96 = 107 - 11

New Rules

ES (Expert-Suggest) NOM_D ORG_D Sub-Total
Total Rules 7 6 2 15
Duplicated 2 0 0 2
Total non-dul-rules 5 6 2 13

Bad Rules 2 0 0 2
Good Rules 3 6 2 11
details

2015

120

2 new rules out of 15 are child-rules of existing rules, not added
120 = 107 + 15 - 2

101

removed 19 child-rules from baseline
101 = 120 - 19

4 of good new rules are parent-rules of 4 existing rules (+0)
2 of good new rules are parent-rules of 4 existing rules (-2)
5 of good new rules have no parent-rules relationship with existing rule (+5)
76 = 73 + 0 - 2 + 5

New Rules

ES (Expert-Suggest) NOM_D ORG_D Sub-Total
Total Rules 2 5 5 12
Duplicated 0 1 0 1
Total non-dup-rules 2 4 5 11

Bad Rules 1 1 1 3
Good Rules 1 3 4 8
details

2016

132

1 existing rule add child-rule nce$|noun|nt$|adj in 2015
1 new rules of out 12 is duplicated, not added
132 = 120 + 1 + 12 -1

111

removed 21 child-rules from baseline
111 = 132 - 21 (7+12+2)

New Rules

ES (Expert-Suggest) NOM_D ORG_D Sub-Total
Total Rules 2 5 4 11
Duplicated 0 1 0 0
Total non-dup-rules 2 4 4 10

Bad Rules 2 0 2 4
Good Rules 0 4 2 6
details

2017

142

1 new rules of out 11 is duplicatedm not added
142 = 132 + 11 -1

119

removed 21 child-rules from baseline
119 = 142 - 23 (8+12+2+1)

New Rules

ES (Expert-Suggest) NOM_D ORG_D Sub-Total
Total Rules 2 10 6 18
Duplicated 0 5 2 7
Total non-dup-rules 2 5 4 11

Bad Rules 2 0 2 4
Good Rules 0 5 2 7
details

2020

153

7 new rules of out 18 is duplicatedm not added
153 = 142 + 18 - 7

130

removed 23 child-rules from baseline
130 = 153 - 23 (8+12+2+1)

The Trascation history is not tracked after 2021+ release.

Details:

2014-2015: SD-Rule set transaction details - 2014 to 2015
2015-2016: SD-Rule set transaction details - 2015 to 2016
2016-2017: SD-Rule set transaction details - 2016 to 2017
2017-2020: SD-Rule set transaction details - 2017 to 2020

The conclusion is the optimized set of SD-Rules is very steady (consistent) as we expected.