<div dir="ltr"><div>Dear all,</div><div><br></div><div>I'm new in this community. And Strongly interested in SMT and NLP.</div><div><br></div><div>Here an example </div><div><a href="http://cmusphinx.sourceforge.net/wiki/sphinx4:standardgrammarformats">http://cmusphinx.sourceforge.net/wiki/sphinx4:standardgrammarformats</a></div><div><pre><br></pre><pre>\data\
ngram 1=7
ngram 2=7

\1-grams:
0.1 <UNK> 0.5555
0 <s>      0.4939
0.1 </s>   1.0
0.2 wood         0.5555
0.2 cindy       0.5555
0.2 pittsburgh          0.5555
0.2 jean         0.6349

\2-grams:
0.5555 <UNK> wood
0.5555 <s> <UNK>
0.5555 wood pittsburgh
0.5555 cindy jean
0.5555 pittsburgh cindy
0.2778 jean </s>
0.2778 jean wood 

\end\</pre></div><div><br></div><div>Question:</div><div><br></div><div>1. Why "UNK" exists in ARPA after training? </div><div><br></div><div>As far as I know, the training corpus includes at least one co-occurrence. Hence, after training, ARPA shouldn't contain UNK (unknown words)</div><div><br></div><div>2. In n-gram metrics format</div><div><br></div><div><strong>             0.2 wood       0.5555</strong></div><div><br></div><div>There are 3 elements : log10(P) wood (Backoff weights)</div><div><br></div><div>How we calculate "<strong>backoff weights</strong>" (0.5555) ?</div><div><br></div><div>Thanks so much</div><div><br></div><div>Joseph.</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div></div>