<div dir="ltr"><div>Dear all,</div><div><br></div><div>I'm new in this community. And Strongly interested in SMT and NLP.</div><div><br></div><div>Here an example </div><div><a href="http://cmusphinx.sourceforge.net/wiki/sphinx4:standardgrammarformats">http://cmusphinx.sourceforge.net/wiki/sphinx4:standardgrammarformats</a></div><div><pre><br></pre><pre>\data\

ngram 1=7

ngram 2=7


\1-grams:

0.1 <UNK> 0.5555

0 <s>      0.4939

0.1 </s>   1.0

0.2 wood         0.5555

0.2 cindy       0.5555

0.2 pittsburgh          0.5555

0.2 jean         0.6349


\2-grams:

0.5555 <UNK> wood

0.5555 <s> <UNK>

0.5555 wood pittsburgh

0.5555 cindy jean

0.5555 pittsburgh cindy

0.2778 jean </s>

0.2778 jean wood 


\end\</pre></div><div><br></div><div>Question:</div><div><br></div><div>1. Why "UNK" exists in ARPA after training? </div><div><br></div><div>As far as I know, the training corpus includes at least one co-occurrence. Hence, after training, ARPA shouldn't contain UNK (unknown words)</div><div><br></div><div>2. In n-gram metrics format</div><div><br></div><div><strong>             0.2 wood       0.5555</strong></div><div><br></div><div>There are 3 elements : log10(P) wood (Backoff weights)</div><div><br></div><div>How we calculate "<strong>backoff weights</strong>" (0.5555) ?</div><div><br></div><div>Thanks so much</div><div><br></div><div>Joseph.</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div></div>