The exponential distribution of the order of demonstrative, numeral, adjective and noun
Ramon Ferrer-i-Cancho
在过去20年中,由示范、数字、形容词和名词形成的名词短语的首选顺序的频率受到了很大的关注。 我们调查24个可能订单的实际分布情况。 对于它是否适合指数或权力法分配,没有达成共识。 我们发现指数分布是一个更好的模型。 这一发现和其他情况,即发现指数态分布,挑战了权力法分布(例如Zipf的字数频率定律)是不可避免的观点。 我们还研究两个指数分布中哪一个给出了更好的拟合:一个指数模型,其中24个订单具有非零概率(在24级截断的几何分布)或一个指数模型,其中可以具有非零概率的顺序数量是可变的(右截断的几何分布)。 当一致性和可推广性被优先考虑时,我们发现对所有24个订单的非零概率的指数模型有更高的支持。 这些发现强烈表明,单词顺序变化没有硬性约束,然后未经证实的订单仅仅是由于采样不足,与Cysouw的观点一致。
The frequency of the preferred order for a noun phrase formed by demonstrative, numeral, adjective and noun has received significant attention over the last two decades. We investigate the actual distribution of the 24 possible orders. There is no consensus on whether it is well-fitted by an exponential or a power law distribution. We find that an exponential distribution is a much better model. This finding and other circumstances where an exponential-like distribution is found challenge the vi...