用大型语言模型进行复杂相对局部描述的地理定位-人工智能技术与咨询

用大型语言模型进行复杂相对局部描述的地理定位

2025-12-24 09:36:13431浏览

深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训

地理参照文本文件通常采用两种方法：一是基于地名录的方法，通过地名分配地理坐标；二是通过语言建模方法，将文本术语与地理位置相关联。然而，许多位置描述通过空间关系来相对地指定方位，这使得仅依赖地名或地理指示词进行地理编码往往不够精确。这一问题在生物标本采集记录中尤为常见——在使用全球定位系统（GPS）之前的记录，其位置常以叙述性文字而非坐标形式记载。尽管准确的地理参照对生物多样性研究至关重要，但该过程仍依赖大量人工操作，因此迫切需要自动化地理参照解决方案。

本文探讨了大型语言模型（LLMs）在自动化处理复杂位置描述的地理参照方面的潜力，重点关注生物多样性标本收藏领域。我们首先确定了有效的提示模式，随后采用量化低秩自适应方法（QLoRA），基于多地区、多语言的生物多样性数据集对大型语言模型进行了微调。在训练数据量固定的条件下，我们的方法优于现有基准模型，在不同数据集中平均有65%的记录定位在10公里半径范围内。其中最佳结果（纽约州数据集）达到85%记录在10公里范围内，67%在1公里范围内。实验表明，所选大型语言模型在处理冗长复杂描述时表现优异，凸显了其在精细位置描述地理参照应用中的巨大潜力。