DeepSeek新专利曝光:颠覆传统数据采集,网络资源消耗骤降超90%
近日,记者从国家知识产权局中国专利公布公告网了解到,DeepSeek旗下的杭州深度求索人工智能基础技术研究有限公司提交的“一种广度数据采集的方法及其系统”专利已在4月1日公开。 这一专利的发布无疑彰显了该公司在人工智能领域的技术积累与创新能力。随着大数据时代的到来,如何高效、全面地进行数据采集成为众多企业关注的重点。而该专利所涉及的广度数据采集方法,不仅能够帮助企业更好地获取所需信息,还可能为行业带来新的解决方案。未来,希望此类技术创新能进一步推动人工智能行业的健康发展,并为企业和社会创造更多价值。
专利摘要显示:
该发明的突出优势体现在能够挖掘更多的网页链接,同时降低对目标网站的访问压力;通过对已获取内容的分析,结合对未下载链接的质量评估,采取优先下载高质量内容的策略,从而避免低质网页的下载与重复下载现象,提升数据质量及下载效率,有效节约数据采集过程中的网络资源;此外,利用独立的信息回灌队列,确保网页元信息库更新操作具备原子性和可靠性。
背景技术称:近年来,随着人工智能技术的快速发展,自然语言处理(NLP)领域取得了显著成就。众多大型语言模型(Large Language Models, LLMs)被开发并应用于这一领域,致力于探索和实现人机之间通过自然语言进行高效沟通的各类理论与方法。
大语言模型的训练需要构建一个高质量、多样化的大语言模型数据集,这需要将网页数据采集并处理后得到大量高质量的文本信息作为模型的输入,用于大语言模型进行训练。
然而,当前的数据采集技术面临不少挑战,例如在处理复杂的网站时,难以抓取到完整的链接;容易出现过度下载的情况,从而导致目标网站瘫痪;同时,对下载的页面缺乏内容质量的评估与判断,使得存在重复下载或低质量下载的现象,进而影响了数据采集的整体效率。
因此,在海量网页数据的获取过程中,如何实现快速、精准、安全且高效的互联网数据采集已成为一个关键议题。随着信息时代的加速发展,数据的价值愈发凸显,而如何从繁杂的信息中提取出有价值的内容,不仅考验着技术能力,也对操作者的专业素养提出了更高要求。我认为,在这一领域,技术创新与规范管理缺一不可。一方面,需要不断优化算法和技术手段,确保数据采集的效率和准确性;另一方面,则应加强行业自律,避免因不当采集引发隐私泄露等问题,从而维护网络环境的安全与健康。总之,唯有兼顾技术和伦理,才能真正实现数据采集的可持续发展。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.007636秒