找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 194|回复: 0

AI查重和AI去重

[复制链接]
发表于 2025-5-20 02:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
上周我接了一个稿子,题材是教育学小论文。期初我以为很好做,就报价了国内常见的单价,料想着这个稿子用AI来做效果应该很好。没先到客户来了一句:不能用AI来做,因为这是提交给学校的作业,学校会用一个名叫turnitin的AI detecting 系统进行检测,一旦发现是AI产出,需要重新提交。

其实做完稿子之前我内心是比较忐忑的,一是后悔报价太低,如果要是早知道不能用AI就不如此报价了;二是加入用AI来翻译,我如何去掉AI味道呢。最终我采取了先用AI翻译,然后自己根据既往的翻译经验将一些AI程式化的套路给润色改成非机械性的句子,完成了任务。

完成任务之后,还是有点心虚。于是我问了一个高校老师朋友以及一个在校研究生,他们都说没有听过turnitin这个系统。研究生朋友告诉我,现在知网可以查询文字是否来自于AI。然后我去了问了Chatgpt,我获得了几个AI查重网站,我就用了一个名叫chatgptzero的网站进行了查重。不过只能体验800,更多字数需要购买会员。我就检测了前面800字数,结果说entirely human,我这才放心。不过后来证明幸亏要会员。我停止了检测,我也担心客户信息泄露的情况。最终客户也说了,害怕在互联网上漏下痕迹。最最重要的是,不能直接用turnitin这个系统进行提前查重,因为一旦查重了,他们老师二次查重的时候,就会判定这个文章的turnitin查重率是100%。

w1.jpg

然后我就想探索一下AI查重和AI去重。真正驱动人成长的,不是已知,是未知。我开始准备在互联网上找寻未知的答案。

首先是有很多网站和app是可以进行AI查重,查重的逻辑是基于人工智能技术,包括自然语言处理(NLP)、深度学习算法以及语义分析等。这些技术使得AI查重系统能够超越传统查重工具的局限性,通过理解文本的深层语义、逻辑结构和段落关系,检测出文本中的抄袭行为或重复内容。

AI查重系统能够识别文本的语义相似性,即使句子结构或词汇发生了变化,只要核心思想与已有文献相似,系统也能检测出来。例如,将主动句改为被动句或将长句拆分为短句,这些改写方式在传统查重工具中可能无法被识别,但AI查重系统可以捕捉到这种深层次的相似性。

w2.jpg

AI查重不仅关注单个句子的相似性,还会分析段落之间的逻辑关系。如果段落顺序或逻辑结构与已有文献高度一致,系统也会判定为重复内容。这种检测方式弥补了传统查重工具在处理复杂改写内容时的不足。

为了降低查重率,用户可以采取多种策略,如深度改写、逻辑重构、调整段落顺序以及合理引用文献等。这些方法不仅可以降低重复率,还能提升文本的原创性和学术价值。

尽管AI查重技术具有显著优势,但仍存在一些局限性。例如,不同语种之间的相似内容可能难以检测,图表的重复性识别也需要更高层次的认知理解。此外,某些复杂的糅合手段可能导致系统误判。

我猜测先用中文书写,然后再翻译成英文,这样就大概率可以避免AI的检测。其他的策略包括:修改段落、句式,调整表达方式;添加原创观点、个人见解;提升文章质量,降低查重率。重点就是人工干预,赋予文章独特性。

提升AI文章原创性的策略有选择性使用AI;AI提供大纲;思路或部分内容;人机结合发挥各自优势;合理利用AI,避免过度依赖;避免过度依赖公开资料;加入个人见解、非公开研究资源;提高文章原创性,增强学术价值;深入挖掘,展现独特思考。

我在网上发现了一个例子:用自己的语言重新组织句子,调整语序,变换句式,使用同义词替换。

示例

Original: The study demonstrates that AI can significantly improve efficiency.

Re-writing: This research highlights the substantial potential of AI in enhancing operational efficiency.

w3.jpg

w4.jpg

最后回归我们翻译行业:想探索一下AI翻译的查重和AI翻译的去重。

检查AI生成的翻译内容是否和其他文本(比如已有的翻译、其他AI的输出或者人工翻译)有重复或者高度相似的情况。可以用自然语言处理技术(比如余弦相似度、BERT嵌入向量)来比较翻译结果和目标库的相似度。因为AI翻译可能有特定的“模式”,比如固定的句式或者偏好的词汇,这些可以通过模型训练来识别AI生成的“风格痕迹”。

要消除重复或者高度相似的输出,这样可以提升内容的多样性和存储效率。通过去重,可以避免不必要的冗余,优化翻译结果的质量。还可以对相似语义的翻译结果进行聚类,比如用句向量聚类技术,保留最优化的版本。这种方法既能减少重复内容,又能保留最有价值的翻译结果。

另外,可以对已经生成的翻译进行改写,比如替换近义词、调整语序等。可以用Paraphrase模型来实现这个目标,进一步优化翻译内容的多样性。

查重工具方面,开源的有SimCSE和Sentence-BERT,这些工具可以用来计算语义相似度,能有效识别语义层面的重复。商业的有Turnitin等工具,也可以用于查重,但需要针对AI翻译场景进行适配,以提高检测的准确性和效率。

去重工具方面,文本聚类可以用HDBSCAN和FAISS等工具,这些工具可以高效地进行向量检索和文本聚类,帮助识别和合并相似的翻译结果。多样化生成可以用HuggingFace Transformers等工具,通过调整生成参数,实现多样化的翻译输出。

距离全民使用deepseek已经有好几个月,我作为常规使用者,也总结出来了deepseek撰文的一些缺陷:

DeepSeek在生成长篇文本时,很容易出现逻辑不连贯、段落衔接生硬的问题。比如,有些段落的内容和标题对不上,或者论点和论据之间没有紧密联系。这种逻辑混乱不仅让文本质量大打折扣,还容易让读者感到困惑。

因为DeepSeek是根据现有数据生成内容的,所以在处理像医学、法律这种复杂的专业领域时,往往不够深入、准确。而且它生成的内容常常很模式化、套路化,缺乏创新和个性。

DeepSeek在写作时,喜欢用一些固定的词语和句式,还喜欢堆砌空洞的类比和刻意挑选的词汇,试图模仿人类的创作,但结果却显得很机械,没有真实感。

在文学创作方面,DeepSeek总是频繁使用一些常见的意象,比如“褶皱”“裂缝”,还有常用的修辞手法。这就让文本显得很模式化,没有人类创作者那种对生活的独特观察。

另外,DeepSeek生成的内容还常常缺乏情感深度和逻辑一致性,容易出现前后矛盾或者不符合常识的情节。

在写作和翻译过程中AI是一大利器,但是要深入应用,还是需要一些个人的思考以及灵活性的施展。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

我是开心果

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-6-19 20:29 , Processed in 0.126286 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表