问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

清华北航博士生「强迫」Gemma-2 说中文!弱智吧、角色扮演、数学问题表现惊喜

创作时间:
作者:
@小白创作中心

清华北航博士生「强迫」Gemma-2 说中文!弱智吧、角色扮演、数学问题表现惊喜

引用
IT之家
1.
https://www.ithome.com/0/780/101.htm

谷歌的Gemma-2模型刚发布不久,清华大学和北京航空航天大学的两名博士生就推出了针对该模型的中文微调版本,显著增强了其在中文对话、角色扮演、数学问题等方面的表现。

众所周知,许多国外的大语言模型(LLM)在处理非英语语言时存在性能差距,有时这种差距甚至可以用"悬殊"来形容。之前就有网友发现,GPT-4的分词器语料库中存在严重的中文数据污染问题,这严重影响了用户使用中文与AI机器人进行有效交流。

最近发布的Gemma-2模型虽然既开源又功能强大,但其在中文处理能力方面仍存在不足。为了解决这一问题,研究人员采用了微调的方法来优化模型性能。

微调模型的推出

7月1日,清华大学人工智能博士生王慎执在X平台上发布了首个针对中文和英文用户的Gemma-2微调模型——Gemma-2-9B-Chinese-Chat。这个模型针对超过100K的偏好对进行了微调,特别优化了中文提示的表现,并在逻辑、编码、数学和写作技能方面展现出更好的能力。

仅仅一天之后,27B参数规模的微调版本也上线了。根据HuggingFace主页信息,该模型的下载量已经超过了3.4万次。微调所采用的算法是ORPO,这是一种将监督微调(SFT)和RLHF或DPO等偏好对齐方法结合的智能算法。

模型性能提升

与原始的9B Gemma-2模型相比,微调后的Gemma-2-9B-Chinese-Chat模型显著减少了"中文问题英文回答"和"中英文混杂回答"的问题。在角色扮演、工具使用和数学问题处理方面也有了明显的提升。即使是面对"弱智吧"这类需要处理复杂语言游戏的场景,模型也能给出令人满意的表现。

模型示例

微调模型的贡献者提供了一些使用示例,包括角色扮演、函数调用、数学问题、弱智吧应对、安全、写作和编码等多个方面。

角色扮演

让LLM扮演周杰伦唱rap:

尝试让LLM扮演鲁智深:

数学问题

模型能够轻松应对年龄问题和鸡兔同笼等数学问题。

弱智吧应对

模型在处理"弱智吧"这类需要理解复杂语言游戏的场景时,表现出了令人惊喜的能力。

函数调用

用户输入:

Here is a list of tools that you have available to you:
def internet_search(query: str):
 """
 Returns a list of relevant document snippets for a textual query retrieved from the internet
 Args:
 query (str): Query to search the internet with
 """
 pass

def directly_answer():
 """
 Calls a standard (un-augmented) AI chatbot to generate a response given the conversation history
 """
 pass

Write 'Action:' followed by a list of actions in JSON that you want to call, e.g.
Action:
[
 {
 "tool_name": "tool name (one of [internet_search, directly_answer])",
 "parameters": "the input to the tool"
 }
]

模型输出:

[
 {
 "tool_name": "internet_search",
 "parameters": {
 "query": "biggest penguin in the world"
 }
 }
]

安全性

模型在安全性方面也表现良好,能够妥善处理涉及敏感话题的请求。

写作

当被要求"写一段关于人工智能的综述"时,模型生成了以下内容:

人工智能(AI)是计算机科学的一个分支,它专注于创造能够执行复杂任务的智能机器。AI 的目的是创建能够学习、解决问题和理解自然语言的系统。人工智能的应用非常广泛,包括图像识别、语音助手、推荐系统、自动驾驶汽车和预测性维护等。
AI 技术可以分为几个不同的类别,包括机器学习、深度学习和自然语言处理。机器学习是人工智能的一个分支,它专注于创建能够从数据中学习和做出预测的算法。深度学习是机器学习的一个子集,它使用人工神经网络来模拟人类大脑的功能。
AI 在医疗保健、金融、运输和零售等多个行业都有广泛的应用。在医疗保健领域,AI 正在帮助医生诊断疾病、预测患者护理需求以及个性化治疗计划。在金融服务行业,AI 正在用于欺诈检测、风险管理和个性化投资建议。
AI 在提高效率、减少成本并推动创新方面有着巨大的潜力。然而,AI 也带来了挑战,包括就业的流失、隐私问题以及伦理考虑。随着 AI 技术的快速发展,各国政府和组织正在制定新的法律和法规来应对这些挑战。
总之,人工智能是当今世界最激动人心的创新之一。随着 AI 技术的不断进步,它有潜力彻底改变我们的工作方式、生活方式和社会结构。然而,AI 也提出了新的伦理和社会问题,这些问题需要我们仔细考虑。

编码

当被要求"用Python实现快速排序算法"时,模型生成了以下代码:

def quick_sort(nums):
    # 快速排序的递归函数
    # 如果列表长度小于等于1,则直接返回,因为列表已经是排序好的
    if len(nums) <= 1:
        return nums
    # 选择基准值,这里选择列表的第一个元素
    pivot = nums[0]
    # 分隔列表,将小于基准值的元素放在左侧,大于基准值的元素放在右侧
    left = [num for num in nums[1:] if num < pivot]
    right = [num for num in nums[1:] if num >= pivot]
    # 递归地对左侧和右侧进行快速排序
    left = quick_sort(left)
    right = quick_sort(right)
    # 将左侧、基准值、右侧合并成一个排序后的列表
    return left + [pivot] + right

模型贡献者简介

Gemma-2-9B-Chinese-Chat和Gemma-2-27B-Chinese-Chat微调模型的主要贡献者是王慎执和郑耀威。

王慎执是清华大学自动化系LEAP实验室的三年级博士生,导师是宋士吉教授和黄高副教授。在此之前,他在北京航空航天大学沈元荣誉学院计算机科学与技术专业以优异成绩获得工学学士学位。他还是开源项目的积极倡导者,发布了多个流行的微调LLM项目,如Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat和Mistral-7B-v0.3-Chinese-Chat。业余时间,他还在知乎上撰写科技博客,拥有10k+粉丝。

郑耀威是王慎执在本科期间的同学,目前仍在北航读博。他曾以第一作者身份在CVPR、AAAI、WWW等顶级会议发表多篇论文,并担任AAAI、EMNLP、Neural Computation等会议和期刊的审稿人。他也是大模型微调框架LLaMA Factory的发起人和主要开发者,该GitHub开源项目获得了超过2万星标。

在这些优秀贡献者的努力下,开源模型的中文处理能力正在不断提升,为AI领域的研究和应用开辟了更广阔的道路。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号