diff --git a/.gitignore b/.gitignore index 02ec352..36f3534 100644 --- a/.gitignore +++ b/.gitignore @@ -138,4 +138,5 @@ ssr_conf config_private.py gpt_log private.md -private_upload \ No newline at end of file +private_upload +other_llms \ No newline at end of file diff --git a/README.md b/README.md index 1f4d564..d894348 100644 --- a/README.md +++ b/README.md @@ -6,12 +6,13 @@ If you like this project, please give it a Star. If you've come up with more use ``` 代码中参考了很多其他优秀项目中的设计,主要包括: -# 借鉴项目1:借鉴了mdtex2html中公式处理的方法 -https://github.com/polarwinkel/mdtex2html -# 借鉴项目2:借鉴了ChuanhuChatGPT中读取OpenAI json的方法、记录历史问询记录的方法以及gradio queue的使用技巧 +# 借鉴项目1:借鉴了ChuanhuChatGPT中读取OpenAI json的方法、记录历史问询记录的方法以及gradio queue的使用技巧 https://github.com/GaiZhenbiao/ChuanhuChatGPT +# 借鉴项目2:借鉴了mdtex2html中公式处理的方法 +https://github.com/polarwinkel/mdtex2html + 项目使用OpenAI的gpt-3.5-turbo模型,期待gpt-4早点放宽门槛😂 ``` diff --git a/check_proxy.py b/check_proxy.py index d6263ad..39c8972 100644 --- a/check_proxy.py +++ b/check_proxy.py @@ -6,8 +6,11 @@ def check_proxy(proxies): response = requests.get("https://ipapi.co/json/", proxies=proxies, timeout=4) data = response.json() print(f'查询代理的地理位置,返回的结果是{data}') - country = data['country_name'] - result = f"代理配置 {proxies_https}, 代理所在地:{country}" + if 'country_name' in data: + country = data['country_name'] + result = f"代理配置 {proxies_https}, 代理所在地:{country}" + elif 'error' in data: + result = f"代理配置 {proxies_https}, 代理所在地:未知,IP查询频率受限" print(result) return result except: @@ -17,6 +20,7 @@ def check_proxy(proxies): if __name__ == '__main__': + import os; os.environ['no_proxy'] = '*' # 避免代理网络产生意外污染 try: from config_private import proxies # 放自己的秘密如API和代理网址 os.path.exists('config_private.py') except: from config import proxies check_proxy(proxies) \ No newline at end of file diff --git a/config.py b/config.py index aa85bc0..644bd4d 100644 --- a/config.py +++ b/config.py @@ -5,15 +5,22 @@ API_URL = "https://api.openai.com/v1/chat/completions" # 改为True应用代理 USE_PROXY = False if USE_PROXY: + + # 填写格式是 [协议]:// [地址] :[端口] , + # 例如 "socks5h://localhost:11284" + # [协议] 常见协议无非socks5h/http,例如 v2*** 和 s** 的默认本地协议是socks5h,cl**h 的默认本地协议是http + # [地址] 懂的都懂,不懂就填localhost或者127.0.0.1肯定错不了(localhost意思是代理软件安装在本机上) + # [端口] 在代理软件的设置里,不同的代理软件界面不一样,但端口号都应该在最显眼的位置上 + # 代理网络的地址,打开你的科学上网软件查看代理的协议(socks5/http)、地址(localhost)和端口(11284) - proxies = { "http": "socks5h://localhost:11284", "https": "socks5h://localhost:11284", } + proxies = { "http": "socks5h://localhost:11284", "https": "socks5h://localhost:11284", } print('网络代理状态:运行。') else: proxies = None print('网络代理状态:未配置。无代理状态下很可能无法访问。') # 发送请求到OpenAI后,等待多久判定为超时 -TIMEOUT_SECONDS = 20 +TIMEOUT_SECONDS = 25 # 网页的端口, -1代表随机端口 WEB_PORT = -1 @@ -24,6 +31,13 @@ MAX_RETRY = 2 # 选择的OpenAI模型是(gpt4现在只对申请成功的人开放) LLM_MODEL = "gpt-3.5-turbo" +# 设置并行使用的线程数 +CONCURRENT_COUNT = 100 + +# 设置用户名和密码 +AUTHENTICATION = [] # [("username", "password"), ("username2", "password2"), ...] + # 检查一下是不是忘了改config -if API_KEY == "sk-此处填API秘钥": - assert False, "请在config文件中修改API密钥, 添加海外代理之后再运行" \ No newline at end of file +if len(API_KEY) != 51: + assert False, "正确的API_KEY密钥是51位,请在config文件中修改API密钥, 添加海外代理之后再运行。" + \ + "(如果您刚更新过代码,请确保旧版config_private文件中没有遗留任何新增键值)" diff --git a/crazy_functions/代码重写为全英文_多线程.py b/crazy_functions/代码重写为全英文_多线程.py new file mode 100644 index 0000000..6c6b1c7 --- /dev/null +++ b/crazy_functions/代码重写为全英文_多线程.py @@ -0,0 +1,75 @@ +import threading +from predict import predict_no_ui_long_connection +from toolbox import CatchException, write_results_to_file + + + +@CatchException +def 全项目切换英文(txt, top_p, temperature, chatbot, history, sys_prompt, WEB_PORT): + history = [] # 清空历史,以免输入溢出 + # 集合文件 + import time, glob, os + os.makedirs('gpt_log/generated_english_version', exist_ok=True) + os.makedirs('gpt_log/generated_english_version/crazy_functions', exist_ok=True) + file_manifest = [f for f in glob.glob('./*.py') if ('test_project' not in f) and ('gpt_log' not in f)] + \ + [f for f in glob.glob('./crazy_functions/*.py') if ('test_project' not in f) and ('gpt_log' not in f)] + i_say_show_user_buffer = [] + + # 随便显示点什么防止卡顿的感觉 + for index, fp in enumerate(file_manifest): + # if 'test_project' in fp: continue + with open(fp, 'r', encoding='utf-8') as f: + file_content = f.read() + i_say_show_user =f'[{index}/{len(file_manifest)}] 接下来请将以下代码中包含的所有中文转化为英文,只输出代码: {os.path.abspath(fp)}' + i_say_show_user_buffer.append(i_say_show_user) + chatbot.append((i_say_show_user, "[Local Message] 等待多线程操作,中间过程不予显示.")) + yield chatbot, history, '正常' + + # 任务函数 + mutable_return = [None for _ in file_manifest] + def thread_worker(fp,index): + with open(fp, 'r', encoding='utf-8') as f: + file_content = f.read() + i_say = f'接下来请将以下代码中包含的所有中文转化为英文,只输出代码,文件名是{fp},文件代码是 ```{file_content}```' + # ** gpt request ** + gpt_say = predict_no_ui_long_connection(inputs=i_say, top_p=top_p, temperature=temperature, history=history, sys_prompt=sys_prompt) + mutable_return[index] = gpt_say + + # 所有线程同时开始执行任务函数 + handles = [threading.Thread(target=thread_worker, args=(fp,index)) for index, fp in enumerate(file_manifest)] + for h in handles: + h.daemon = True + h.start() + chatbot.append(('开始了吗?', f'多线程操作已经开始')) + yield chatbot, history, '正常' + + # 循环轮询各个线程是否执行完毕 + cnt = 0 + while True: + time.sleep(1) + th_alive = [h.is_alive() for h in handles] + if not any(th_alive): break + stat = ['执行中' if alive else '已完成' for alive in th_alive] + stat_str = '|'.join(stat) + cnt += 1 + chatbot[-1] = (chatbot[-1][0], f'多线程操作已经开始,完成情况: {stat_str}' + ''.join(['.']*(cnt%4))) + yield chatbot, history, '正常' + + # 把结果写入文件 + for index, h in enumerate(handles): + h.join() # 这里其实不需要join了,肯定已经都结束了 + fp = file_manifest[index] + gpt_say = mutable_return[index] + i_say_show_user = i_say_show_user_buffer[index] + + where_to_relocate = f'gpt_log/generated_english_version/{fp}' + with open(where_to_relocate, 'w+', encoding='utf-8') as f: f.write(gpt_say.lstrip('```').rstrip('```')) + chatbot.append((i_say_show_user, f'[Local Message] 已完成{os.path.abspath(fp)}的转化,\n\n存入{os.path.abspath(where_to_relocate)}')) + history.append(i_say_show_user); history.append(gpt_say) + yield chatbot, history, '正常' + time.sleep(1) + + # 备份一个文件 + res = write_results_to_file(history) + chatbot.append(("生成一份任务执行报告", res)) + yield chatbot, history, '正常' diff --git a/crazy_functions/高级功能函数模板.py b/crazy_functions/高级功能函数模板.py index bbaa545..4cf1cb9 100644 --- a/crazy_functions/高级功能函数模板.py +++ b/crazy_functions/高级功能函数模板.py @@ -1,16 +1,24 @@ -from predict import predict_no_ui -from toolbox import CatchException, report_execption, write_results_to_file, predict_no_ui_but_counting_down -fast_debug = False +from predict import predict_no_ui_long_connection +from toolbox import CatchException, report_execption, write_results_to_file +import datetime @CatchException def 高阶功能模板函数(txt, top_p, temperature, chatbot, history, systemPromptTxt, WEB_PORT): history = [] # 清空历史,以免输入溢出 + chatbot.append(("这是什么功能?", "[Local Message] 请注意,您正在调用一个函数模板,该函数面向希望实现更多有趣功能的开发者,它可以作为创建新功能函数的模板。为了做到简单易读,该函数只有25行代码,不会实时反馈文字流或心跳,请耐心等待程序输出完成。另外您若希望分享新的功能模组,请不吝PR!")) + yield chatbot, history, '正常' # 由于请求gpt需要一段时间,我们先及时地做一次状态显示 + for i in range(5): - i_say = f'我给出一个数字,你给出该数字的平方。我给出数字:{i}' + currentMonth = (datetime.date.today() + datetime.timedelta(days=i)).month + currentDay = (datetime.date.today() + datetime.timedelta(days=i)).day + i_say = f'历史中哪些事件发生在{currentMonth}月{currentDay}日?列举两条并发送相关图片。发送图片时,请使用Markdown,将Unsplash API中的PUT_YOUR_QUERY_HERE替换成描述改事件的三个最重要的单词。' chatbot.append((i_say, "[Local Message] waiting gpt response.")) yield chatbot, history, '正常' # 由于请求gpt需要一段时间,我们先及时地做一次状态显示 - gpt_say = predict_no_ui(inputs=i_say, top_p=top_p, temperature=temperature) # 请求gpt,需要一段时间 + # history = [] 每次询问不携带之前的询问历史 + gpt_say = predict_no_ui_long_connection( + inputs=i_say, top_p=top_p, temperature=temperature, history=[], + sys_prompt="当你想发送一张照片时,请使用Markdown, 并且不要有反斜线, 不要用代码块。使用 Unsplash API (https://source.unsplash.com/1280x720/? < PUT_YOUR_QUERY_HERE >)。") # 请求gpt,需要一段时间 chatbot[-1] = (i_say, gpt_say) history.append(i_say);history.append(gpt_say) diff --git a/functional_crazy.py b/functional_crazy.py index eaa07b7..67cdcfe 100644 --- a/functional_crazy.py +++ b/functional_crazy.py @@ -8,6 +8,7 @@ def get_crazy_functionals(): from crazy_functions.解析项目源代码 import 解析一个C项目的头文件 from crazy_functions.解析项目源代码 import 解析一个C项目 from crazy_functions.高级功能函数模板 import 高阶功能模板函数 + from crazy_functions.代码重写为全英文_多线程 import 全项目切换英文 return { "[实验] 请解析并解构此项目本身": { @@ -37,37 +38,13 @@ def get_crazy_functionals(): "Color": "stop", # 按钮颜色 "Function": 批量生成函数注释 }, - "[实验] 实验功能函数模板": { - "Color": "stop", # 按钮颜色 + "[实验] 把本项目源代码切换成全英文(多线程demo)": { + "Function": 全项目切换英文 + }, + "[实验] 历史上的今天(高阶功能模板函数demo)": { "Function": 高阶功能模板函数 }, } -def on_file_uploaded(files, chatbot, txt): - if len(files) == 0: return chatbot, txt - import shutil, os, time, glob - from toolbox import extract_archive - try: shutil.rmtree('./private_upload/') - except: pass - time_tag = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime()) - os.makedirs(f'private_upload/{time_tag}', exist_ok=True) - for file in files: - file_origin_name = os.path.basename(file.orig_name) - shutil.copy(file.name, f'private_upload/{time_tag}/{file_origin_name}') - extract_archive(f'private_upload/{time_tag}/{file_origin_name}', - dest_dir=f'private_upload/{time_tag}/{file_origin_name}.extract') - moved_files = [fp for fp in glob.glob('private_upload/**/*', recursive=True)] - txt = f'private_upload/{time_tag}' - moved_files_str = '\t\n\n'.join(moved_files) - chatbot.append(['我上传了文件,请查收', - f'[Local Message] 收到以下文件: \n\n{moved_files_str}\n\n调用路径参数已自动修正到: \n\n{txt}\n\n现在您可以直接选择任意实现性功能']) - return chatbot, txt -def on_report_generated(files, chatbot): - from toolbox import find_recent_files - report_files = find_recent_files('gpt_log') - if len(report_files) == 0: return report_files, chatbot - # files.extend(report_files) - chatbot.append(['汇总报告如何远程获取?', '汇总报告已经添加到右侧文件上传区,请查收。']) - return report_files, chatbot diff --git a/main.py b/main.py index 681508a..f51c28f 100644 --- a/main.py +++ b/main.py @@ -1,13 +1,15 @@ import os; os.environ['no_proxy'] = '*' # 避免代理网络产生意外污染 -import gradio as gr +import gradio as gr from predict import predict -from toolbox import format_io, find_free_port +from toolbox import format_io, find_free_port, on_file_uploaded, on_report_generated # 建议您复制一个config_private.py放自己的秘密, 如API和代理网址, 避免不小心传github被别人看到 -from config_private import proxies, WEB_PORT, LLM_MODEL +try: from config_private import proxies, WEB_PORT, LLM_MODEL, CONCURRENT_COUNT, AUTHENTICATION +except: from config import proxies, WEB_PORT, LLM_MODEL, CONCURRENT_COUNT, AUTHENTICATION # 如果WEB_PORT是-1, 则随机选取WEB端口 PORT = find_free_port() if WEB_PORT <= 0 else WEB_PORT +AUTHENTICATION = None if AUTHENTICATION == [] else AUTHENTICATION initial_prompt = "Serve me as a writing and programming assistant." title_html = """

ChatGPT 学术优化

""" @@ -15,7 +17,7 @@ title_html = """

ChatGPT 学术优化

""" # 问询记录, python 版本建议3.9+(越新越好) import logging os.makedirs('gpt_log', exist_ok=True) -try:logging.basicConfig(filename='gpt_log/chat_secrets.log', level=logging.INFO, encoding='utf-8') +try:logging.basicConfig(filename='gpt_log/chat_secrets.log', level=logging.INFO, encoding='utf-8') except:logging.basicConfig(filename='gpt_log/chat_secrets.log', level=logging.INFO) print('所有问询记录将自动保存在本地目录./gpt_log/chat_secrets.log, 请注意自我隐私保护哦!') @@ -24,7 +26,7 @@ from functional import get_functionals functional = get_functionals() # 对一些丧心病狂的实验性功能模块进行测试 -from functional_crazy import get_crazy_functionals, on_file_uploaded, on_report_generated +from functional_crazy import get_crazy_functionals crazy_functional = get_crazy_functionals() # 处理markdown文本格式的转变 @@ -34,6 +36,7 @@ gr.Chatbot.postprocess = format_io from theme import adjust_theme set_theme = adjust_theme() +cancel_handles = [] with gr.Blocks(theme=set_theme, analytics_enabled=False) as demo: gr.HTML(title_html) with gr.Row(): @@ -42,14 +45,15 @@ with gr.Blocks(theme=set_theme, analytics_enabled=False) as demo: chatbot.style(height=1000) chatbot.style() history = gr.State([]) - TRUE = gr.State(True) - FALSE = gr.State(False) with gr.Column(scale=1): with gr.Row(): with gr.Column(scale=12): txt = gr.Textbox(show_label=False, placeholder="Input question here.").style(container=False) with gr.Column(scale=1): - submitBtn = gr.Button("提交", variant="primary") + with gr.Row(): + resetBtn = gr.Button("重置", variant="secondary") + submitBtn = gr.Button("提交", variant="primary") + stopBtn = gr.Button("停止", variant="stop") with gr.Row(): from check_proxy import check_proxy statusDisplay = gr.Markdown(f"Tip: 按Enter提交, 按Shift+Enter换行. \nNetwork: {check_proxy(proxies)}\nModel: {LLM_MODEL}") @@ -67,36 +71,43 @@ with gr.Blocks(theme=set_theme, analytics_enabled=False) as demo: gr.Markdown("上传本地文件供上面的实验性功能调用.") with gr.Row(): file_upload = gr.Files(label='任何文件,但推荐上传压缩文件(zip, tar)', file_count="multiple") - - systemPromptTxt = gr.Textbox(show_label=True, placeholder=f"System Prompt", label="System prompt", value=initial_prompt).style(container=True) - #inputs, top_p, temperature, top_k, repetition_penalty + system_prompt = gr.Textbox(show_label=True, placeholder=f"System Prompt", label="System prompt", value=initial_prompt).style(container=True) with gr.Accordion("arguments", open=False): top_p = gr.Slider(minimum=-0, maximum=1.0, value=1.0, step=0.01,interactive=True, label="Top-p (nucleus sampling)",) - temperature = gr.Slider(minimum=-0, maximum=5.0, value=1.0, step=0.01, interactive=True, label="Temperature",) + temperature = gr.Slider(minimum=-0, maximum=2.0, value=1.0, step=0.01, interactive=True, label="Temperature",) - txt.submit(predict, [txt, top_p, temperature, chatbot, history, systemPromptTxt], [chatbot, history, statusDisplay]) - submitBtn.click(predict, [txt, top_p, temperature, chatbot, history, systemPromptTxt], [chatbot, history, statusDisplay], show_progress=True) + predict_args = dict(fn=predict, inputs=[txt, top_p, temperature, chatbot, history, system_prompt], outputs=[chatbot, history, statusDisplay], show_progress=True) + empty_txt_args = dict(fn=lambda: "", inputs=[], outputs=[txt]) # 用于在提交后清空输入栏 + + cancel_handles.append(txt.submit(**predict_args)) + # txt.submit(**empty_txt_args) 在提交后清空输入栏 + cancel_handles.append(submitBtn.click(**predict_args)) + # submitBtn.click(**empty_txt_args) 在提交后清空输入栏 + resetBtn.click(lambda: ([], [], "已重置"), None, [chatbot, history, statusDisplay]) for k in functional: - functional[k]["Button"].click(predict, - [txt, top_p, temperature, chatbot, history, systemPromptTxt, TRUE, gr.State(k)], [chatbot, history, statusDisplay], show_progress=True) + click_handle = functional[k]["Button"].click(predict, + [txt, top_p, temperature, chatbot, history, system_prompt, gr.State(True), gr.State(k)], [chatbot, history, statusDisplay], show_progress=True) + cancel_handles.append(click_handle) file_upload.upload(on_file_uploaded, [file_upload, chatbot, txt], [chatbot, txt]) for k in crazy_functional: - click_handle = crazy_functional[k]["Button"].click(crazy_functional[k]["Function"], - [txt, top_p, temperature, chatbot, history, systemPromptTxt, gr.State(PORT)], [chatbot, history, statusDisplay] + click_handle = crazy_functional[k]["Button"].click(crazy_functional[k]["Function"], + [txt, top_p, temperature, chatbot, history, system_prompt, gr.State(PORT)], [chatbot, history, statusDisplay] ) try: click_handle.then(on_report_generated, [file_upload, chatbot], [file_upload, chatbot]) except: pass + cancel_handles.append(click_handle) + stopBtn.click(fn=None, inputs=None, outputs=None, cancels=cancel_handles) - -# 延迟函数, 做一些准备工作, 最后尝试打开浏览器 +# gradio的inbrowser触发不太稳定,回滚代码到原始的浏览器打开函数 def auto_opentab_delay(): import threading, webbrowser, time print(f"URL http://localhost:{PORT}") - def open(): time.sleep(2) - webbrowser.open_new_tab(f'http://localhost:{PORT}') + def open(): + time.sleep(2) + webbrowser.open_new_tab(f'http://localhost:{PORT}') t = threading.Thread(target=open) t.daemon = True; t.start() auto_opentab_delay() demo.title = "ChatGPT 学术优化" -demo.queue().launch(server_name="0.0.0.0", share=True, server_port=PORT) +demo.queue(concurrency_count=CONCURRENT_COUNT).launch(server_name="0.0.0.0", share=True, server_port=PORT, auth=AUTHENTICATION) diff --git a/predict.py b/predict.py index cda511e..55a25e6 100644 --- a/predict.py +++ b/predict.py @@ -1,5 +1,16 @@ # 借鉴了 https://github.com/GaiZhenbiao/ChuanhuChatGPT 项目 +""" + 该文件中主要包含三个函数 + + 不具备多线程能力的函数: + 1. predict: 正常对话时使用,具备完备的交互功能,不可多线程 + + 具备多线程调用能力的函数 + 2. predict_no_ui:高级实验性功能模块调用,不会实时显示在界面上,参数简单,可以多线程并行,方便实现复杂的功能逻辑 + 3. predict_no_ui_long_connection:在实验过程中发现调用predict_no_ui处理长文档时,和openai的连接容易断掉,这个函数用stream的方式解决这个问题,同样支持多线程 +""" + import json import gradio as gr import logging @@ -25,7 +36,7 @@ def get_full_error(chunk, stream_response): break return chunk -def predict_no_ui(inputs, top_p, temperature, history=[]): +def predict_no_ui(inputs, top_p, temperature, history=[], sys_prompt=""): """ 发送至chatGPT,等待回复,一次性完成,不显示中间过程。 predict函数的简化版。 @@ -36,7 +47,7 @@ def predict_no_ui(inputs, top_p, temperature, history=[]): history 是之前的对话列表 (注意无论是inputs还是history,内容太长了都会触发token数量溢出的错误,然后raise ConnectionAbortedError) """ - headers, payload = generate_payload(inputs, top_p, temperature, history, system_prompt="", stream=False) + headers, payload = generate_payload(inputs, top_p, temperature, history, system_prompt=sys_prompt, stream=False) retry = 0 while True: @@ -47,8 +58,8 @@ def predict_no_ui(inputs, top_p, temperature, history=[]): except requests.exceptions.ReadTimeout as e: retry += 1 traceback.print_exc() - if MAX_RETRY!=0: print(f'请求超时,正在重试 ({retry}/{MAX_RETRY}) ……') if retry > MAX_RETRY: raise TimeoutError + if MAX_RETRY!=0: print(f'请求超时,正在重试 ({retry}/{MAX_RETRY}) ……') try: result = json.loads(response.text)["choices"][0]["message"]["content"] @@ -58,6 +69,41 @@ def predict_no_ui(inputs, top_p, temperature, history=[]): raise ConnectionAbortedError("Json解析不合常规,可能是文本过长" + response.text) +def predict_no_ui_long_connection(inputs, top_p, temperature, history=[], sys_prompt=""): + """ + 发送至chatGPT,等待回复,一次性完成,不显示中间过程。但内部用stream的方法避免有人中途掐网线。 + """ + headers, payload = generate_payload(inputs, top_p, temperature, history, system_prompt=sys_prompt, stream=True) + + retry = 0 + while True: + try: + # make a POST request to the API endpoint, stream=False + response = requests.post(API_URL, headers=headers, proxies=proxies, + json=payload, stream=True, timeout=TIMEOUT_SECONDS); break + except requests.exceptions.ReadTimeout as e: + retry += 1 + traceback.print_exc() + if retry > MAX_RETRY: raise TimeoutError + if MAX_RETRY!=0: print(f'请求超时,正在重试 ({retry}/{MAX_RETRY}) ……') + + stream_response = response.iter_lines() + result = '' + while True: + try: chunk = next(stream_response).decode() + except StopIteration: break + if len(chunk)==0: continue + if not chunk.startswith('data:'): + chunk = get_full_error(chunk.encode('utf8'), stream_response) + raise ConnectionAbortedError("OpenAI拒绝了请求:" + chunk.decode()) + delta = json.loads(chunk.lstrip('data:'))['choices'][0]["delta"] + if len(delta) == 0: break + if "role" in delta: continue + if "content" in delta: result += delta["content"]; print(delta["content"], end='') + else: raise RuntimeError("意外Json结构:"+delta) + return result + + def predict(inputs, top_p, temperature, chatbot=[], history=[], system_prompt='', stream = True, additional_fn=None): """ @@ -130,7 +176,7 @@ def predict(inputs, top_p, temperature, chatbot=[], history=[], system_prompt='' chunk = get_full_error(chunk, stream_response) error_msg = chunk.decode() if "reduce the length" in error_msg: - chatbot[-1] = (chatbot[-1][0], "[Local Message] Input (or history) is too long, please reduce input or clear history by refleshing this page.") + chatbot[-1] = (chatbot[-1][0], "[Local Message] Input (or history) is too long, please reduce input or clear history by refreshing this page.") history = [] elif "Incorrect API key" in error_msg: chatbot[-1] = (chatbot[-1][0], "[Local Message] Incorrect API key provided.") diff --git a/project_self_analysis.md b/project_self_analysis.md new file mode 100644 index 0000000..c817421 --- /dev/null +++ b/project_self_analysis.md @@ -0,0 +1,122 @@ +# chatgpt-academic项目分析报告 +(Author补充:以下分析均由本项目调用ChatGPT一键生成,如果有不准确的地方全怪GPT) + +## [0/10] 程序摘要: check_proxy.py + +这个程序是一个用来检查代理服务器是否有效的 Python 程序代码。程序文件名为 check_proxy.py。其中定义了一个函数 check_proxy,该函数接收一个代理配置信息 proxies,使用 requests 库向一个代理服务器发送请求,获取该代理的所在地信息并返回。如果请求超时或者异常,该函数将返回一个代理无效的结果。 + +程序代码分为两个部分,首先是 check_proxy 函数的定义部分,其次是程序文件的入口部分,在该部分代码中,程序从 config_private.py 文件或者 config.py 文件中加载代理配置信息,然后调用 check_proxy 函数来检测代理服务器是否有效。如果配置文件 config_private.py 存在,则会加载其中的代理配置信息,否则会从 config.py 文件中读取。 + +## [1/10] 程序摘要: config.py + +本程序文件名为config.py,主要功能是存储应用所需的常量和配置信息。 + +其中,包含了应用所需的OpenAI API密钥、API接口地址、网络代理设置、超时设置、网络端口和OpenAI模型选择等信息,在运行应用前需要进行相应的配置。在未配置网络代理时,程序给出了相应的警告提示。 + +此外,还包含了一个检查函数,用于检查是否忘记修改API密钥。 + +总之,config.py文件是应用中的一个重要配置文件,用来存储应用所需的常量和配置信息,需要在应用运行前进行相应的配置。 + +## [2/10] 程序摘要: config_private.py + +该文件是一个配置文件,命名为config_private.py。它是一个Python脚本,用于配置OpenAI的API密钥、模型和其它相关设置。该配置文件还可以设置是否使用代理。如果使用代理,需要设置代理协议、地址和端口。在设置代理之后,该文件还包括一些用于测试代理是否正常工作的代码。该文件还包括超时时间、随机端口、重试次数等设置。在文件末尾,还有一个检查代码,如果没有更改API密钥,则抛出异常。 + +## [3/10] 程序摘要: functional.py + +该程序文件名为 functional.py,其中包含一个名为 get_functionals 的函数,该函数返回一个字典,该字典包含了各种翻译、校对等功能的名称、前缀、后缀以及默认按钮颜色等信息。具体功能包括:英语学术润色、中文学术润色、查找语法错误、中英互译、中译英、学术中译英、英译中、解释代码等。该程序的作用为提供各种翻译、校对等功能的模板,以便后续程序可以直接调用。 + +(Author补充:这个文件汇总了模块化的Prompt调用,如果发现了新的好用Prompt,别藏着哦^_^速速PR) + + +## [4/10] 程序摘要: functional_crazy.py + +这个程序文件 functional_crazy.py 导入了一些 python 模块,并提供了一个函数 get_crazy_functionals(),该函数返回不同实验功能的描述和函数。其中,使用的的模块包括: + +- crazy_functions.读文章写摘要 中的 读文章写摘要 +- crazy_functions.生成函数注释 中的 批量生成函数注释 +- crazy_functions.解析项目源代码 中的 解析项目本身、解析一个Python项目、解析一个C项目的头文件、解析一个C项目 +- crazy_functions.高级功能函数模板 中的 高阶功能模板函数 + +返回的实验功能函数包括: + +- "[实验] 请解析并解构此项目本身",包含函数:解析项目本身 +- "[实验] 解析整个py项目(配合input输入框)",包含函数:解析一个Python项目 +- "[实验] 解析整个C++项目头文件(配合input输入框)",包含函数:解析一个C项目的头文件 +- "[实验] 解析整个C++项目(配合input输入框)",包含函数:解析一个C项目 +- "[实验] 读tex论文写摘要(配合input输入框)",包含函数:读文章写摘要 +- "[实验] 批量生成函数注释(配合input输入框)",包含函数:批量生成函数注释 +- "[实验] 实验功能函数模板",包含函数:高阶功能模板函数 + +这些函数用于系统开发和测试,方便开发者进行特定程序语言后台功能开发的测试和实验,增加系统可靠稳定性和用户友好性。 + +(Author补充:这个文件汇总了模块化的函数,如此设计以方便任何新功能的加入) + +## [5/10] 程序摘要: main.py + +该程序是一个基于Gradio框架的聊天机器人应用程序。用户可以通过输入问题来获取答案,并与聊天机器人进行对话。该应用程序还集成了一些实验性功能模块,用户可以通过上传本地文件或点击相关按钮来使用这些模块。程序还可以生成对话日志,并且具有一些外观上的调整。在运行时,它会自动打开一个网页并在本地启动服务器。 + + +## [6/10] 程序摘要: predict.py + +该程序文件名为predict.py,主要是针对一个基于ChatGPT的聊天机器人进行交互和预测。 + +第一部分是导入所需的库和配置文件。 + +第二部分是一个用于获取Openai返回的完整错误信息的函数。 + +第三部分是用于一次性完成向ChatGPT发送请求和等待回复的函数。 + +第四部分是用于基础的对话功能的函数,通过stream参数可以选择是否显示中间的过程。 + +第五部分是用于整合所需信息和选择LLM模型生成的HTTP请求。 + +(Author补充:主要是predict_no_ui和predict两个函数。前者不用stream,方便、高效、易用。后者用stream,展现效果好。) + +## [7/10] 程序摘要: show_math.py + +这是一个名为show_math.py的Python程序文件,主要用于将Markdown-LaTeX混合文本转换为HTML格式,并包括MathML数学公式。程序使用latex2mathml.converter库将LaTeX公式转换为MathML格式,并使用正则表达式递归地翻译输入的Markdown-LaTeX混合文本。程序包括转换成双美元符号($$)形式、转换成单美元符号($)形式、转换成\[\]形式以及转换成\(\)形式的LaTeX数学公式。如果转换中出现错误,程序将返回相应的错误消息。 + +## [8/10] 程序摘要: theme.py + +这是一个名为theme.py的程序文件,用于设置Gradio界面的颜色和字体主题。该文件中定义了一个名为adjust_theme()的函数,其作用是返回一个Gradio theme对象,设置了Gradio界面的颜色和字体主题。在该函数里面,使用了Graido可用的颜色列表,主要参数包括primary_hue、neutral_hue、font和font_mono等,用于设置Gradio界面的主题色调、字体等。另外,该函数还实现了一些参数的自定义,如input_background_fill_dark、button_transition、button_shadow_hover等,用于设置Gradio界面的渐变、阴影等特效。如果Gradio版本过于陈旧,该函数会抛出异常并返回None。 + +## [9/10] 程序摘要: toolbox.py + +该文件为Python程序文件,文件名为toolbox.py。主要功能包括: + +1. 导入markdown、mdtex2html、threading、functools等模块。 +2. 定义函数predict_no_ui_but_counting_down,用于生成对话。 +3. 定义函数write_results_to_file,用于将对话记录生成Markdown文件。 +4. 定义函数regular_txt_to_markdown,将普通文本转换为Markdown格式的文本。 +5. 定义装饰器函数CatchException,用于捕获函数执行异常并返回生成器。 +6. 定义函数report_execption,用于向chatbot中添加错误信息。 +7. 定义函数text_divide_paragraph,用于将文本按照段落分隔符分割开,生成带有段落标签的HTML代码。 +8. 定义函数markdown_convertion,用于将Markdown格式的文本转换为HTML格式。 +9. 定义函数format_io,用于将输入和输出解析为HTML格式。 +10. 定义函数find_free_port,用于返回当前系统中可用的未使用端口。 +11. 定义函数extract_archive,用于解压归档文件。 +12. 定义函数find_recent_files,用于查找最近创建的文件。 +13. 定义函数on_file_uploaded,用于处理上传文件的操作。 +14. 定义函数on_report_generated,用于处理生成报告文件的操作。 + +## 程序的整体功能和构架做出概括。然后用一张markdown表格整理每个文件的功能。 + +这是一个基于Gradio框架的聊天机器人应用,支持通过文本聊天来获取答案,并可以使用一系列实验性功能模块,例如生成函数注释、解析项目源代码、读取Latex论文写摘要等。 程序架构分为前端和后端两个部分。前端使用Gradio实现,包括用户输入区域、应答区域、按钮、调用方式等。后端使用Python实现,包括聊天机器人模型、实验性功能模块、模板模块、管理模块、主程序模块等。 + +每个程序文件的功能如下: + +| 文件名 | 功能描述 | +|:----:|:----:| +| check_proxy.py | 检查代理服务器是否有效 | +| config.py | 存储应用所需的常量和配置信息 | +| config_private.py | 存储Openai的API密钥、模型和其他相关设置 | +| functional.py | 提供各种翻译、校对等实用模板 | +| functional_crazy.py | 提供一些实验性质的高级功能 | +| main.py | 基于Gradio框架的聊天机器人应用程序的主程序 | +| predict.py | 用于chatbot预测方案创建,向ChatGPT发送请求和获取回复 | +| show_math.py | 将Markdown-LaTeX混合文本转换为HTML格式,并包括MathML数学公式 | +| theme.py | 设置Gradio界面的颜色和字体主题 | +| toolbox.py | 定义一系列工具函数,用于对输入输出进行格式转换、文件操作、异常捕捉和处理等 | + +这些程序文件共同组成了一个聊天机器人应用程序的前端和后端实现,使用户可以方便地进行聊天,并可以使用相应的实验功能模块。 + diff --git a/toolbox.py b/toolbox.py index 284067c..f0ec566 100644 --- a/toolbox.py +++ b/toolbox.py @@ -2,7 +2,7 @@ import markdown, mdtex2html, threading from show_math import convert as convert_math from functools import wraps -def predict_no_ui_but_counting_down(i_say, i_say_show_user, chatbot, top_p, temperature, history=[]): +def predict_no_ui_but_counting_down(i_say, i_say_show_user, chatbot, top_p, temperature, history=[], sys_prompt=''): """ 调用简单的predict_no_ui接口,但是依然保留了些许界面心跳功能,当对话太长时,会自动采用二分法截断 """ @@ -14,10 +14,10 @@ def predict_no_ui_but_counting_down(i_say, i_say_show_user, chatbot, top_p, temp # list就是最简单的mutable结构,我们第一个位置放gpt输出,第二个位置传递报错信息 mutable = [None, ''] # multi-threading worker - def mt(i_say, history): + def mt(i_say, history): while True: try: - mutable[0] = predict_no_ui(inputs=i_say, top_p=top_p, temperature=temperature, history=history) + mutable[0] = predict_no_ui(inputs=i_say, top_p=top_p, temperature=temperature, history=history, sys_prompt=sys_prompt) break except ConnectionAbortedError as e: if len(history) > 0: @@ -27,7 +27,8 @@ def predict_no_ui_but_counting_down(i_say, i_say_show_user, chatbot, top_p, temp i_say = i_say[:len(i_say)//2] mutable[1] = 'Warning! Input file is too long, cut into half. ' except TimeoutError as e: - mutable[0] = '[Local Message] Failed with timeout' + mutable[0] = '[Local Message] Failed with timeout.' + raise TimeoutError # 创建新线程发出http请求 thread_name = threading.Thread(target=mt, args=(i_say, history)); thread_name.start() # 原来的线程则负责持续更新UI,实现一个超时倒计时,并等待新线程的任务完成 @@ -39,6 +40,7 @@ def predict_no_ui_but_counting_down(i_say, i_say_show_user, chatbot, top_p, temp time.sleep(1) # 把gpt的输出从mutable中取出来 gpt_say = mutable[0] + if gpt_say=='[Local Message] Failed with timeout.': raise TimeoutError return gpt_say def write_results_to_file(history, file_name=None): @@ -105,8 +107,8 @@ def text_divide_paragraph(text): # wtf input lines = text.split("\n") for i, line in enumerate(lines): - if i!=0: lines[i] = "

"+lines[i].replace(" ", " ")+"

" - text = "".join(lines) + lines[i] = "

"+lines[i].replace(" ", " ")+"

" + text = "\n".join(lines) return text def markdown_convertion(txt): @@ -124,7 +126,7 @@ def format_io(self, y): """ 将输入和输出解析为HTML格式。将y中最后一项的输入部分段落化,并将输出部分的Markdown和数学公式转换为HTML格式。 """ - if y is None: return [] + if y is None or y == []: return [] i_ask, gpt_reply = y[-1] i_ask = text_divide_paragraph(i_ask) # 输入部分太自由,预处理一波 y[-1] = ( @@ -144,7 +146,7 @@ def find_free_port(): s.bind(('', 0)) s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1) return s.getsockname()[1] - + def extract_archive(file_path, dest_dir): import zipfile @@ -165,7 +167,7 @@ def extract_archive(file_path, dest_dir): print("Successfully extracted tar archive to {}".format(dest_dir)) else: return - + def find_recent_files(directory): """ me: find files that is created with in one minutes under a directory with python, write a function @@ -182,6 +184,37 @@ def find_recent_files(directory): if file_path.endswith('.log'): continue created_time = os.path.getctime(file_path) if created_time >= one_minute_ago: + if os.path.isdir(file_path): continue recent_files.append(file_path) - return recent_files \ No newline at end of file + return recent_files + + +def on_file_uploaded(files, chatbot, txt): + if len(files) == 0: return chatbot, txt + import shutil, os, time, glob + from toolbox import extract_archive + try: shutil.rmtree('./private_upload/') + except: pass + time_tag = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime()) + os.makedirs(f'private_upload/{time_tag}', exist_ok=True) + for file in files: + file_origin_name = os.path.basename(file.orig_name) + shutil.copy(file.name, f'private_upload/{time_tag}/{file_origin_name}') + extract_archive(f'private_upload/{time_tag}/{file_origin_name}', + dest_dir=f'private_upload/{time_tag}/{file_origin_name}.extract') + moved_files = [fp for fp in glob.glob('private_upload/**/*', recursive=True)] + txt = f'private_upload/{time_tag}' + moved_files_str = '\t\n\n'.join(moved_files) + chatbot.append(['我上传了文件,请查收', + f'[Local Message] 收到以下文件: \n\n{moved_files_str}\n\n调用路径参数已自动修正到: \n\n{txt}\n\n现在您点击任意实验功能时,以上文件将被作为输入参数']) + return chatbot, txt + + +def on_report_generated(files, chatbot): + from toolbox import find_recent_files + report_files = find_recent_files('gpt_log') + if len(report_files) == 0: return report_files, chatbot + # files.extend(report_files) + chatbot.append(['汇总报告如何远程获取?', '汇总报告已经添加到右侧文件上传区,请查收。']) + return report_files, chatbot